Những ngộ nhận về 'tính đại diện" trong nghiên cứu khoa học 

Năm "căn bệnh" trong khoa học hiện đại

Immortal bias trong nghiên cứu y khoa 

Diễn giải kết quả nghiên cứu khoa học như thế nào? 

Phương pháp ước tính cỡ mẫu cho nghiên cứu khoa học: bài giảng 

Phương pháp ước tính cỡ mẫu cho nghiên cứu khoa học: hỏi & đáp 

Những sai sót và thiếu sót trong phân tích dữ liệu

Chương trình thực hành trong workshop Applied Data Analytics 23/12 đến 29/12/2018 

Bắt đầu nghiên cứu như thế nào?

 

Giả dụ như bạn đã có một ý tưởng để làm nghiên cứu, bước kế tiếp là phải suy nghĩ làm sao để thực hiện ý tưởng. Nhưng để cho việc suy nghĩ cách thực hiện tốt, bạn cần phải rất cụ thể về chi tiết, và phải bắt đầu với câu hỏi nghiên cứu và mục tiêu nghiên cứu. Cách tiếp cận vấn đề sẽ được xây dựng trên cơ sở của mục tiêu nghiên cứu.

 

Nếu là nghiên cứu trên người, cách tiếp cận một câu hỏi nghiên cứu phải dựa trên nhiều yếu tố. Nhưng tựu trung lại là:

 

  • Mô hình nghiên cứu là gì?

  • Đối tượng nghiên cứu là ai?

  • Đo lường những gì, tức là dữ liệu cần thu thập là gì?

  • Phân tích dữ liệu ra sao?

 

1.  Mô hình nghiên cứu

 

Trong nghiên cứu lâm sàng, hay nghiên cứu y học nói chung, việc chọn mô hình nghiên cứu là rất quan trọng, vì nó quyết định giá trị khoa học của nghiên cứu. Cùng là một câu hỏi nghiên cứu, các bạn có nhiều mô hình để tiếp cận. Chẳng hạn như nếu các bạn muốn biết ăn chay có lợi hay hại đến sức khỏe, cụ thể là bệnh loãng xương, các bạn có thể chọn nghiên cứu so sánh hai nhóm người ăn chay và ăn mặn. Nhưng trong thực tế thì có nhiều mô hình so sánh. Nhìn chung, nghiên cứu y học / lâm sàng trên người có thể chia thành 5 mô hình, giá trị cao nhất đến thấp nhất:

 

  • Phân tích tổng hợp các nghiên cứu RCT (randomized controlled trials);

 

  • Nghiên cứu RCT: chia bệnh nhân một cách ngẫu nhiên thành hai nhóm, nhóm can thiệp và nhóm chứng;

 

  • Nghiên cứu đoàn hệ (prospective cohort study): đây là nghiên cứu quan sát (không can thiệp), theo dõi một nhóm người theo thời gian;

 

  • Nghiên cứu bệnh chứng (case - control study): đây cũng là nghiên cứu quan sát, nhà nghiên cứu chọn một nhóm bệnh và một nhóm chứng, rồi so sánh các yếu tố lâm sàng giữa hai nhóm;

 

  • Nghiên cứu thiết diện (hay cắt ngang, hay cross-sectional study): cũng là nghiên cứu không can thiệp, nói đúng ra nó là một dạng survey hay điều tra xã hội. 

 

Trong thực tế thì còn nhiều mô hình nghiên cứu khác. Chẳng hạn như case report, case series (một số ca lâm sàng thú vị), nghiên cứu tương quan ecology, và mô hình cross-over. Tuy nhiên, những mô hình trên đây giúp cho các bạn suy nghĩ về nghiên cứu khoa học và cách tiếp cận câu hỏi nghiên cứu.

 

Tuỳ vào mục tiêu, ngân sách, và thời gian, nhà nghiên cứu phải có cách chọn mô hình thích hợp. Nếu mục tiêu là đánh giá hiệu quả của một thuật can thiệp (có thể là thuốc, thuật giải phẫu, chương trình y tế) thì có thể xem mô hình RCT hay biến thái của mô hình RCT. Nếu mục tiêu là đánh giá mối liên quan giữa một yếu tố nguy cơ đến một bệnh lí, thì nghiên cứu đoàn hệ có thể là lựa chọn tối ưu. Nếu mục tiêu là tìm hiểu mối liên quan giữa yếu tố nguy cơ và bệnh, nhất là bệnh hiếm, thì mô hình bệnh chứng có lẽ là một lựa chọn tốt. Còn nếu chỉ muốn tìm hiểu số người mắc bệnh hay yếu tố nguy cơ thì nghiên cứu thiết diện là một mô hình cần xem xét.

 

Mỗi mô hình nghiên cứu có những điểm mạnh và điểm yếu. Chẳng hạn như mô hình RCT thì rất đắt tiền, vì phải theo dõi bệnh nhân một thời gian, và phải can thiệp nữa, nên cần hẳn một ban bệ để thực hiện nghiên cứu. Đối với những nghiên cứu qui mô trên vài ngàn bệnh nhân, người ta phải chọn nhà nghiên cứu cẩn thận (với lí lịch khoa học "xem được" và thành tích khoa học xứng đáng để được làm nghiên cứu RCT). Nghiên cứu đoàn hệ tuy không can thiệp, nhưng cũng khó thực hiện, vì phải theo dõi bệnh nhân theo thời gian, có khi 5 hay 10 năm, mới có dữ liệu để phân tích. Nghiên cứu bệnh chứng tuy rất dễ làm nhưng giá trị khoa học thì không cao như các mô hình khác. Còn nghiên cứu thiết diện thì chỉ là một dạng điều tra xã hội, tuy dễ thực hiện, nhưng nếu thu thập dữ liệu không tốt thì cũng chẳng có giá trị gì. Do đó, cần phải cân nhắc cẩn thận việc chọn mô hình nghiên cứu để giải quyết câu hỏi nghiên cứu.

 

Tất cả các mô hình nghiên cứu có giá trị phải có cái gọi là nhóm chứng (control). Một nghiên cứu không có nhóm chứng thì rất khó diễn giải. Để biết hiệu quả của một phẫu thuật mới, mà chỉ có một nhóm bệnh nhân được mổ bằng phương pháp mới là chưa đủ, mà cần phải so sánh với một nhóm bệnh nhân được mổ bằng phương pháp hiện hành. Dĩ nhiên, có khi rất khó tìm nhóm chứng, nhưng nhà nghiên cứu cần phải "sáng tạo" nghĩ ra cách làm sao cho có nhóm chứng.

 

Quay lại ví dụ về ăn chay, sau khi xem xét qua y văn, tôi thấy các nghiên cứu trước đây toàn là nghiên cứu quan sát hay nghiên cứu bệnh chứng. Do đó, để có cái mới trong nghiên cứu, tôi quyết định chọn mô hình RCT. Theo mô hình này, tôi sẽ chọn một số người (không hẳn là bệnh nhân, mà là người bình thường), sau đó tôi sẽ dùng phương pháp thống kê để chia thành hai nhóm ngẫu nhiên. Nhóm 1 sẽ được ăn chay suốt 3 năm liền, và nhóm hai là ăn mặn cũng 3 năm.  Trong thời gian 3 năm tôi sẽ theo dõi xem có bao nhiêu người bị gãy xương trong mỗi nhóm, và so sánh nguy cơ gãy xương giữa hai nhóm để đánh giá hiệu quả của ăn chay.

 

2.  Đối tượng nghiên cứu

 

Sau khi đã quyết định một mô hình nghiên cứu, bước kế tiếp là chọn đối tượng nghiên cứu. Nếu là nghiên cứu trên người, cần phải suy nghĩ trước hết là chọn người ở giới tính nào, nam hay nữ, hay cả nam và nữ, và người ở độ tuổi nào. Ngoài ra, cần phải suy nghĩ đến các tiêu chuẩn loại trừ, tức là những đối tượng không nên tuyển vào nghiên cứu. Ví dụ như trong nghiên cứu ăn chay, có thể tôi chỉ chọn những phụ nữ trên 60 tuổi (vì nam thì khó ăn chay và họ ăn nhậu nhiều quá), những người không có tiền sĩ gãy xương, những người không mắc những bệnh có liên quan đến sự chuyển hóa của xương. Nhưng tôi sẽ loại bỏ những người đang dùng thuốc có tác động đến sức khỏe của xương, hay những người bị đột quị, v.v. Đây là những tiêu chuẩn cần phải suy nghĩ cẩn thận, và đòi hỏi nhà nghiên cứu phải am hiểu vấn đề, am hiểu về bệnh lí loãng xương, và suy nghĩ về tương lai.

 

Chọn đối tượng nghiên cứu còn có ý nghĩa hợp lí ngoại tại (external validity). Một công trình nghiên cứu có giá trị khoa học phải đáp ứng hai tiêu chuẩn: hợp lí nội tại (internal validity) và hợp lí ngoại tại. Hợp lí nội tại (sẽ bàn dưới đây) liên quan đến đo lường, còn hợp lí ngoại tại là liên quan đến cách chúng ta chọn đối lượng nghiên cứu. Kết quả nghiên cứu, theo lí thuyết, chỉ được khái quát hóa cho những người đáp ứng tiêu chuẩn chọn vào và tiêu chuẩn loại trừ.

 

Một trong những nghiên cứu "favorite" mà tôi hay nói với các bạn học viên là nghiên cứu để đánh giá sự ảnh hưởng của môi trường không trọng lực đến xương. Dân trong nghề ai cũng biết xương là một mô động (chứ không phải tĩnh như người ta nghĩ). Khi chúng ta luyện tập thể dục thì xương cũng sẽ đáp ứng theo. Đó chính là lí do tại sao người ta khuyến cáo nên tập thể dục để giảm nguy cơ gãy xương. Nhưng làm sao để "chứng minh" được ý tưởng này? Các nhà nghiên cứu Mĩ nghĩ ra một cách làm rất hay. Họ chọn đối tượng là những phi hành gia. Phi hành gia khi bay lên vũ trụ, họ phải sống trong môi trường không có trọng lực, và nếu giả thuyết kia đúng thì khi họ đáp xuống mặt đất, mật độ xương phải giảm. Thế là các nhà nghiên cứu đo mật độ xương của những phi hành gia trước khi bay và sau khi đáp xuống mặt đất. Kết quả cho thấy chỉ trong vòng 1 tháng hay ngắn hơn, mật độ xương của họ suy giảm đến 3-5%, có người giảm đến 10%. Ngoài ra, họ còn bị suy giảm về lượng cơ và trở nên yếu đuối. (Đó chính là lí do tại sao khi đáp xuống mặt đất họ phải được khiêng, chứ không cho bước đi, vì rất dễ bị gãy xương)

 

Một nghiên cứu khác cũng thú vị không kém, là họ chọn các nữ sinh chơi vợt, họ đo mật độ xương ở tay phải và tay trái. Giả thuyết là nếu người thuận tay phải thì mật độ xương tay phải sẽ cao hơn tay trái, và quả thật như thế. Đó là một cách thiết kế nghiên cứu vừa đơn giản nhưng lại vừa thuyết phục (vì so sánh cùng một cá nhân). Nói chung, có rất nhiều cách tiếp cận câu hỏi nghiên cứu qua cách chọn đối tượng. Nhưng tất cả đều cần phải suy nghĩ và bàn bạc với người có kinh nghiệm.

 

 

3.  Đo lường cái gì?

 

Dữ liệu là trái tim của một nghiên cứu. Điều này có nghĩa là đo lường đóng vai trò hết sức quan trọng trong một nghiên cứu. Khi nói đo lường, chúng ta nói đến hai yếu tố sau đây: số liệu nào cần thu thập, và phương pháp đo lường là gì.

 

Số liệu nào cần thu thập? Câu trả lời là cần phải chia các biến số (dữ liệu) thành 3 nhóm chính. Nhóm 1 là các số liệu liên quan đến outcome. Nhóm 2 là các số liệu liên quan đến yếu tố can thiệp hay factors. Nhóm 3 là các số liệu liên quan đến các yếu tố nhiễu hay confounding factors hay covariates. Một cách khác để biết mình cần đo lường những gì là đọc các bài báo khoa học trước đây, xem các tác giả họ đã đo lường những biến số nào và dùng phương pháp nào. Chúng ta cần phải biết những nghiên cứu trong quá khứ để kết quả của chúng ta có thể dùng làm so sánh với họ. Dĩ nhiên, ngoài những gì người ta đo lường, chúng ta cũng phải có cái mới của mình, chứ không phải chỉ thuần túy là "me too".

 

Biến outcome là biến quyết định thành bại hay hiệu quả hay effect của nghiên cứu. Ví dụ như nghiên cứu về loãng xương, biến outcome có thể là mật độ xương hoặc gãy xương. Vấn đề là chờ cho người ta bị gãy xương (xin lỗi, hơi vô duyên) thì rất lâu và cũng không có bao nhiêu người bị, nên có thể chúng ta phải dùng mật độ xương làm outcome. Nhưng để chắc ăn, chúng ta phải đo cả các marker chu chuyển xương. Lí do là nếu chúng ta quan sát rằng ăn chay có ảnh hưởng đến mật độ xương, có thể có người phản bác rằng đó là kết quả ngẫu nhiên, và để thuyết phục kết quả không phải do ngẫu nhiên, chúng ta phải có số liệu về bone marker để trình bày và lí giải. Điều này đòi hỏi nhà nghiên cứu phải tìm tư vấn từ một người có kinh nghiệm về chuyên ngành loãng xương để biết mình cần đo lường cái gì.

 

Biến risk factors hay yếu tố nguy cơ mà nhà nghiên cứu cần đo tuỳ thuộc vào mục tiêu nghiên cứu. Chẳng hạn như nếu tôi quan tâm đến mối liên quan giữa thuốc statin và loãng xương, thì các thông tin về statin là yếu tố nguy cơ.  Những thông tin cần thu thập có thể là loại thuốc statin cụ thể, thời gian sử dụng cụ thể, liều lượng, chỉ định, v.v. Nếu tôi quan tâm đến béo phì và tử vong, thì yếu tố nguy cơ ở đây là béo phì. Tôi phải suy nghĩ dùng số liệu gì để phản ảnh béo phì. Người "nhà nghèo" thì có thể dùng cân nặng và chiều cao để tính body mass index (BMI), nhưng người có "insight" và "serious" thì dùng tỉ trọng mỡ (percent body fat) để phản ảnh cái gọi là "béo phì". Dĩ nhiên, tỉ trọng mỡ đo bằng máy DXA là tiêu chuẩn vàng, còn BMI thì giá trị khoa học không cao, chủ yếu cho những người làm về y tế công cộng. Tóm lại, những biến risk factors cần phải suy nghĩ thấu đáo và chú ý đến giá trị khoa học của chúng.

 

Biến covariates hay tạm hiểu là biến confounding factors là những biến có liên quan đến outcome và risk factors. Đây là những yếu tố có thể làm cho nhà nghiên cứu ... nhức đầu. Chẳng hạn như nếu tôi quan sát mối liên quan giữa bệnh thoái hóa khớp và loãng xương (ví dụ như người bị thoái hóa khớp có nguy cơ loãng xương cao hơn người không bị thoái hóa khớp), thì câu hỏi đặt ra là mối liên quan này có thể không thật, mà nó bị "gây rối" bởi một yếu tố khác. Yếu tố khác đó có thể đơn giản là độ tuổi. Người cao tuổi (trên 60 chẳng hạn) có nguy cơ bị thoái hóa khớp tăng, nhưng họ cũng có nguy cơ bị loãng xương cao; thành ra, mối liên quan giữa thoái hóa khớp và loãng xương mà chúng ta quan sát là không thật, mà là do độ tuổi. Do đó, chúng ta cần phải thu thập thông tin về độ tuổi, và câu hỏi đặt ra là: ở mỗi độ tuổi, người bị thoái hóa khớp có nguy cơ bị loãng xương cao hơn người không bị thoái hóa khớp hay không? Nếu câu trả lời là có, thì chúng ta mới có bằng chứng để nói rằng mối liên quan giữa hai bệnh là thật. Điều này có nghĩa là trước khi làm nghiên cứu, nhà nghiên cứu phải suy nghĩ tất cả các yếu tố nhiễu (confounding factors) và phải đo lường tất cả.

 

Ngoài ra, còn phải suy nghĩ lâu dài, chứ không phải kiểu làm ngắn hạn. Có nhiều bạn chỉ muốn làm nghiên cứu để có một luận văn làng nhàng, làm cho có, làm cho qua, chứ không suy nghĩ xa. Nhưng các bạn cần phải luyện tập suy nghĩ xa. Phải suy nghĩ sau 10 năm hay 20 năm, các bạn vẫn có thể quay lại số liệu nghiên cứu để giải quyết một vấn đề nào đó. Điều này có nghĩa là trong nghiên cứu lâm sàng, các bạn cần phải lưu trữ sinh phẩm (như mẫu máu, mẫu nước tiểu, mô, tế bào, v.v.) hết sức kĩ lưỡng. Chẳng hạn như nếu 20 năm sau có người phát hiện gen có liên quan đến độ dày của động mạch, thì các bạn lúc đó chỉ cần lấy mẫu máu ra, tách DNA và phân tích gen đó và kiểm định giả thuyết trong nghiên cứu của mình. Như thế là các bạn vẫn có khả năng đóng góp vào y văn dù nghiên cứu đã kết thức 20 năm trước. Nên nhớ là các bạn phải suy nghĩ xa, chứ đừng suy nghĩ thiển cận. 

 

Phẩm chất của số liệu và đo lường phản ảnh giá trị hợp lí nội tại. Như tôi từng nói, cái yếu tố quan trọng nhất của nghiên cứu khoa học là hợp lí nội tại, chứ không phải hợp lí ngoại tại. Nếu phương pháp đo lường "dỏm", phẩm chất số liệu thấp, và tính hợp lí nội tại rất thấp. Nếu hợp lí nội tại thấp, thì cho dù nghiên cứu có tính đại diện cũng chẳng có giá trị khoa học gì, mà chỉ là một đống số liệu vô hồn.

 

4.  Phân tích ra sao?

 

Sau khi nghĩ đến dữ liệu cần thu thập hay yếu tố cần đo lường, các bạn phải suy nghĩ làm gì với dữ liệu. Dĩ nhiên, các bạn nghĩ đến phân tích dữ liệu. Rất nhiều người không nghĩ đến khâu phân tích dữ liệu, nên khi thu thập xong dữ liệu, họ cảm thấy lúng túng, không biết phải làm cái gì trước, cái gì sau. Do đó, bất cứ đề cương nghiên cứu nào cũng phải có phần phân tích dữ liệu. Trong phần này, các bạn phải định nghĩa biến outcome là gì, biến risk factors là gì, biến confounders là gì, và xác định mô hình thống kê để phân tích.

 

Những vấn đề trong phân tích dữ liệu thì rất nhiều, nhà khoa học khó có thể lường trước tất cả tình huống. Tuy nhiên, những vấn đề thường nảy sinh trong thực tế khoa học là hoán chuyển dữ liệu (vì dữ liệu không tuân theo luật phân bố chuẩn), xử lí dữ liệu trống (missing values), phương pháp chọn biến số liên quan, và kiểm định kết quả phân tích (validation). Đối với các tập san lớn và uy tín, như New England Journal of Medicine chẳng hạn, họ đòi tác giả phải nộp kế hoạch phân tích dữ liệu và kế hoạch đó phải được phê chuẩn bởi một giáo sư, trước khi họ chịu xem qua bài báo hay không. Do đó, các bạn phải suy nghĩ và viết ra kế hoạch phân tích dữ liệu để thuyết phục người khác là mình biết mình làm cái gì.

 

Tôi phải nói thêm là phân tích dữ liệu càng ngày càng quan trọng, và nó là yếu tố quyết định sự thành bại của một bài báo khoa học. Ngày nay, các bạn đừng nghĩ mình dùng SPSS hay Stata hay những nhu liệu như thế là đủ. Sai lầm to. Những nhu liệu đó chỉ thích hợp cho một đẳng cấp nghiên cứu thấp mà thôi; các bạn muốn có đẳng cấp cao hơn thì phải dùng đến R. Các bạn không phải tin tôi, mà hãy nhìn vào các bài báo trên PLoS Genetics, PLoS Medicine, PLoS Biology, PLoS ONE, các tập san trong nhóm Nature (như Nature Genetics, Nature Communications, Nature Scientific Reports, v.v.) sẽ thấy những hình ảnh và biểu đồ phần lớn là từ R. Nghiên cứu khoa học ngày nay đã đi xa cái thời của SPSS và Stata lâu lắm rồi.

 

***

 

Trên đây là 4 yếu tố các bạn cần phải suy nghĩ khi bắt đầu nghiên cứu. Sau khi đã có ý tưởng, các bạn phải suy nghĩ đến một mô hình nghiên cứu thích hợp, đến đối tượng nghiên cứu, đến đo lường, và phân tích dữ liệu. Nhà nghiên cứu có kinh nghiệm có thể tiên đoán ngay từ lúc lên kế hoạch là kết quả này sẽ có thể đăng trên tập san nào. Như các bạn thấy, trong các mô hình trên, tôi không bàn đến vấn đề "tính đại diện" vì tôi nghĩ đó là yếu tố không quan trọng và có khi không cần thiết.

 

Những gì tôi mô tả trên đây chủ yếu là cho nghiên cứu y học. Trong thực tế, các nghiên cứu khoa học xã hội (KHXH) thì phong phú hơn nhiều và cách họ thiết kế thí nghiệm cũng đầy sáng tạo so với nghiên cứu y học. Một phần, tôi nghĩ giới nghiên cứu y khoa rất bảo thủ, họ không táo bạo như trong nghiên cứu KHXH. Dưới đây là vài nghiên cứu (thí nghiệm KHXH) mà tôi nghĩ là hết sức thú vị và tôi viết lại để các bạn thấy nghiên cứu KHXH phong phú hơn nhiều so với những gì mà ở VN người ta hay nghĩ đến (là chính trị). Không cần phải 'đao to búa lớn' nghiên cứu về chủ nghĩa này hay tư tưởng kia, chỉ cần tập trung vào tìm câu hỏi nghiên cứu cho tốt và làm thí nghiệm cho tốt thì KHXH Việt Nam sẽ có hiện diện xứng đáng trên trường quốc tế.

Garvan Institute of Medical Research

© 2018 Tuan V Nguyen. Proudly created with Wix.com

  • RG
  • Twitter Social Icon
  • LinkedIn Social Icon
  • Blogger Social Icon