Phương pháp nghiên cứu khoa học - Bài 3: Đại cương về phân tích số liệu

doc 15 trang hapham 3690
Bạn đang xem tài liệu "Phương pháp nghiên cứu khoa học - Bài 3: Đại cương về phân tích số liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • docdai_cuong_ke_phan_tich_so_lieu.doc

Nội dung text: Phương pháp nghiên cứu khoa học - Bài 3: Đại cương về phân tích số liệu

  1. Ðại cương về phân tích số liệu Phép ước lượng Dân số và mẫu Thơng thường chúng ta khơng thể nghiên cứu tồn bộ dân số mà chúng ta quan tâm. Chúng ta thường chỉ cĩ thể nghiên cứu chỉ một phần dân số đĩ, phần này được gọi là mẫu (sample) và từ đĩ ước đốn về những đặc tính của dân số. Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để cĩ được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để cĩ được đặc trưng của dân số (được gọi là tham số - parameter) Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi lấy mẫu ngẫu nhiên đơn, chúng ta cĩ thể tính được giá trị trung bình và độ lệch chuẩn của mẫu. Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ cĩ phân phối bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số. Do đĩ nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn: s s2 s.e. n n Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số cịn sai số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số). Ước lượng khoảng tin cậy của trung bình Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung bình của dân số, nên chúng ta cĩ thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu. Nhưng do trung bình mẫu cĩ dao động, chúng ta khơng chắc là trung bình mẫu sẽ chính xác bằng trung bình của dân số mà chỉ cĩ thể tin là trung bình dân số nằm ở vị trí đâu đĩ chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số khơng nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của biến sơ định lượng Khoảng tin cậy 95% (95% CI) : x 1,96s/n Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta khơng thể sử dụng giá trị 1,96 như trong cơng thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do.
  2. Khoảng tin cậy 95% (95% CI) : x t(1- /2) s/n Bài tập: 1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp. Sử dụng cơng thức trên ta tính được: 95%CI=3096.74 - 3145.26 gram. 2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình. Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dị bảng phân phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đĩ chúng ta tính được khoảng tin cậy 95% 95%CI=164.87 - 164.87. Ước lượng khoảng tin cậy của tỉ lệ Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đĩ dựa vào p để ước lượng khoảng tin cậy 95% của p p(1 - p) p(1 - p) p 1,96 p 1,96 n đến n Bài tập Điều tra trên 127 thanh niên cĩ 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá. Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào cơng thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438 Suy luận thống kê Kiểm định ý nghĩa Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng. Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì khơng B sẽ kéo theo khơng A. A B B A Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân cĩ bí trung tiện hay khơng. Giả sử bệnh nhân khơng bí trung tiện thì chúng ta sẽ bác cỏ chẩn đốn tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân khơng bí trung tiện nên bệnh nhân khơng bị tắc ruột. Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đốn (thí dụ như chẩn đốn tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nơn ĩi, bí trung tiện và chướng bụng). Việc khơng cĩ một trong
  3. các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân khơng cĩ đau bụng, khơng cĩ nơn ĩi, khơng bị bí trung tiện hay khơng cĩ chướng bụng) thì chúng ta cĩ thể bác bỏ chẩn đốn. Các biến cố nằm ngồi các hệ quả phổ biến của giả thuyết (biến cố khơng cĩ đau bụng, khơng cĩ nơn ĩi, khơng bị bí trung tiện hay khơng cĩ chướng bụng) được gọi là miền bác bỏ của chẩn đốn. Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngồi miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền nằm ngồi miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ. Hình Error! Bookmark not defined Nguyên tắc kiểm định ý nghĩa theo Fisher. Đường cong phân phối hình chuơng thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho và cĩ diện tích là xác suất sai lầm loại 1 (5%). Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau: - Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ cĩ thể bác bỏ chứ khơng thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết thống kê Ho là hút thuốc lá khơng phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này. - Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới cĩ thể tính được phân phối của thống kê. Giả thuyết Ho khơng thể thể hiện bằng
  4. bất đẳng thức (Ho: RR>1 là sai) - Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số thống kê T cĩ nằm trong miền bác bỏ hay khơng người ta tính xác suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng cơng thức: P (>T |Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta cĩ thể bác bỏ giả thuyết Ho. Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi- Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau: P > |T| (nếu kiểm định t) P > |z| (nếu kiểm định z) Prob > chi2 (kiểm định chi bình phương) Prob > F (Kiểm định F; Kiểm định ANOVA) Kiểm định giả thuyết Khuyết điểm của phương pháp kiểm định ý nghĩa khi khơng bác bỏ được giả thuyết H 0 chúng ta khơng biết được xác suất H 0 đúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đĩ cĩ xét đến sai lầm loại 2. Phát biển H0 ; Ha Tính số thống kê (z; t; chi2; F) Thực hiện nghiên Xác suất sai Xác suất sai Không nhỏ Không nhỏ cứu với cỡ mẫu lầm loại 1 lầm loại 2 tra bảng tính p lớn hơn Nhỏ Nhỏ Chấp nhận giả Bác bỏ giả thuyết thuyết Sai lầm loại một và sai lầm loại hai Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng. Sai lầm loại hai: Khơng bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai. Trong nghiên cứu thống kê người ta khơng bao giờ cĩ thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H 0, người nghiên cứu cĩ thể bị sai lầm (sai lầm loại một - với một xác suất nào đĩ). Khi nhà nghiên cứu khơng bác bỏ giả thuyết H 0,
  5. nhà nghiên cứu cũng cĩ thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đĩ). Một điều nên nhớ là bằng kiểm định thống kê người ta cĩ thể xác định được xác suất sai lầm loại một nhưng khơng thể tính được xác suất sai lầm loại hai mà chỉ cĩ thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu. Ðơi khi người ta cịn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu. Bảng Error! Bookmark not defined Tĩm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nĩ Chân lí là Ho đúng Chân lí là Ha đúng (Khơng cĩ sự khác biệt) (Khơng cĩ sự khác biệt) Bác bỏ giả thuyết H0 Sai lầm loại 1 Kết luận đúng (Xác suất = ) (Xác suất = 1- = Power của nghiên cứu) Khơng bác bỏ giả thuyết H0 Kết luận đúng Sai lầm loại II (Xác suất = 1- ) (Xác suất = ) Chọn lựa kiểm định phù hợp Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H 0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu. Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu Loại thiết kế nghiên cứu Hai nhĩm Ba (hay Trước và Nhiều điều Liên hệ điều trị nhiêù) sau một trị trên cùng giữa hai gồm các cá nhĩm điều điều trị các đối biến số Thang đo của biến số nhân khác trị gồm các (hoặc 2 tượng phụ thuộc nhau cá nhân điều trị) ở khác nhau trên cùng các đối tượng Ðịnh lượng (mẫu rút từ t-test khơng Phân tích t-test bắt Phân tích Hồi quy một dân số cĩ phân phối bắt cặp phương sai cặp phương sai tuyến tính bình thường và phương đo lường và tương sai hai nhĩm đồng nhất lập lại quan pearson Ðịnh tính - Danh định 2 bảng 2 x 2 bảng 3 x test Cochrance Hệ số của n n McNemar Q bảng n x m (phi, OR, RR)
  6. Ðịnh tính -Thứ tự Kiểm định Kruskal- Kiểm định Friedman hệ số tương (hay biến định lượng tổng sắp Wallis sắp hạng cĩ quan khơng bình thường) hạng dấu Spearman Mann- Wilcoxon Whitney Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ thuộc Biến phụ thuộc Biến độc lập Nhị giá Danh định (hoặc thứ Định lượng, đa tự) biến (hoặc thứ tự) Định lượng phân phối bình T-test ANOVA Hồi quy tuyến tính thường Biến định lượng phân phối khơng Mann-Whitney Kruskal-Wallis TQ Spearman bình thường – Biến thứ tự Nhị giá Chi bình phương Chi bình phương Hồi quy logistic Sống cịn Wilcoxon tổng quát Wilcoxon tổng quát Hồi quy Cox Logrank Logrank Phép kiểm t bắt cặp Tiên lượng của bệnh nhân suy hơ hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa cĩ phương pháp điều trị hữu hiệu. Tilapur và Mir (Am J Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate cĩ thể cải thiện tình trạng hơ hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hơ hấp mãn tính (cĩ dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước và sau khi điều trị. Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số 1 70 82 12 49 45 -4 2 59 66 7 68 54 -14
  7. 3 53 65 12 65 60 -5 4 54 62 8 57 60 3 5 44 74 30 76 59 -17 6 58 77 19 62 54 -8 7 64 68 4 49 47 -2 8 43 59 16 53 50 -3 Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Phân áp oxy động mạch trước và sau điều trị khơng thay đổi Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do Bước 3: Tính thống kê t Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và sau điều trị) để tính thống kê t d d 13,5;s 8,2;t 4,66 d s / n Bước 4: tính xác suất của giá trị thống kê t Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh cơng thức "=tdist(4.63, 7, 2) vào một ơ. Kết quả ta được giá trị p= 0.002397687. Bước 5: Kết luận Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy động mạch cĩ cải thiện sau khi điều trị. Phép kiểm t (khơng bắt cặp) Nhằm tìm hiểu vai trị của catecholamine trong tăng huyết áp vơ căn, de Champlain (Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vơ căn (gồm 13 người cĩ nồng độ catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương. Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhĩm, nhĩm cĩ tăng catecholamine và nhĩm khơng tăng catecholamine. Bảng Error! Bookmark not defined Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân tăng huyết áp khơng tăng catecholamine Tăng catecholamine Khơng tăng Số bệnh nhân 13 9 catecholamine huyết thanh (ug/mL) x=0.484 s=0.133 x=0.206 s=0.060
  8. Nhịp tim x=90.7 s=11.5 x=77.8 s=13.2 Huyết áp tâm thu x=171.3 s=13.7 x=147.4 s=9.9 Huyết áp tâm trương x=103.0 s=8.3 x=95.6 s=12.9 Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình nhịp tim ở nhĩm bệnh nhân cĩ tăng catecholamine = nhịp tim trung bình ở nhĩm bệnh nhân khơng tăng catecholamine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t với (n1+n2-2) = 20 độ tự do Bước 3: Tính thống kê t Trước tiên chúng ta phải tính độ lệch chuẩn gộp 2 2 (n1 1)s1 (n2 1)s2 s p 12.21 (n1 1) (n2 1) (Để dễ nhớ cơng thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình của phương sai của mỗi nhĩm với trọng số là độ tự do của phương sai đĩ) Sau đĩ chúng ta tính thống kê t (x x ) t 1 2 2.44 s 1/ n1 1/ n2 Bước 4: tính xác suất của giá trị thống kê t Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê chúng ta sẽ tìm được p <0,05) Bước 5: Kết luận Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai nhĩm bệnh nhân cĩ sự khá biệt về nhịp tim trung bình. Phân tích phương sai Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhĩm bệnh hồng càu liềm cĩ khác nhau hay khơng bằng cách ghi nhận mức hemoglobin ở 3 nhĩm bệnh nhân. Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical Journal, 282, 283-6 (a) Số liệu Loại bệnh hồng cầu Số bệnh Trung bình s.d. Giá trị của các cá thể liềm nhân hemoglobin g% (n ) i (xi) (si) (x)
  9. Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4; 8,4; 8,5; 8,6; 8,7; 9,1; 9,1; 9,1; 9,8; 10,1; 10,3 Hb S/b- 10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6; thalassaemia 10,9; 11,1; 11,9; 12,0; 12,1 Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7; 11,8; 12,0; 12,1; 12,3; 12,6; 12,6; 13,3; 13,8; 13,8; 13,9 Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhĩm bệnh nhân bị hồng cầu liềm. Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình Nồng độ hemoglobin ở 3 nhĩm bệnh HC liềm bằng nhau Bước 2: Chọn kiểm định phù hợp Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số nhĩm, số quan sát - số nhĩm) = (2,38) độ tự do ; F tới hạn= 3,32 Bước 3: Lập bảng ANOVA và Tính thống kê F Chúng ta lập thành bảng phân tích phương sai như sau: Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhĩm F= MS bên trong nhĩm Giữa các nhĩm 99,92 2 49,96 50.03 , P<0,001 Trong các nhĩm 37,95 38 1,00 Tổng cộng 137,85 40 Các giá trị ở trên cĩ thể tính theo cơng thức sau: Giữa các nhĩm 2 2 2 SSb=  ni (xi-x) =  nixi -(x) /N = 16 8,71252+10 10,63002+15 12,3002 - 430,22/41=99,92 dfb = k-1 = 2 MSb = SS/d.f. Trong các nhĩm 2 SSw =  (ni -1)si =15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96 dfw= N - k = 41-3 = 38 MSw = SS/d.f. Và giá trị thống kê F F = MSb/MSw
  10. Bước 4: tính xác suất của giá trị thống kê F Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10 -11. Chúng ta cũng cĩ thể dựa vào bảng thống kê F để tìm được p <0,001 Bước 5: Kết luận Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhĩm bệnh nhân bệnh hồng cầu liềm cĩ giá trị hemoglobin trung bình khác nhau cĩ ý nghĩa thống kê. Phép kiểm chi bình phương Cĩ 240 người được tiêm vaccine phịng bệnh cúm và 220 người được tiêm placebo. Trong nhĩm tiêm vaccine cĩ 20 người bị cúm và trong nhĩm tiêm placebo cĩ 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhĩm: nhĩm tiêm vaccine và nhĩm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm? Thực hành Bước 1: Xây dựng giả thuyết Ho: Ho: Tỉ lệ mắc cúm ở nhĩm tiêm vaccine = tỉ lệ mắc cúm ở nhĩm khơng tiêm vaccine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương Lập bảng 2 x 2 như sau Kết quả Mắc bệnh cúm Khơng mắc Tổng Tiêm chủng Cĩ 20a 220b 240 a+b (8,3%) Placebo 80c 140d 220 c+d (36,4%) Tổng 100 a+c 360 b+d 460N Để tính thống kê chi bình phương cĩ hai cách: Phương pháp chính thức: - Tính các giá trị kì vọng (E) ở các ơ, giá trị kì vọng của một ơ bằng tích các ơ biên chia cho tổng số chung (thí dụ giá trị kì vọng của ơ a Ea = (a+b) (a+c) /N, giá trị kì vọng của ơ c Ec = (a+b) (c+d) /N) - Tính giá trị chi bình phương theo cơng thức (O E)2  2  ,d. f . (số hàng -1) (số cột -1) E Trong thí dụ này (20 52,2)2 (80 47,8)2 (220 187,8)2 (140 172,2)2  2 52,2 47,8 187,8 172,2 19,86 21,69 5,52 6,02 53,09
  11. Cơng thức tính tắt cho bảng 2 2 (ad bc) 2 N  2 (a b)(a c)(c d)(b d) Bước 4: tính xác suất của giá trị thống kê 2 Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10-13 nghĩa là giá trị của p rất nhỏ. Sử dụng bảng số chúng ta biết được p < 0,001. Bước 5: Kết luận Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta cĩ thể kết luận tỉ lệ mắc cúm ở nhĩm tiêm vaccine thấp hơn cĩ ý nghĩa thống kê so với nhĩm tiêm placebo. Sự tương quan của hai biến số định tính Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta cĩ thể tính RR bằng cách nhập cơng thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36 So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên hệ (xem lại phần các số đo dịch tễ). Kết quả Mắc bệnh Khơng mắc Tổng bệnh Biến số phơi Phơi nhiễm a1 b1 N1 nhiễm Khơng phơi ao b0 N0 nhiễm Tổng a1+a0 b1+b0 N=N1+N0 Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhĩm phơi nhiễm trên nguy cơ của nhĩm khơng phơi nhiễm: RR = (a1/N1)/(a0/N0) Khoảng tin cậy 95% của tỉ số nguy cơ: 1 1 1 1 1,96 1,96 1 2 RR e a1 N1 a0 N0 hay RR  (test-based CI) Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhĩm phơi nhiễm trên số chênh mắc bệnh ở nhĩm khơng phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số của số chênh phơi nhiễm của nhĩm bệnh trên số chênh phơi nhiễm ở nhĩm khơng chứng. RR = (a1/b1)/(a0/b0)
  12. Khoảng tin cậy 95% của tỉ số số chênh: 1 1 1 1 1,96 OR e a1 b1 a0 b0 Bài tập Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhĩm bị viêm ruột hoại tử cĩ 50 trường hợp cĩ tiền căn ăn thịt (gần đây) và trong nhĩm chứng cĩ 16 trường hợp cĩ tiền căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử. Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea (OR=11,6) Ăn thịt trong thời gian gần Khơng ăn thịt trong thời gian Tổng số đây gần đây Nhĩm bệnh 50a 1 11b 1 61 Nhĩm chứng 16a 0 41b 0 57 Tổng số 66 52 118 Nếu tỉ lệ ăn thịt ở nhĩm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhĩm chứng (16/57) cĩ ý nghĩa thống kê thì chúng ta cĩ thể kết luận rằng cĩ sự liên quan giữa ăn thịt và viêm ruột hoại tử. Đây là bài tốn so sánh tỉ lệ của một biến số định tính ở hai nhĩm và được giải quyết bằng kiểm định chi bình phương. Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định cĩ mối liên hệ mà khơng biết độ lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta khơng tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng cơng thức tính OR và khoảng tin cậy của OR ta được: OR = (a1/b1)/(a0/b0) = (a1 b0)/(a0 b1) = 11.65 và khoảng tin cậy 95% của OR = 4.87 đến 27.85 Bài tập Cĩ 240 người được tiêm vaccine phịng bệnh cúm và 220 người được tiêm placebo. Trong nhĩm tiêm vaccine cĩ 20 người bị cúm và trong nhĩm tiêm placebo cĩ 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhĩm: nhĩm tiêm vaccine và nhĩm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm? Kết quả Mắc bệnh cúm Khơng mắc Tổng Tiêm chủng Cĩ 20a 1 220b 1 240N 1 (8,3%) Placebo 80a 0 140d 220N (36,4%) 0 Tổng 100 360 460N
  13. Ta tính được RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0.23 Khoảng tin cậy 95% của tỉ số nguy cơ: 1 1 1 1 1,96 RR e a1 N1 a0 N0 = 0.15 đến 0.36 Quan hệ giữa hai biến số định lượng Tương quan Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Cĩ nhiều loại hệ số tương quan, nhưng chúng đều cĩ giá trị từ -1 đến 1. Nếu chúng cĩ giá trị bằng zero cĩ nghĩa là hai biến số độc lập và khơng quan hệ gì với nhau. Nếu chúng cĩ giá trị dương cĩ nghĩa là hai biến số đồng biến với nhau, nếu chúng cĩ giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số cĩ liên hệ chặt với nhau và vai trị của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một cĩ nghĩa là hồn tồn khơng cĩ sai số ngẫu nhiên. Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r: (x x)(y y) (xy) / n x y n r  i i 2 2   n 1 (xi x) (yi y) x y Lí giải ý nghĩa của hệ số tương quan Pearson - Hệ số tương quan luơn luơn nằm trong đoạn [-1,1] - Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến. - Trị số tuyệt đối của hệ số tương quan r nĩi lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hồn tồn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ cĩ các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e). - Bình phương của hệ số tương quan (r 2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả) - Nếu r=0, khơng cĩ mối liên hệ tuyến tính giữa hai biến số. Ðiều này cĩ nghĩa là (1) khơng cĩ mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số khơng phải là tuyến tính (hình 9.2b) - Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh. Hồi quy Hồi quy là một mơ hình tốn học mơ tả sự biến đổi của một biến số này theo những biến số khác. Một phương trình hồi quy cĩ thể cĩ dạng như sau: cân nặng (kg) = 6,85 + 0,18 tháng tuổi (phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi) theo phương trình này người ta gọi:
  14. cân nặng: biến số phụ thuộc tháng tuổi: biến số độc lập 6,85: hệ số của hằng số, hay cịn gọi là điểm chặn (intercept) 0,18: hệ số của biến số tháng tuổi. Một cách tổng quát phương trình hồi quy sẽ cĩ dạng: Y = b0 + b1 x1 + b2 x2 + b3 x3 Với y là biến số phụ thuộc x1, x2, x3 là các biến số độc lập b0: điểm chặn của phương trình b1, b2, b3 : hệ số của các biến số độc lập Hệ số của biến số độc lập nĩi lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ thay đổi bao nhiêu. Cụ thể hơn nếu biến số x2 thay đổi một đơn vị thì biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu giá trị b2 âm). Bài tập 1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng 4. Đối tượng Lượng muối Huyết áp 1 5 110 2 10 120 3 12 110 4 18 120 5 20 140 Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng. Thực hành Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa vào cơng thức ta tính được r = 0,771829. Như vậy cĩ mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.77 0.77) sự thay đổi của huyết áp tâm thu. Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là: Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối. Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số gĩc của biến số lượng muối tiêu thụ. Điều này cĩ nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1,55 mmHg. 2. Lý giải ý nghĩa của phân tán đồ sau Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở Anh quốc
  15. 5000 4000 e r t 3000 g n o u l g n o r 2000 t 1000 0 20 24 28 32 36 40 44 tuoi thai