Bài giảng Thống kê cơ bản và phân tích số liệu - Hoàng Văn Minh
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê cơ bản và phân tích số liệu - Hoàng Văn Minh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_thong_ke_co_ban_va_phan_tich_so_lieu_hoang_van_min.pdf
Nội dung text: Bài giảng Thống kê cơ bản và phân tích số liệu - Hoàng Văn Minh
- THỐNG KÊ CƠ BẢN VÀ PHÂN TÍCH SỐ LIỆU PGS. TS. Hoàng Văn Minh Hà nội- 2013 NỘI DUNG 1. Khái niệm cơ bản về thống kê 2. Lựa chọn trắc nghiệm thống kê 3. Tính toán chỉ số nghiên cứu cơ bản 1
- Trình bày và phiên giải? Nam Nữ Chung n(%) n(%) n(%) Có bệnh 40 (66,7) 20 (33,3) 60 (100) Không bệnh 50 (66,7) 25 (33,3) 75 (100) Chung 90 (66,7) 45 (33,3) 135 (100) Bảng 10: Tỷ lệ mắc bệnh theo giới Nhận xét: Tỷ lệ mắc bệnh ở nam giới cao gấp 2 lần tỷ lệ mắc bệnh ở nữ giới. Sự khác biệt có ý nghĩa thống kê với p<0.01 Trắc nghiệm thống kê? 1. So sánh tỷ lệ bác sỹ có thực hành lâm sàng tốt ở 2 bệnh viện? 2. So sánh chi phí y tế của người dân thành thị và nông thôn? 3. So sánh tổng điểm kiến thức của người dân thuộc 3 xã? 2
- Thống kê “Phân môn toán học có nhiệm vụ thu thập, phân tích, phiên giải và trình bày số liệu” Thống kê 3
- Số liệu là đối tượng chính của thống kê Biến số# Hằng số Các dạng số liệu (biến số) Số liệu định lượng Rời rạc (discrete): không có giá trị thập phân Liên tục (continuous): Có giá trị thập phân Số liệu định tính Danh mục (nominal, categorical) Thứ hạng (ordinal) Nhị phân (binominal) 4
- Dạng số liệu ? Biến số Định lượng Định tính Rời rạc Liên tục Định Thứ Nhị phân danh hạng Tuổi Trình độ chuyên môn Điểm kiến thức Cao huyết áp (có, không) Mức độ trầm trọng của bệnh Nghề nghiệp Quần thể và mẫu Quần thể Toàn bộ các cá thể mà chúng ta đang quan tâm Là 1 phần của quần thể, bao gồm những cá Mẫu thể mà chúng ta sẽ nghiên cứu 5
- Thống kê mô tả- suy luận Thống kê mô tả (Descriptive statistics): Kỹ thuật dùng để mô tả các đặc tính của mẫu Thống kê suy luận (Inferential statistics): Quá trình suy luận từ đặc tính của mẫu ra đặc tính của quần thể Thống kê Quần thể Chọn mẫu Thống kê suy luận Mẫu Thống kê mô tả 6
- Thống kê mô tả biến định lượng Đo lường độ tập trung (Location) Trung bình (mean) Trung vị (median) Mode Đo lường độ phân tán (Spread ) Khoảng số liệu (range) Khoảng tứ phân vị (25%-75%) (Interquartile ) Độ lệch chuẩn (Standard deviation) Phương sai (Variance) Trung bình 34 27 45 55 22 34 7
- Trung vị Dãy số lẻ 1, 5, 2, 8, 7 Trung vị=5 Dãy số chẵn 1, 5, 2, 10, 8, 7 1, 2, 5, 7, 8, 10 trung vị= ((5 + 7)/2 = 12/2 = 6) Mode Giá trị xuất hiện nhiều nhất 12, 12.5, 11, 13, 12.5 -> Mode = 12.5 8
- Khoảng số liệu (biên độ) 120 140 120 150 130 160 180 165 170 150 Khoảng số liệu 120-180 Độ lệch chuẩn 2 (xi x) SD n 1 9
- Độ lệch chuẩn Điểm TB (x - TB) (x -TB)2 12 11.5 - 0.5 0.25 12.5 11.5 - 1 1 11 11.5 0.5 0.25 13 11.5 - 1.5 2.25 12.5 11.5 - 1 1 8 11.5 3.5 12.25 Tổng 17 SD = √ 17/(6-1) =1.84 Ví dụ Điểm kiến thức 120 130 120 150 130 170 180 160 170 150 Tính toán trung bình, trung vị, mode, khoảng số liệu và độ lệch chuẩn? 10
- Thống kê mô tả biến định tính Tần số Tỷ lệ phần trăm 11
- Thống kê Quần thể Chọn mẫu Thống kê suy luận Mẫu Thống kê mô tả Thống kê suy luận Ước lượng khoảng Kiểm định giả thuyết Quần thể Chọn mẫu Thống kê suy luận Mẫu Thống kê mô tả 12
- Ước lượng khoảng-khoảng tin cậy (confidence interval) Thường chọn khoảng tin cậy 95% (95%CI) Khi thực hiện đo đạc 100 lần thì it nhất 95 lần kết quả nằm trong khoảng tin cậy 95% tin tưởng rằng giá trị thực của quần thể nằm trong khoảng tin cậy 95%CI= Trung bình± 1,96*sai số chuẩn 13
- Sai số chuẩn (standard errors) 95%CI= Trung bình± 1,96*sai số chuẩn Ví dụ: Khoảng tin cậy (CI) Nghiên cứu về kiến thức SDT trên 150 người cho kết quả sau: Điểm trung bình là 900 (sd=2.5) Tỷ lệ có kiến thức tốt là 40% Tính toán khoảng tin cậy 95% của Điểm kiến thức Tỷ lệ có kiến thức tốt Phiên giải kết quả??? 14
- Kiểm định giả thuyết sử dụng trắc nghiệm (test) thống kê để đưa ra kết luận về giả thuyết của nhà nghiên cứu là chấp nhận được hay không Quần thể Chọn mẫu Ngoại suy Trắc nghiệm thống kê Mẫu NC Kiểm định giả thuyết Giả thuyết Ho: Không có sự khác biệt Giả thuyết Ha: Có sự khác biệt 15
- Ví dụ Giả thuyết Ho: Giả thuyết Ha: Sai lầm Thực tế H0 đúng H0 sai Quyết định Chấp nhận H0 Sai lầm II () Loại bỏ H0 Sai lầm I ( ) 16
- Mức ý nghĩa thống kê Loại bỏ sai lầm loại I = 0.05 p = probability= Xác suất để giả thuyết Ho đúng P 95% = Ha xảy ra là chắc chắn = Chấp nhận Ha P>0.05 = ??? Độ mạnh Loại bỏ sai lầm loại II 1- = 80% Thường dùng trong tính toán cỡ mẫu 17
- Mức ý nghĩa z (1- /2) thống kê ( ) .01 (99) 2.576 .02 (98) 2.326 .05 (95) 1.960 .10 (90) 1.645 Độ mạnh z (1-) (1-) .80 0.842 .85 1.036 .90 1.282 .95 1.645 Thống kê Quần thể Chọn mẫu Thống kê Trắc nghiệm thống kê suy luận Mẫu Thống kê mô tả 18
- Lựa chọn trắc nghiệm thống kê Mục tiêu Xác định sự khác biệt Xác định mối liên quan So sánh điểm số thực hành Điểm kiến thức liên quan đến trước và sau can thiệp? tuổi, trình độ, tuyến công tác? Lựa chọn trắc nghiệm thống kê MỤC TIÊU BIẾN SỐ Xác định sự khác biệt 1 Biến định lượng 2 3 Biến định tính Xác định liên quan 4 19
- 1. Xác định sự khác biệt biến định lượng 1 2 >2 nhóm nhóm nhóm Ph bố Chuẩn & Ph bố Chuẩn & Ph bố Chuẩn & Chuẩn K chuẩn Chuẩn K chuẩn Chuẩn K chuẩn Sign test ttest đlập Đ.lập: ANOVA Kruskal- t test Wilcoxon ttest g.cặp Mann- (ph.sai đ Wallis test test Whitney nhất) test Gh. cặp: Sign test Wilcoxon test Kiểm định phân bố số liệu 20
- Phân bố chuẩn Xác định 1 NHÓM Ztest sự khác biệt biến định tính >1 NHÓM Giá trị mong đợi >=5 Giá trị mong đợi <5 Khi bình phương Fisher's exact test 21
- Giá trị quan sát và mong đợi Tốt Không tốt Tổng Tỉnh 4 5 9 Huyện 3 3 6 Tổng 7 8 15 Giá trị mong đợi = (Tổng hàng * Tổng cột) / Tổng chung Xác định mối liên quan 3. Biến định lượng: . Hệ số tương quan (r) . pearson . spearman . Hồi quy tuyến tính 4. Biến định tính . Tỷ suất chênh (OR), nguy cơ tương đối (RR) . Hồi quy logistic 22
- Hệ số tương quan (r) • Hệ số tương quan r – Có giá trị từ -1 đến +1 • Khi HSTQ > 0 tương quan đồng biến • Khi HSTQ =0,3-0,5: tương quan TB • >=0,5-0,7: tương quan chặt chẽ • >=0,7: tương quan rất chặt chẽ Hệ số tương quan (r) 23
- Tương quan của 2 biến định tính Khi muốn tìm cường độ mối liên quan giữa hai biến định tính=> có thể sử dụng: – Tỷ suất chênh: OR – Nguy cơ tương đối: RR Tốt Không tốt Tổng Tỉnh 4 5 9 Huyện 3 3 6 Tổng 7 8 15 OR và RR >1 Yếu tố nguy cơ =1 Không liên quan <1 Yếu tố bảo vệ 24
- Định lượng (Trung bình, trung vị, TK mô tả mode, biên độ, độ lệch chuẩn, phương sai) (Đặc tính của mẫu) Định tính (Tần số, tỷ lệ %) Định lượng se= sd/sqrt(n) Khoảng tin cậy (Trung bình ± 1,96* SE) Định tính Phân tích se=sqrt(p*(1-p)/n) thống kê Phân bố chuẩn (ttest) 1 nhóm Phân bố không chuẩn TK suy luận (sign test, Wilcoxon test) ( Ngoại suy từ kết quả của mẫu ra quần Phân bố chuẩn thể) (ttest độc lập, ghép cặp) 2 nhóm Định lượng Phân bố không chuẩn (Đ.lập: Mann-Whitney test; Gh. cặp: Sign test, Phân tích sự khác biệt Wilcoxon test ) Định tính (Khi bình phương, fisher Phân bố chuẩn phương exact test) sai đồng nhất (Anova test) Phân bố chuẩn phương sai không đồng nhất Kiểm định giả thuyết (Trắc Trên 2 nhóm nghiệm thống kê) (Kruskal-Wallis test) Phân bố chuẩn (Hệ số tương quan Phân bố không chuẩn pearrson, hồi quy tuyến (Kruskal-Wallis test) tính) Định lượng Phân bố không chuẩn Phân tích tương quan (Hệ số tương quan spearman, hồi quy tuyến tính chuyển dạng) Định tính (OR, RR, hồi quy logistic) 25