Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Suy luận các biến có liên hệ
Bạn đang xem tài liệu "Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Suy luận các biến có liên hệ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_suy_l.pdf
Nội dung text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Suy luận các biến có liên hệ
- 9/8/2010 Phần10 Nguyễn Duy Long, TiếnSỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1 So sánh các số đếm Giới thiệu về phân tích phương sai ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
- 9/8/2010 Comparing Counts ©2010, Nguyễn Duy Long, Tiến Sỹ 3 Khảosátcủa 256 giám đốccủa 400 công ty lớnnhất. Số sinh Con giáp 23 Tý 20 Sửu 18 Dần 23 Mão 20 Thìn 19 Tỵ 18 Ngọ 21 Mùi 19 Thân 22 Dậu 24 Tuất 29 Hợi Nguồn: Phỏng theo De Veaux, 2006, tr.604 ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
- 9/8/2010 Nếusố sinh phân phối đềutheotuổi, ta kỳ vọng khoảng 1/12 số sinh xuấthiệnchomỗi con giáp (21.3). ◦ Dữ liệuquansátphùhợpvớimôhình“rỗng” đơn giảnnàyrasao? Kiểmnghiệmgiả thiết để trả lời câu hỏinày đượcgọilàkiểmnghiệmcủa“sự phù hợp” (“goodness-of-fit”) ©2010, Nguyễn Duy Long, Tiến Sỹ 5 Điềukiệndữ liệu đếm(counted data condition) Giả định tính độclập(independence assumption) ◦ Điềukiệnngẫu nhiên hóa Giả định kích thướcmẫu(sample size condition) ◦ Điều kiệntầnsuất kỳ vọng của ô(ô (expectedlld cell frequency condition): Ta nên kỳ vọng ít nhất5 cá thể cho mỗiô. ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
- 9/8/2010 Ta xem các sự khác nhau giữasố đếm được quan sát (observed) và đượckỳ vọng (expected), ký hiệulà(Obs–Exp) ◦ đốixử như các phầndư (residuals). Trị số thống kê kiểmnghiệm, gọilàtrị số thống kê chi-square, ký hiệu χ2: 2 χ2 = ∑ (Obs - Exp) các ô Exp ©2010, Nguyễn Duy Long, Tiến Sỹ 7 Ta chỉ tập các mô hình phân phốimẫumới này là các mô hình χ bình phương (chi- square models). Tập các mô hình này chỉ khác nhau ở bậctự do. Số bậctự do cho các mô hình này là n -1, với n không phảilàkíchthướcmẫumàsố lượng của loại. ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
- 9/8/2010 K = số bậctự do Nguồn: ©2010, Nguyễn Duy Long, Tiến Sỹ 9 Kiểmnghiệm chi-square luôn là kiểmnghiệm một phương. ◦ nếutrị số thống kê tính đượclàđủ lớn, ta sẽ bác bỏ giả thiếtrỗng. Sự diễndịch củakiểmnghiệmchi-square là “nhiềuphương”. ◦ Không có hướng trong việcbácbỏ mô hình rỗng, chỉ biết nó không phù hợp. ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
- 9/8/2010 Thựchiệnkiểmnghiệm chi-square cho ví dụ giám đốcvàcon ggpiáp ở trên. ©2010, Nguyễn Duy Long, Tiến Sỹ 11 Khảosátchọnlựavàođờicủa ba nhóm họcsinh PTTH theo nămtốtnghiệp. 1980 1990 2000 Tổng Đạihọc/cao đẳng 320 245 288 853 Đi làm 98 24 17 139 Vào quân đội 18 19 5 42 Du lịch 17 2 5 24 Tổng 453 290 315 1058 Sự chọnlựalàgiống nhau củatấtcả ba nhóm học sinh này? Nguồn: Phỏng theo De Veaux, 2006, tr.611 ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
- 9/8/2010 Kiểmnghiệmchi-square củasự đồng nhất (chi-sqqgyuare test of homogeneity) dùng để trả lời câu hỏitrên. Tính toán củakiểmnghiệmnàygiống với kiểmnghiệmsự phù hợp. ◦ đếmbậctự do hơi khác nhau. Kiểmnghiệmsự đồng nhất đikèmvớigiả thiết rỗng “dựng sẵn.” ◦ giả thiếtrằng sự phân phối không thay đổitừ nhóm này đến nhóm khác. ©2010, Nguyễn Duy Long, Tiến Sỹ 13 Các giả định và điềukiệngiống vớikiểm nghiệmsự phù hợp. ◦ Điềukiệndữ liệusố đếm ◦ Nếu ta không tổng quát hóa, không cầnkiểmtra điềukiệnngẫu nhiên hóa. ◦ Điềukiệntầnsuấtkỳ vọng củaô (ítnhất5). ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
- 9/8/2010 Các giá trị kỳ vọng cho họcsinhtốtnghiệp PTTH 1980 1990 2000 Tổng Đại học/cao đẳng 365.2 233.8 254.0 853 Đi làm 59.5 38.1 41.4 139 Vào quân đội 18.0 11.5 12.5 42 Du lịch 10.3 6.6 7.1 24 Tổng 453 290 315 1058 Số bậctự do: (R-1)(C-1); R là số hàng (row) và C là số cột(column) ©2010, Nguyễn Duy Long, Tiến Sỹ 15 Thựchiệnkiểmnghiệm chi-square cho ví dụ lựachọnvàođờicủahọcsinhtốtnghiệp PTTH ở trên Trị thống kê χ2: 2 χ2 = ∑ (Obs - Exp) = 72.77 các ô Exp Giá trị p (p-value) << 0.0001. ◦ Ta bác giả thiếtrỗng. ◦ các sự chọnlựacủahọcsinhtốtnghiệp PTTH thay đổiqua 2 thậpkỷ khảosát, đánh giá. ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
- 9/8/2010 Rủi ro viêm gan C có liên quan vớingườicó hình xămvànơixăm không? Viêm gan C Không viêm gian C Tổng Xăm, cửahiệu 17 35 52 Xăm, nơi khác 8 53 61 Không xăm 22 491 513 Tổng 47 579 626 Nguy cơ mắc viêm gan C có độc lập với việc xăm? ◦ Kiểmnghiệm cho tính độclập(chi-square test for independence). ©2010, Nguyễn Duy Long, Tiến Sỹ 17 Kiểmnghiệmtínhđộclậptrả lời câu hỏi: “Các biếncóđộclập? Kiểmnghiệmsự đồng nhất: “Các nhóm có đồng nhất?” Sự tính toán giống nhau. ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
- 9/8/2010 Thựchiệnkiểmnghiệm chi-square cho ví dụ viêm gan C và xăm ở trên Trị thống kê χ2: 2 χ2 = ∑ (Obs - Exp) = 57.91 các ô Exp Giá trị p (p-value) << 0.0001. ◦ Ta bác giả thiếtrỗng. ◦ kiểmtracácsố dư (residual) trướckhikếtluận. Vì sao? ©2010, Nguyễn Duy Long, Tiến Sỹ 19 Số dưđượcchuẩn hóa (c) cho ô nào đó: c (Obs Exp) Exp Số dưđượcchuẩnhóachodữ liệuviêmgan C và xăm Viêm gan C Không viêm gian C Xăm, cửa hiệu 6. 628 -1. 888 Xăm, nơi khác 1.598 -0.455 Không xăm -2.661 0.758 ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
- 9/8/2010 Introduction to Analysis of Variance ©2010, Nguyễn Duy Long, Tiến Sỹ 21 Phương pháp rửataydiệtkhuẩn: n) ẩ vi khu ố n(s ẩ Vi khu Các phương pháp Tấtcả các phương pháp rửataydiệtkhuẩnlà giống nhau? giả thiếtrỗng? ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
- 9/8/2010 Giả thiếtrỗng: “các trị trung bình củatấtcả các nhóm là bằng nhau.” ◦ Giả thiếtthaythế sẽ như thế nào? Khi so sánh nhiềutrị trung bình, ta dùng mô hình phân phốimẫu đượcgọilàmôhìnhF (F-model). So sánh sự khác nhau giữa các trị trung bình củacácnhóm với sự biến đổi bên trong các nhóm. ◦ ý tưởng chủ đạocủamôhìnhF. ©2010, Nguyễn Duy Long, Tiến Sỹ 23 Xem hai tậphợpcủa các biểu đồ hộpsau: Khó nhậnrasự khác nhau giữa các trị Sự biến đổitrongmỗi nhóm trung bình vì các sảilớnnếuso với quá nhỏ làm sự khác biệtgiữa sự khác nhau của các trị trung bình. các trị trung bình bộclộ rõ. ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
- 9/8/2010 Ta đốixử các trị trung bình được ướclượng như thể chúng là các giá trị quan sát đượcvà chỉ tính phương sai của chúng. Phương sai này là thước đo để xem các trị trung bình của các nhóm khác nhau ra sao. Dữ liệutừ phương pháp rửatay ©2010, Nguyễn Duy Long, Tiến Sỹ 25 ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13