Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Thu thập dữ liệu

23 trang hapham 4900

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Thu thập dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_thu_t.pdf

Nội dung text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Thu thập dữ liệu

9/8/2010 Phần04 Nguyễn Duy Long, TiếnSỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Khảosátmẫu  Thí nghiệm và nghiên cứu quan sát ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
9/8/2010 Gathering Data ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Xem xét cơ sở củaviệcthuthậpdữ liệu.  Vượtradữ liệucótrongtayđể đếnvớithế giới rộng lớn(quầnthể).  Tìm hiểubaý tưởng chính cho phép chúng ta sự “vượtrào” này ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
9/8/2010  Ý tưởng đầutiênlàrútramộtmẫu. ◦ Xem xét một nhóm nhỏ hơn, gọilàmẫu(sample), đượclựa chọntừ quầnthể. ◦ Lấymẫu(sampling) là việclàmtự nhiên.  Thămdòý kiến(opinion poll) là ví dụ về khảosát mẫu(sample surveys), đượcthiếtkế để hỏimột nhóm nhỏ vớihyvọng hiểuvấn đề gì đóvề toàn bộ quầnthể. ◦ Người thăm dò ý kiến (pollster) chchuyênuyên nghiệp phải đảm bảoviệclấymẫulàcótínhđạidiện(representative ) cho quầnthể. ◦ Nếukhông, thìsẽ có . ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Mẫu không đạidiệnchomọi thành viên trong quần thể gọilàbị chệch (biased). ◦ Sự chệch là “bả thuốc” củaviệclấymẫu. ◦ Thường không có cách nào để chỉnh sửamẫubị chệch hay để có thông tin hữuíchtừ nó.  Cách tốtnhất để tránh sự chệch là chọn các cá thể cho mẫumột cách ngẫu nhiên (at random). ◦ Giá trị củaviệcgiớithiệusự ngẫu nhiên (randomness) là một trong những quan niệm tuyệt vời của thống kê học. ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
9/8/2010 Nguồn: VNExpress.net, 8/11/2009 ©2010, Nguyễn Duy Long, Tiến Sỹ 7  Ngẫu nhiên hóa (randomization) kháng lại các yếu tố mà bạnbiết(vàcả không biết) về dữ liệu.  Ngẫu nhiên hóa bảovệ chúng ta từ các tác động của các đặc điểmcủaquầnthể.  Ngẫu nhiên hóa cũng giúp chúng ta có thể có các suy luậnvề quầnthể khi chúng ta chỉ thấymẫu. ◦ Sự suy luận đólàtrongsố những thứ hữuhiệunhấtmà chúng ta có thể thựchiệnvớithống kê học. ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
9/8/2010  Mẫungẫu nhiên cầnlớnrasaođể mẫucóthể đại diệnchoquầnthể?  Kích thhướccủamẫu, chứ không phải kíc h thhước củaquầnthể tạosự khác biệttronglấymẫu.  Tỷ phầncủaquầnthể mà đượclấymẫu không phải là vấn đề. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Tạisaophảilo xácđịnh kích thướcmẫu?  Sẽ tốthơnnếubaogồmmọingườivà“lấymẫu” cho toànquần thhể? ◦ Mẫu đặcbiệt đógọilàtổng điềutra(census).  Các vấn đề củatổng điềutra: ◦ Khó để hoàn thành tổng điềutra. ◦ Các quầnthể khó đứng yên. ◦ Tổng điềutraluônphứctạpvàtốnkémhơnlấymẫu. ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
9/8/2010  Mô hình dùng toán học để miêu tả thựctế. ◦ Các thống số là các số chính trong các mô hình đó.  Dùng dữ liệu để ướclượng các tham số quầnthể. ◦ Mỗitổng kếttừ dữ liệulàmộttrị số thống kê (statistic). ◦ Trị số thống kê để ướclượng tham số quầnthể đượcgọilà trị số thống kê mẫu(sample statistics). Tên Trị số thống kê Tham số Trị trung bình y µ Độ lệch chuẩn s σ Sự tương quan r ρ Hệ số hồiqui b β Phần pˆ p ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Cầnbảo đảmrằng các trị số thống kê từ mẫuphản ánh các tham số tương ứng một cách chính xác.  Mọimẫukhả dĩ củakíchthướcmẫu định lấycócơ hội đượclựachọngiống nhau. ◦ Mỗithànhviêncócơ hội đượclựachọnnhư nhau. ◦ Mỗitổ hợpcủa thành viên cũng có cùng cơ hội đượcchọn lựa. ◦ Mộtmẫu đượclấyranhư vậy đượcgọilàmẫungẫunhiên đơn giản (Simple Random Sample (SRS )). ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
9/8/2010  SRS là tiêu chuẩn để đocácphương pháp lấymẫukhác, và phương pháp lấymẫudựa trên lý thuyếtlàmviệcvới các dữ liệutừ mẫu.  Để chọnmộtmẫungẫu nhiên, trướctiêncầnxácđịnh mẫu đếntừ đâu. ◦ Khung mẫu(sampling frame) là tậphợpcáccáthể mà mẫu đượcrútra.  Một khi có khung mẫu, cách dễ nhất để chọnSRS làvới các số ngẫu nhiên.  Các mẫu rút ra ngẫu nhiên thường khác nhau. ◦ Mỗisố ngẫu nhiên rút ra chọncáccáthể khác nhau cho mẫu. ◦ Các khác nhau này dẫn đếncácgiátrị khác nhau cho các biến được đolường. ◦ Các sự khác nhau này giữ các mẫugọilàsự biến đổido lấy mẫu(sampling variability). ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Lấymẫungẫu nhiên đơngiản không phảilàcáchhợp lý duy nhất để lấymẫu.  Các thiết kế phức tạp hơn có thể tiết kiệm thời gian hay tiềnbạc hay giúp tránh các vấn đề liên quan đến lấymẫu.  Các thiếtkế được dùng để lấymẫutừ các quầnthể thường phúc tạphơncácmẫungẫu nhiên đơngiản.  Có 4 loại khác nhau: 1. Lấymẫu đượcphântầngg (Stratified Samplingg) 2. Lấymẫucụm(Cluster Sampling) 3. Lấymẫu nhiềugiaiđoạn(Multistage Sampling) 4. Lấymẫucóhệ thống (Systematic Sampling) ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
9/8/2010  Thỉnh thoảng quầnthể đượcchiaratrước thành các nhóm đồng nhất, gọi là tầng (strata), trước khi chọnmẫu.  SRS được dùng trong mỗitần(stratum) trướckhi kếthợp các kếtquả.  Thiếtkế mẫu thông dụng này gọilàlấymẫungẫu nhiên phân tầng (stratified random sampling).  Việc phân tầng giảm sự biến đổi trong các kết quả. ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Một nhà thầucókế hoạch tái cấutrúcvàthayđổi thị trường các dự án xây dựng củahọ. Họ muốn biết các thói quen chọnthầucủa các chủ đầutư, trong quầnthể chủ đầutư ở ViệtNam. ◦ Các chủ đầutư công có tiêu chí khác các chủ đầutư tư nhân (và có thể các chủ đầutư nướcngoàicótiêu chí khác cả hai loạichủ đầutư trên). Có thể hữuích nếuphântầng quầnthể, và lấymẫu cho 3 nhóm riêng biệt. ◦ Chúng ta làm điềunàyrasao? ◦ Sự xem xét cuối cùng có thể là gì, sau khi thu thậptất các 3 mẫunày? ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
9/8/2010  Thỉnh thoảng việcphântầng không thựctế và SRS là rấtkhó,  Chia quầnthể thành các phầntương tự nhau hay cụm(clusters) có thể làm việclấy mẫuthựctế hơn. ◦ Có thể chọnmộthay mộtvàicụmngẫu nhiên và thựchiệntổng điềutra(hay lấymẫulớn). ◦ Thiết kế lấymẫunàygọi là lấymẫucụm (cluster sampling). ◦ Nếumỗicụm đạidiệnchoquầnthể hợplý, lấy mẫucụmsẽ cho mẫu không bị chệch. ©2010, Nguyễn Duy Long, Tiến Sỹ 17  Lấymẫucụmkhácvớilấymẫuphântầng. ◦ Phân tầng để đảmbảomẫucósự đạidiệncủa các nhóm trong quầnthể, và lấymẫungẫu nhiên mỗi tầng. ◦ Các cụmthìkhágiống nhau, mỗicụm không đồng nhất (heterogeneous) và tương tự quầnthể. ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
9/8/2010  Thỉnh thoảng dùng nhiềuphương pháp lấymẫu.  Kế hoạch lấymẫukếthợp nhiềuphương pháp gọi là các mẫu nhiềugiaiđoạn(multistage samples).  Hầuhết các khảosátthựchiệnbởi các tổ chức khảo sát chuyên nghiệpkếthợplấymẫuphântầng và cụmcũng như lấymẫungẫu nhiên đơngiản. ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Thỉng thoảng lấymẫubằng việcchọn các cá thể có hệ thống.  Để tạotínhngẫu nhiên, bắt đầuvớisự chọnlựacó hệ thống từ mộtcáthể đượclựachọnngẫu nhiên.  Khi không có lý do để tin thứ tự của danh sách là liên hợpvới các phảnhồi, lấymẫucóhệ thống (systematic sampling) có thể cho mẫucótínhđại diện.  Lấymẫucóhệ thống có thể rẻ hơnlấymẫungẫu nhiên. ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
9/8/2010  “Ai” trong mộtkhảo sát có thể từ các nhóm khác nhau, và sự nhậpnhằng từ đócóthể nói lên nhiều điềuvề sự thành công củanghiêncứu. 1. Nghĩ về quầnthể đang quan tâm (population of interest). 2. Xác định khung mẫu(sampling frame). 3. Có mẫumụctiêu(target sample). 4. để lấymẫu, các đối tượng điều tra (respondents) thựcsự. Sự chệch có thể nảysinhtạibấtcứ điểmnào! ©2010, Nguyễn Duy Long, Tiến Sỹ 21  SRS từ khung mẫusai(flawed sampling frame) có thể nảy sinh sự chệch.  Lấymẫuthuậntiện(convenience sampling), chỉ lấy từ các cá thể thuậntiện.  Lấymẫuthuậntiện không chỉ là vấn đề của các ngườilấymẫukhởisự. ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
9/8/2010  “Phủ sóng kém” (Under-coverage)  Vấn đề phổ biếnlàsự chệch do không trả lời(non- response bbias) ©2010, Nguyễn Duy Long, Tiến Sỹ 23  Trong mẫutrả lờitự nguyện(voluntary response sample), một nhóm lớn đượcmờitrả lờivàtấtcả những ai trả lờisẽ được tính. ◦ Các mẫutrả lờitự nguyệngầnnhư luôn bị chệch, các kết luậnrútratừ đóhầuhếtlàsai.  Các mẫutrả lờitự nguyệnthường bị chệch theo những người có các ý kiếnmạnh hay những người được khuyếnkhíchmạnh.  Vi mẫu là không có tín h đại diện, sự chệch do trả lờitự nguyện(voluntary response bias) làm mấtgiá trị cuộckhảosát. ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
9/8/2010  Tránh các trả lờicótácđộng (influencing responses). ◦ Sự chệch trong trả lời (Response bias) liên hệ đếnbấtcứ thứ gì trong thiếtkế khảosátmàgâyảnh hưởng đếntrả lời. ◦ Câu chữ trong câu hỏicóthểảnh hưởng đếntrả lời. ◦ Vấn đề củasự “neo chặt” (anchoring). ©2010, Nguyễn Duy Long, Tiến Sỹ 25 Experiments and observational studies ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
9/8/2010  Trong nghiên cứuquansát(observational study), nhà nghiên cứu không ấn định các lựachọn, họ chỉ quan sátchúng. ◦ Ví dụ: Năm 2009, trường ĐHBK nghiên cứuso sánhsự thành công trong thị trường việclàmcủa sinh viên họclớp kỹ sư tài năng và kỹ sư họclớpthôngthường khóa 2004. ◦ Vì các nhà khảosátkhôngấn định sinh viên họclớpnày hay lớpkiamàchỉ quan sát sinh viên trong khóa học. ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Vì các nhà khảosátxácđịnh đốitượng theo họcvà thu thậpsố liệuvề công việccủahọ sau ra trường, đây gọilànghiêncứu“xemlạiquákhứ” (retrospective study).  Nếu các nhà khảosátxácđịnh đốitượng trướcvà thu thậpsố liệu khi các sự kiệnchưabộclộ, đógọi là nghiên cứuvề sau (prospective study).  Nghiên cứuquansátcógiátrị cho việc khám phá khuynh hướng và các liên hệ khả dĩ  Tuy nhiên, nghiên cứuquansátkhôngthể chỉ ra mốiquanhệ nhân quả. ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
9/8/2010  Thí nghiệm(experiment) là thiếtkế nghiên cứucho phép chúng ta chứng minh mốiquanhệ nhân quả.  Thí nghiệm: ◦ Thao tác (manipulate) các mứcyếutố (factor levels) để tạoliệupháp(treatments). ◦ Ấn định (assign) ngẫu nhiên các đốitượng với các mứcliệuphápnày. ◦ So sánh (compares) các phảnhồicủa các nhóm đối tượng với các mức liệu páppháp này.  Thí nghiệmphảixácđịnh ít nhấtmộtbiếnkhám phá, gọilàyếutố (factor) để thao tác và ít nhấtmột biếnphảnhồi để đolường. ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Người thí nghiệmthaotáccácyếutố để kiểmsoátcác chi tiếtcủacácliệupháp, vàấn định các đốitượng với các liệu pháp đó một các ngẫu nhiên.  Người thí nghiệmquansátbiếnphảnhồivàso sánhcác phảnhồi cho các nhóm đốitượng khác nhau.  Cá thể mà chúng ta thí nghiệmgọilàđơnvị thí nghiệm (experimental units)/ ◦ Khi cá thể là con người, gọilàđốitượng (subjects) hay người tham gia (participants).  Các giá trị cụ thể mà người thí nghiệm chọn cho một yếutố gọilàcácmứccủayếutố.  Mộtliệupháplàsự kếthợpcủacácmứccụ thể từ tấtcả các yếutố mà một đơnvị thí nghiệmtiếpnhận. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
9/8/2010 1. Kiểmsoát(Control): ◦ Kiểm soát các nguồncủasự biến đổihơn là các yếutố chúng ta đang thử bằng cách tạo ra các điềukiện cho các nhóm liệu pháp càng tương tự càng tốt. 2. Ngẫu nhiên hóa (Randomize): ◦ Sự ngẫu nhiên hóa cho phép cân bằng các ảnh hưởng của các nguồnbiến đổi không đượcbiết hay không thể kiểmsoát. ◦ Không có sự ngẫu nhiên hóa, sự chệch sẽ nảy sinh. ©2010, Nguyễn Duy Long, Tiến Sỹ 31 3. Lặplại (Replicate): ◦ Làm lại thí nghiệm, áp dụng các liệuphápvào nhiều đối tượng. 4. Tạokhối (Block) (tùy chọn): ◦ Thỉnh thoảng mộtsố thuộctínhcủa đơnvị thí nghiệm không đượcnghiêncứuhay khôngthể kiểmsoátcóthểảnh hưởng kếtquả củathí nghiệm. ◦ Nếu cúgchúng ta nhóm các cá thể tương tự và ngẫu nhiên hóa trong các khối(block) này, có thể loạibỏ nhiều các biến đổido sự khác nhau giữa các khối. ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
9/8/2010  Giản đồ giúp thể hiệnthủ tục thí nghiệm.  Giản đồ sau biểuthị sự bố trí ngẫu nhiên của các đốitượng với các nhóm liệu pháp, các liệupháp riêng biệt cho các nhóm này và so sánh kếtqua sau cùng: Nguồn: De Veaux, 2006 ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Sự khác biệtcầncórasaođể có thể nói là có sự khác biệt trong các liệupháp?  Các khác biệtlớnhơnnhững gì từ sự ngẫu nhiên hóa gọilà“đáng kể về mặtthống kê” (statistically significant).  Sự đáng kể về mặtthống kê (statistical significance) sẽ nói ở các phầnsau. Đến đây, một sự khác biệtlàđáng kể về mặtthống kê nếu chúng ta tin nó không thể xảyrado ngẫu nhiên. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
9/8/2010  Thí nghiệmvàkhảosátmẫu đều dùng sự ngẫu nhiên hóa để thu thập các dữ liệu không bị chệch (unbddbiased data).  Nhưng chúng làm vớinhững cách và mục đích khác nhau: ◦ Khảosátmẫucố gắng ướclượng các tham số củaquầnthể, vì vậymẫucàngcótínhđạidiệnchoquầnthể càng tốt. ◦ Thí nghiệmcố gắng đánh giá các ảnh hưởng củacácliệu pháp, và các đơn vị thí nghiệm không phải luôn lấy ngẫu nhiên từ quầnthể. ©2010, Nguyễn Duy Long, Tiến Sỹ 35  Thông thường chúng ta muốn so sánh tình huống từ mộtliệuphápcụ thể vớitìnhhuống nguyên trạng (status quo).  Sự đolường cơ sở (baseline measurement) gọilà liệuphápkiểmsoát(control treatment), và đơnvị thí nghiệm dùng liệuphápđógọi là nhóm kiểm soát (control group). ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
9/8/2010  Khi chúng ta biếtliệuphápgìđược dùng, rấtkhó để không để kiếnthức đótácđộng sự đánh giá của chúng ta về sự phản hồi.  Để tránh sự chệch khả dĩ do biếtliệuphápgìđang áp dụng, dùng sự “giấukín” (blinding).  Hai nhóm chính có thểảnh hưởng đếnkếtquả của thí nghiệm: 1. Ngườicóthểảnh hưởng đếnkếtquả 2. Người đánh giá kếtquả  Khi mọi cá nhân trong một trong hai nhóm này được được dấu kín, thí nghiệmgọi là giấu kín đơn (single-blind).  Khi mọi cá nhân trong cả hai nhóm đượcgiấukín, thí nghiệmgọilàgiấukínkép(double-blind). ©2010, Nguyễn Duy Long, Tiến Sỹ 37  Thường thì chỉ đơngiản dùng bấtcứ liệuphápnào có thể có sự cảithiện.  Để tách các tác động củaliệu pháp quan tâm, có thể dùng liệuphápkiểmsoátđể nhại(giả) liệu pháp đó.  Liệuphápgiả (“fake” treatment) trông như liệu pháp đang thử nghiệmgọi là “giả dược” (placebo).  Ảnh hưởngg g giả dược(placebo effect) xảyrakhi dùng liệuphápgiả thì tạorasự thay đổitrongbiến phảnhồi. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
9/8/2010  thường là: ◦ ngẫu nhiên hóa (randomized). ◦ có thể so sánh (comparative). ◦ giấukínkép(double-blind). ◦ giả dược đượckiểmsoát(placebo-controlled) ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Khi các nhóm của đơnvị thí nghiệmtương tự, có thể tậphợp chúng lạivới nhau thành các khối (bloc ks).  Tạokhối tách các biến đổido sự khác biệtgiữa các khối để có thể thấysự khác biệt do các liệupháorõ hơn.  Khi sự ngẫu nhiên hóa chỉ xảy ra trong các khối, ta gọithiếtkế tạokhối đượcngẫu nhiên hóa (randomized block design). ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
9/8/2010  Giản đồ của thí nghiệm đượctạokhối: Nguồn: De Veaux, 2006 ©2010, Nguyễn Duy Long, Tiến Sỹ 41  Tạokhốitrongthínghiệmtương tự như phân tầng trong khảosát.  Trong nghiêncứu “xem lại quá khứ”h” hay nghiên cứu“về sau”, các đốitượng thường sóng đôi bởivì chúng tương tự nhau theo các cách không nghiên cứu. ©2010, Nguyễn Duy Long, Tiến Sỹ 42 21
9/8/2010  Thường bao gồm nhiềuyếutố trong mộtthí nghiệm để đánh giá điềugìxảy ra khi các mứccủa yếutố được ấn định với các sự kếthợp khác nhau. ©2010, Nguyễn Duy Long, Tiến Sỹ 43  Khi các mứccủamộtyếutố có liên hợpvới các mức củayếutố khác, ta gọihaiyếutố này là trùng hợp (confddfounded).  Với các yếutố trùng hợp, chúng ta không thể tách các ảnh hưởng củayếunàyvới các ảnh hưởng của yếutố khác. ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22
9/8/2010  Biến ẩntạosự liên hợpvớihaibiến khác làm chúng ta nghĩ biếnnàygâyrabiếnkia. ◦ Xảy ra cả trong phân tích hồi qui và nghiên cứu quan sát. ◦ Biến ẩnthường là nguyên nhân củacả hai biến y và x làm có vẻ như là x có thể gây ra y.  Biến trùng hợp liên hợp theo cách không nhân quả vớimộtyếutố và ảnh hưởng đếnsự phảnhồi. ◦ Vì sự phảnhồi, chúng ta không thể cho biết ảnh hưởng ta thấy là đượcgâyrabởiyếutố của chúng ta hay bởiyếutố trùng hợp(hay do cả hai).  Cả hai loại ảnh hưởng này điềulàmsailệch – cần đề phòng cả hai! ©2010, Nguyễn Duy Long, Tiến Sỹ 45 ©2010, Nguyễn Duy Long, Tiến Sỹ 46 23