Bài giảng Lý thuyết thống kê - Đoàn Hồng Chương

85 trang hapham 3810

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Lý thuyết thống kê - Đoàn Hồng Chương", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_ly_thuyet_thong_ke_doan_hong_chuong.pdf

Nội dung text: Bài giảng Lý thuyết thống kê - Đoàn Hồng Chương

BÀI GIẢNG LÝ THUYẾT THỐNG KÊ Đoàn Hồng Chương1 1Bộ môn Toán - TKKT, Đại học Kinh Tế - Luật
Lý thuyết thống kê GIỚI THIỆU MÔN HỌC 1. Giới thiệu đề cương • Thống kê mô tả • Hướng dẫn sử dụng SPSS • Ước lượng • Kiểm định tham số • Kiểm định phi tham số 2. Kiểm tra đánh giá • Kiểm tra cuối kì: Trắc nghiệm (20 câu hỏi - 60 phút) - Tỉ lệ 100% • Đề mẫu sẽ gửi vào tuần học cuối. 3. Thông tin liên lạc • Email: chuongdh@uel.edu.vn • Blog: www.chuongdh.wordpress.com Trang 1
Lý thuyết thống kê Chương 1 CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ 1.1 Thống kê là gì? Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức, trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu quả. Về mặt lịch sử, khoa học thống kê ra đời và phát triển nhờ: 1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu. 2. Sự phát triển của lý thuyết xác suất trong Toán học. Phân loại: 1. Thống kê mô tả (DESCRIPTION STATISTICS) là phương pháp tổ chức, tổng hợp và trình bày các dữ liệu dưới dạng thông tin. 2. Thống kê suy diễn (INFERENTIAL STATISTICS) là phương pháp dùng ước lượng các tính chất của một tổng thể dựa trên mẫu. Trang 2
Lý thuyết thống kê 1.2 Tổng thể và mẫu Định nghĩa 1.2 (POPULATION). Tổng thể là tập hợp toàn bộ các cá thể hoặc sự vật được nghiên cứu. Định nghĩa 1.3 (SAMPLE). Mẫu là một phần của tổng thể. Số lượng các phần tử được gọi là kích thước mẫu. Kí hiệu: n. 1.3 Các loại dữ liệu Định nghĩa 1.4 (QUALITATIVE DATA). Dữ liệu định tính là loại dữ liệu chỉ thể hiện tính chất của đối tượng được nghiên cứu. Định nghĩa 1.5 (QUANTITATIVE DATA). Dữ liệu định lượng là loại dữ liệu được thể hiện dưới dạng các con số. Ví dụ 1.1. Dữ liệu định tính & Dữ liệu định lượng • Giới tính (Nam, Nữ), xếp loại (Giỏi, Khá, Trung bình ), tỉ lệ khách hàng hài lòng, xếp hạng (Rating). • Số tiền trong tài khoản (Balance account), tuổi, khối lượng của một vật, khoảng cách, nhiệt độ. Trang 3
Lý thuyết thống kê 1.4 Cấp bậc dữ liệu Định nghĩa 1.6 (NOMINAL LEVEL DATA). Dữ liệu định danh là loại dữ liệu có các đặc tính sau: • các giá trị được chia thành nhóm hoặc phạm trù. • giữa các nhóm hoặc phạm trù không có sự phân biệt thứ tự. Ví dụ 1.2. Lĩnh vực kinh doanh của công ty 1. Kinh doanh 2. Tài chính 3. Vận tải 4. Dịch vụ Định nghĩa 1.7 (ORDINAL LEVEL DATA). Dữ liệu thứ bậc là loại dữ liệu có các đặc tính sau: • các giá trị được chia thành nhóm hoặc phạm trù. • giữa các nhóm hoặc phạm trù có thể sắp thứ tự và do đó có thể xếp hạng các nhóm hoặc phạm trù. Ví dụ 1.3. Student rating of a Prof. Finance1. 1Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008. Trang 4
Lý thuyết thống kê Rating Superior Good Average Poor Inferior Frequency 6 28 25 12 3 Định nghĩa 1.8 (INTERVAL LEVEL DATA). Dữ liệu khoảng là loại dữ liệu có các đặc tính sau: • các giá trị có thể so sánh và thực hiện được các phép tính số học. • điểm gốc 0 của loại dữ liệu này chỉ mang tính tương đối. Ví dụ 1.4. Nhiệt độ, cỡ giày, cỡ quần áo là các dữ liệu khoảng. Định nghĩa 1.9 (RATIO LEVEL DATA). Dữ liệu tỉ lệ là loại dữ liệu có các đặc tính sau: • các giá trị có thể so sánh và thực hiện được các phép tính số học • điểm gốc 0 và tỉ lệ giữa các giá trị của loại dữ liệu này thực sự có ý nghĩa. Ví dụ 1.5. Father-son income combinations2 2Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008. Trang 5
Lý thuyết thống kê Name Father Son Lahey $80000 $40000 Nale $90000 $30000 Rho $60000 $120000 Steele $75000 $130000 1.5 Kỹ thuật chọn mẫu 1. Chọn mẫu ngẫu nhiên đơn giản (PROBABILITY SAMPLING): là cách chọn ngẫu nhiên n phần tử bất kì từ N phần tử của tổng thể. Các bước tiến hành • Lập danh sách sắp thứ tự các đơn vị của tổng thể. • Thực hiện lấy mẫu bằng cách bốc thăm, quay số hoặc sử dụng phần mềm máy tính chọn ngẫu nhiên. 2. Chọn mẫu ngẫu nhiên hệ thống (SYSTEMATIC SAMPLING): là cách chọn ngẫu nhiên n phần tử từ N phần từ của tổng thể theo các bước sau • Lập danh sách và đánh số thứ tự các phần tử của tổng thể. Trang 6
Lý thuyết thống kê • Xác định cỡ mẫu n. • Xác định khoảng cách chọn mẫu k theo công thức ( N N n , nếu n < 0, 5; k = N N n + 1, nếu n ≥ 0, 5. • Trong k phần tử đầu tiên của tổng thể, chọn ngẫu nhiên 1 phần tử. Phần tử được chọn tiếp theo cách phần tử đầu tiên k vị trí và cứ thế tiếp tục chọn đến phần tử cuối cùng của mẫu. N Ví dụ 1.6. Giả sử tổng thể bao gồm N=13, kích thước mẫu n=4. Vì = 3, 25 n nên k = 3. Khi đó ta chọn mẫu theo tắc: • Chọn ngẫu nhiên một phần tử trong 3 phần tử đầu tiên. • Phần tử tiếp theo được chọn cách phần tử đầu tiên 3 vị trí. Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử được chọn của mẫu) Trang 7
Lý thuyết thống kê N Ví dụ 1.7. Giả sử tổng thể bao gồm N=10, kích thước mẫu n=6. Vì = 1, 67 n nên k = 2. Khi đó ta chọn mẫu theo tắc: • Chọn ngẫu nhiên một phần tử trong 2 phần tử đầu tiên. • Phần tử tiếp theo được chọn cách phần tử đầu tiên 2 vị trí. Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử được chọn của mẫu) Lưu ý. Trong trường hợp này, chúng ta chỉ chọn được mẫu có kích thước n = 5. 3. Lấy mẫu phân tầng (STRATIFIED SAMPLING) được sử dụng khi có sự khác biệt lớn về tính chất giữa các phần tử của tổng thể. Khi chọn mẫu phân tầng, chúng ta cần lưu ý 2 vấn đề: • phân tầng theo đặc điểm gì? • phân bố số lượng mẫu trong các tầng. Trang 8
Lý thuyết thống kê Chương 2 TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU 2.1 Bảng phân phối tần số, tần suất, tần số tích lũy và tần suất tích lũy Định nghĩa 2.1. FREQUENCY-RELATIVE FREQUENCY • Tần số ni là số lần xuất hiện của giá trị quan sát Xi. • Tần suất fi là tỉ lệ xuất hiện của giá trị quan sát Xi. Ví dụ 2.1. Bảng tần số, tần suất về nhiệt độ trung bình của 18 ngày mùa đông (tính bằng độ 0F ) tại một vùng: 0 Nhiệt độ Xi ( F ) Tần số ni Tần suất fi 12 2 11,11% 15 3 16,67% 17 4 22,22% 18 4 22,22% 20 3 16,67% 21 2 11,11% Trang 9
Lý thuyết thống kê Định nghĩa 2.2 (CUMULATIVE FREQUNECY). Tần số tích lũy Si được xác định bởi công thức Si = n1 + n2 + + ni (2.1) Định nghĩa 2.3 (CUMULATIVE RELATIVE FREQUENCY). Tần suất tích lũy Fi được xác định bởi công thức Fi = f1 + f2 + + fi (2.2) Ví dụ 2.2. Bảng tần số tích lũy, tần suất tích lũy của ví dụ (2.1) là 0 Nhiệt độ Xi ( F ) Tần số ni Tần suất fi Tần số tích lũy Si Tần suất tích lũy Fi 12 2 11,11% 2 11,11% 15 3 16,67% 5 27,78% 17 4 22,22% 9 50,00% 18 4 22,22% 13 72,22% 20 3 16,67% 16 88,89% 21 2 11,11% 18 100,0% Trang 10
Lý thuyết thống kê Ví dụ 2.3. Năng suất lúa (tạ/ha) của 50 hộ dân tại một địa phương được cho như sau 35 41 32 44 33 41 38 44 43 42 30 35 35 43 48 46 48 49 39 49 46 42 41 51 36 42 44 34 46 34 36 47 42 41 37 47 49 38 41 39 40 44 48 42 46 52 43 41 52 43 Hãy lập bảng phân phối tần số, tần suất, tần số tích lũy, tần suất tích lũy của dữ liệu trên. 2.2 Biểu đồ cột Trang 11
Lý thuyết thống kê 2.3 Histogram Định nghĩa 2.4. Đồ thị phân phối tần số (Histogram) là một dạng biểu đồ cột trong đó diện tích của mỗi cột tỉ lệ với tần số của các giá trị Xi. Ví dụ 2.4. Cho bảng tần số về nhiệt độ của một vùng như sau: 0 Nhiệt độ Xi ( F ) 12-15 15-18 18-24 24-27 Tần số ni 2 5 12 2 Khi đó Histogram của dữ liệu này là Trang 12
Lý thuyết thống kê 2.4 Biểu đồ hình tròn 2.5 Biểu đồ thân và lá Biểu đồ thân và lá là công cụ hữu hiệu để tóm tắt và trình bày dữ liệu mà vẫn giúp người xem thấy được cách thức phân tán dữ liệu gốc một cách chi tiết. Qui tắc lập biểu đồ này là dữ liệu định lượng dưới dạng những con số sẽ được tách thành 2 phần: thân và lá. Các chữ số bên phải của dữ liệu đóng vai trò là lá; các chữ số bên trái đóng vai trò là thân. Trang 13
Lý thuyết thống kê Ví dụ 2.5. Xét dữ liệu về độ tuổi của một nhóm nhân viên trong công ty A như sau 28 23 30 24 19 21 39 22 22 Biểu đồ thân và lá của dữ liệu trên là 1 9 2 1 2 2 3 4 8 3 0 9 2.6 Phân tổ/nhóm dữ liệu Định nghĩa 2.5. Công thức phân tổ dữ liệu • Cho một mẫu có kích thước là n. Số tổ/nhóm dữ liệu được xác định bởi công thức sau: √ k ' 3 2n. (2.3) • Độ rộng mỗi tổ Xmax − Xmin h ' . (2.4) k Trang 14
Lý thuyết thống kê Nhận xét 2.1. Các điều kiện phân tổ • Các tổ phải rời nhau. • Các tổ được phân chia phải đầy đủ (nghĩa là phủ hết toàn bộ các giá trị của dữ liệu). • Không được có tổ là tập rỗng. Ví dụ 2.6. Hãy thực hiện phân tổ cho ví dụ (2.3) và lập bảng tần số tương ứng. Đáp số. √ Vì 3 100 = 4, 64 nên số tổ k = 5. Xmax − Xmin Độ rộng mỗi tổ: h = = 4, 4 ' 5 k Năng suất lúa (tấn/ha) Tần số ≤35 8 35-40 8 40-45 19 45-50 12 50-55 3 Trang 15
Lý thuyết thống kê Chương 3 THỐNG KÊ MÔ TẢ 3.1 Số trung bình Định nghĩa 3.1 (Trung bình tổng thể). Giả sử tổng thể Ω có N phần tử. Khi đó giá trị N P Xi µ = i=1 , (3.1) N được gọi là trung bình tổng thể. Định nghĩa 3.2 (Trung bình mẫu). Giả sử mẫu có kích thước là n. Khi đó giá trị n P xi X = i=1 , (3.2) n được gọi là trung bình mẫu. Ví dụ 3.1. Tính giá trị trung bình của mẫu số liệu được cho như sau Trang 16
Lý thuyết thống kê Tuổi 19 23 25 30 45 Tần số 2 4 5 3 2 Giải. 19.2 + 23.4 + 25.5 + 30.3 + 45.2 X = = 27, 1875 2 + 4 + 5 + 3 + 2 Ví dụ 3.2. Tính giá trị trung bình của mẫu số liệu được cho như sau Năng suất lúa (tấn/ha) 30-35 35-40 40-45 45-50 50-55 Tần số 8 8 19 12 3 Giải. Trước tiên chúng ta tính các giá trị đại diện của mỗi nhóm theo công thức xα + xβ a = . (3.3) i 2 Khi đó ta có bảng tần số Năng suất lúa (tấn/ha) 32,5 37,5 42,5 47,5 52,5 Tần số 8 8 19 12 3 Trang 17
Lý thuyết thống kê Khi đó giá trị trung bình mẫu 32, 5.8 + 37, 5.8 + 42, 5.19 + 47, 5.12 + 52, 5.3 X = = 41, 9. 8 + 8 + 19 + 12 + 3 3.2 Số yếu vị - Mode Định nghĩa 3.3 (Trường hợp dữ liệu nhận giá trị rời rạc). Mode là giá trị xuất hiện nhiều lần nhất trong dãy số liệu. Kí hiệu là ModX hoặc X0. Ví dụ 3.3. Cho bảng số liệu Số nhân khẩu xi 1 2 3 4 5 6 ≥ 7 Số gia đình ni 10 30 75 45 20 15 5 Khi đó ModX = 3. Định nghĩa 3.4 (Trường hợp dữ liệu dạng phân tổ đều nhau). Giá trị của ModX được xác định gần đúng theo công thức fMo − fMo−1 ModX = L + h. , (3.4) (fMo − fMo−1) + (fMo − fMo+1) Trang 18
Lý thuyết thống kê trong đó L là giới hạn dưới của nhóm chứa Mode, h là khoảng cách của nhóm chứa Mode, fMo là tần số của nhóm chứa Mode, fMo−1, fMo+1 là tần số của nhóm đứng trước và đứng sau nhóm chứa Mode. Ví dụ 3.4. Cho bảng số liệu về nhiệt độ trung bình trong ngày ở một vùng trong 60 ngày. 0 Nhiệt độ xi ( C) 15-18 18-21 21-24 24-27 27-30 30-33 ≥ 33 Tần số ni 5 7 8 10 14 11 5 Khi đó nhóm chứa Mode là nhóm có nhiệt độ trung bình trong khoảng 27 − 30 0C. Giá trị gần đúng của 14 − 10 201 ModX = 27 + 3. = ' 28, 71. (14 − 10) + (14 − 11) 7 Điều này có nghĩa là đa số các ngày, nhiệt độ trung bình là 28,710C. 3.3 Số trung vị - Median Trang 19
Lý thuyết thống kê Định nghĩa 3.5. Giả sử mẫu gồm n giá trị rời rạc, được sắp xếp theo thứ tự tăng dần (hoặc giảm dần). n + 1 • Nếu n là số lẻ thì trung vị, kí hiệu MedX, là giá trị ở vị trí thứ . 2 n n • Nếu n là số chẵn thì trung vị là trung bình cộng của giá trị ở vị trí và + 1. 2 2 Ví dụ 3.5. Cho bảng số liệu 6 12 21 22 24 35 41. Khi đó MedX = 22. Ví dụ 3.6. Cho bảng số liệu 10 11 13 15 16 18 30 45. 15 + 16 Khi đó MedX = = 15, 5. 2 Định nghĩa 3.6. Giả sử mẫu số liệu gồm n phần tử được cho dưới dạng phân tổ đều nhau. Khi đó trung vị MedX được xác định gần đúng như sau 1. Tính tần số tích lũy. Trang 20
Lý thuyết thống kê n + 1 2. Xác định nhóm chứa trung vị Med, là nhóm có tần số tích lũy ≥ . 2 3. Áp dụng công thức n − SMe−1 MedX = L + h. 2 , trong đó (3.5) fMe L là giới hạn dưới của nhóm chứa Med, h là khoảng cách của nhóm chứa Med, SMe−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Med, fMe là tần số của nhóm chứa Med. Ví dụ 3.7. Cho bảng số liệu sau Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514 Tần số ni 5 10 15 13 7 Tần số tích lũy Si 5 15 30 43 50 Khi đó nhóm chứa Med là nhóm có trọng lượng nằm trong khoảng 496−502 gram. Trang 21
Lý thuyết thống kê Áp dụng công thức (3.5), ta có 50 − 15 MedX = 496 + 6. 2 = 500. 15 Điều này có nghĩa là sẽ có khoảng 50% giá trị của dãy dữ liệu nhỏ hơn MedX. 3.4 Phân vị Định nghĩa 3.7 (Tứ phân vị). Giả sử dãy dữ liệu có n phần tử. n + 1 • Q được gọi là tứ phân vị thứ nhất và là giá trị ở vị trí thứ . 1 4 • Q2 được gọi là tứ phân vị thứ hai và chính là trung vị. 3(n + 1) • Q được gọi là tứ phân vị thứ ba và là giá trị ở vị trí thứ . 3 4 Ví dụ 3.8. Tìm tứ phân vị của dữ liệu sau 6 12 21 22 24 35 41. 10 11 13 15 16 18 30 45. Định nghĩa 3.8. Nếu dữ liệu được cho dưới dạng phân tổ đều nhau thì Trang 22
Lý thuyết thống kê • Tứ phân vị thứ nhất n 4 − SQ1−1 Q1 = L + h. , trong đó (3.6) fQ1 L là giới hạn dưới của nhóm chứa Q1, h là khoảng cách của nhóm chứa Q1, SQ1−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q1, fQ1 là tần số của nhóm chứa Q1. • Tứ phân vị thứ ba 3n 4 − SQ3−1 Q3 = L + h. , trong đó (3.7) fQ3 L là giới hạn dưới của nhóm chứa Q3, h là khoảng cách của nhóm chứa Q3, SQ3−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q3, fQ3 là tần số của nhóm chứa Q3. Trang 23
Lý thuyết thống kê Ví dụ 3.9. Tìm các tứ phân vị của dữ liệu Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514 Tần số ni 5 10 15 13 7 Tần số tích lũy Si 5 15 30 43 50 3.5 Khoảng biến thiên - Range Định nghĩa 3.9. Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ nhất của các dữ liệu. R := Xmax − Xmin. (3.8) 3.6 Độ trải giữa Định nghĩa 3.10. Độ trải giữa là sai biệt giữa tứ phân vị thứ ba Q3 và thứ nhất Q1 của dãy dữ liệu. R1 := Q3 − Q1. (3.9) Ví dụ 3.10. Tìm độ trải giữa của dữ liệu trong ví dụ (3.9) 3.7 Phương sai & Độ lệch chuẩn Trang 24
Lý thuyết thống kê Định nghĩa 3.11 (Độ lệch bình phương trung bình). n P 2 (xi − X) MS = i=1 (3.10) n Định nghĩa 3.12. Phương sai mẫu là đại lượng đặc trưng cho mức độ phân tán của các dữ liệu. Kí hiệu: s2. n P 2 (xi − X) s2 = i=1 . (3.11) n − 1 Tính chất 3.1. n s2 = MS (3.12) n − 1 Định nghĩa 3.13. Độ lệch chuẫn mẫu: v u n uP 2 u (xi − X) s = ti=1 . (3.13) n − 1 Trang 25
Lý thuyết thống kê Ví dụ 3.11. Cho số liệu về năng suất lao động của một mẫu gồm 50 công nhân trong một xí nghiệp Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54 Số công nhân 3 6 9 12 8 7 5 • Hãy tính giá trị trung bình của mẫu số liệu trên. • Tính phương sai và độ lệch chuẩn. Giải. Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54 Giá trị đại diện 32 36 40 44 48 52 56 Số công nhân 3 6 9 12 8 7 5 Giá trị trung bình X = 44, 56; phương sai s2 = 45, 72; độ lệch chuẩn s = 6, 76. 3.8 Hệ số biến thiên - CV Định nghĩa 3.14 (Coefficient of variation). Hệ số biến thiên s CV = .100% (3.14) X Trang 26
Lý thuyết thống kê Ý nghĩa. Hệ số biến thiên cho biết mức độ thay đổi của độ lệch chuẩn so với giá trị trung bình. Ví dụ 3.12. Một nhà kinh doanh đang xem xét đầu tư vào 2 danh mục A và B. Đối với danh mục A: lợi nhuận trung bình là 16% và độ lệch chuẩn là 4%. Đối với danh mục B: lợi nhuận trung bình là 11% và độ lệch chuẩn là 3%. Hỏi nên chọn đầu tư vào danh mục nào? Vì sao? Giải. Ta có hệ số biến thiên CVA = 25% CVB = 27%. Điều này có nghĩa là nếu tăng tỉ lệ lợi nhuận thêm 1% thì, đối với danh mục A, mức độ rủi ro trong đầu tư sẽ tăng 25%, còn đối với danh mục B, rủi ro sẽ tăng 27%. Do đó, chọn đầu tư vào danh mục A ít rủi ro hơn danh mục B. 3.10 Độ lệch - Skewness Định nghĩa 3.15. Độ lệch được xác định bởi công thức n  P 3  (xi−X) i=1  n  γ = . (3.15) 1 s3 Trang 27
Lý thuyết thống kê • Nếu γ1 = 0 thì ta nói các dữ liệu của mẫu có tính đối xứng. • Nếu γ1 > 0 thì ta nói các dữ liệu của mẫu lệch phải. • Nếu γ1 MedX > ModX thì các dữ liệu của mẫu lệch phải. • Nếu X < MedX < ModX thì các dữ liệu của mẫu lệch trái. Trang 28
Lý thuyết thống kê Ví dụ 3.13. Cho bảng số liệu Trọng lượng (g) 25 26 27 40 Số túi (ni) 4 6 4 2 Độ lệch (skewness) của bảng số liệu trên là γ1 = 2.395 > 0. Do đó histogram lệch phải. 3.9 Độ nhọn - Kurtosis Định nghĩa 3.16. Độ nhọn được xác định bởi công thức n  P 4  (xi−X) i=1  n  β = . (3.16) 2 s4 Trang 29
Lý thuyết thống kê • β 3: đồ thị nhọn Nhận xét 3.1. Người ta còn tính độ nhọn theo công thức n  P 4  (xi−X) i=1  n  γ = β − 3 = − 3. (3.17) 2 2 s4 Ví dụ 3.14. Giả sử ta có số liệu của VN-Index trong 30 ngày từ 2/8/2012 đến 13/9/2012, với trung bình là X = 413 điểm. Độ lệch và độ nhọn được tính là γ1 = −0, 5, γ2 = −0, 6. Từ các số liệu này chúng ta nhận thấy đồ thị của bộ dữ liệu này sẽ lệch về bên trái, ít nhọn. Trang 30
Lý thuyết thống kê 3.10 Quy tắc thực nghiệm Giả sử một mẫu số liệu có đồ thị dạng hình chuông (phân phối chuẩn) Khi đó ta có các tính chất sau • Có khoảng 68% quan sát dao động trong khoảng (µ − σ, µ + σ). • Có khoảng 95% quan sát dao động trong khoảng (µ − 2σ, µ + 2σ). • Có khoảng 99,7% quan sát dao động trong khoảng (µ − 3σ, µ + 3σ). Trang 31
Lý thuyết thống kê Chương 4 ƯỚC LƯỢNG THAM SỐ TỔNG THỂ 4.1 Khoảng tin cậy Định nghĩa 4.1. Khoảng (G1,G2) được gọi là khoảng tin cậy (hay khoảng ước lượng) của tham số θ nếu P [G1 < θ < G2] = 1 − α. (4.1) • 1 − α được gọi là độ tin cậy. • α được gọi là mức ý nghĩa. 4.2 Ước lượng trung bình tổng thể 4.2.1 Ước lượng trung bình của một tổng thể Giả sử biến ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó khoảng tin cậy cho trung bình tổng thể µ, với mức ý nghĩa α, được xác định như sau: a. Trường hợp biết phương sai σ2 • Độ chính xác σ = zα √ . (4.2) 2 n Trang 32
Lý thuyết thống kê zα 3 Trong đó 2 được tra từ bảng phân phối chuẩn . • Khoảng tin cậy: µ ∈ X − , X + . (4.3) Ví dụ 4.1. Giả sử trọng lượng của sản phẩm X có phân phối chuẩn N(µ, σ2) và độ lệch chuẩn σ = 1(g). Khảo sát mẫu gồm 50 sản phẩm, người ta tính được trung bình mẫu X = 19, 64(g). Với độ tin cậy 95%, hãy ước lượng trọng lượng trung bình µ của loại sản phẩm nói trên. Giải. Vì X có phân phối chuẩn và phương sai σ2 = 1 nên khoảng tin cậy cho trọng lượng trung bình µ của loại sản phẩm X có dạng σ σ (X − zα √ , X + zα √ ). 2 n 2 n α Với độ tin cậy 1 − α = 95%, ta có = 2, 5%. Khi đó giá trị zα = 1, 96. 2 2 Vậy µ ∈ (19, 36; 19, 92) 3Bảng 1, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 33
Lý thuyết thống kê b. Trường hợp chưa biết phương sai σ2 • Độ chính xác s = zα √ , nếu n ≥ 30. (4.4) 2 n s = tα √ , nếu n < 30. (4.5) 2 ,n−1 n tα Trong đó 2 ,n−1 được tra từ bảng phân phối Student, với bậc tự do là n − 14. • Khoảng tin cậy: µ ∈ X − , X + . (4.6) Ví dụ 4.2. Giả sử mức xăng tiêu thụ của một loại xe máy là đại lượng có phân phối chuẩn N(µ, σ2). Quan sát mức hao xăng của 25 xe máy này trên cùng một đoạn đường, người ta thu được kết quả sau Mức xăng 1,9-2,1 2,1-2,3 2,3-2,5 2,5-2,7 Số xe 5 9 8 3 4Bảng 2, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 34
Lý thuyết thống kê Hãy ước lượng mức hao phí xăng trung bình với độ tin cậy 95%. Giải. Từ bảng số liệu, ta có X = 2, 272, s = 0, 19 Do chưa biết phương sai σ2 và kích thước mẫu n = 25 < 30 nên khoảng tin cậy cho mức xăng tiêu thụ trung bình của loại xe máy trên có dạng s s (X − tα √ , X + tα √ ). 2 ,n−1 n 2 ,n−1 n α Với độ tin cậy 1 − α = 95%, ta có = 2, 5%. Khi đó giá trị tα = 2, 0639. 2 2 ,n−1 Vậy µ ∈ (2, 19; 2, 35) Ví dụ 4.3. Trong ví dụ (4.2), giả sử giữ nguyên độ tin cậy, nếu muốn độ chính xác của ước lượng là = 5% thì cần điều tra mẫu có kích thước tối thiểu là bao nhiêu? Giải. Với các giả thiết không đổi, độ chính xác của ước lượng là s = tα .√ . 2 ,n−1 n Trang 35
Lý thuyết thống kê Khi đó h si2 0, 192 n ≥ t . = 2, 0639. ' 61, 5. n−1 0, 05 Vậy kích thước mẫu tối thiểu n = 62, để có độ chính xác ước lượng là 5%. 4.2.2 Ước lượng sự khác biệt của hai trung bình tổng thể 1. Trường hợp 2 mẫu độc lập Giả sử hai mẫu ngẫu nhiên độc lập X, Y , tương ứng, đều có phân phối 2 2 chuẩn N(µ1, σ1) và N(µ2, σ2). Kích thước mẫu của X, Y lần lượt là n1 và n2. Khi đó khoảng tin cậy cho sự khác biệt của hai trung bình tổng thể µ1 − µ2, với mức ý nghĩa α, được xác định như sau: 2 2 a. Trường hợp biết phương sai σ1, σ2 • Độ chính xác s 2 2 σ1 σ2 = zα + . 2 (4.7) n1 n2 Trang 36
Lý thuyết thống kê • Khoảng tin cậy: µ1 − µ2 ∈ X1 − X2 − , X1 − X2 + . (4.8) Ví dụ 4.4. Để so sánh tuổi thọ (đơn vị: giờ) của 2 loại đèn flash dùng cho máy ảnh được sản xuất bởi hai công ty X và Y, người ta tiến hành chọn ngẫu nhiên từ mỗi công ty 80 sản phẩm. Kết quả của các mẫu được tổng hợp trong bảng sau: Công ty Kích thước mẫu Trung bình mẫu X n1 = 80 X = 115 Y n2 = 80 Y = 90 Giả sử tuổi thọ đèn flash là có phân phối chuẩn và theo một nghiên cứu trước đó, độ lệch chuẩn về tuổi thọ của 2 loại đèn flash trên là σ1 = 66(h), σ2 = 60(h). Hãy ước lượng sự khác biệt về tuổi thọ trung bình của đèn flash do công ty X và Y sản xuất, với mức ý nghĩa α = 1%. Giải. Vì X, Y có phân phối chuẩn và phương sai σ1, σ2 đã biết nên khoảng Trang 37
Lý thuyết thống kê ước lượng cho hiệu của µ1 − µ2 có dạng  s s  2 2 2 2 σ1 σ2 σ1 σ2 X − Y − zα + , X − Y + zα +  2 2  n1 n2 n1 n2 α = 1% zα = 2.57 µ − µ ∈ (−0, 63; 50, 63) Với mức ý nghĩa , ta có 2 . Vậy 1 2 . 2 2 b. Trường hợp chưa biết phương sai nhưng có thể giả sử σ1 = σ2 • Độ chính xác r 1 1 = tα s + . 2 ,n1+n2−2 p (4.9) n1 n2 tα Trong đó 2 ,n1+n2−2 được tra từ bảng phân phối Student, với bậc tự do là n + n − 2 và 1 2 s 2 2 (n1 − 1)s1 + (n2 − 1)s2 sp = . (4.10) n1 + n2 − 2 • Khoảng tin cậy: µ1 − µ2 ∈ X1 − X2 − , X1 − X2 + . (4.11) Trang 38
Lý thuyết thống kê Ví dụ 4.5. Một nhà máy sản xuất bóng đèn muốn so sánh tuổi thọ trung bình của 2 loại bóng đèn khác nhau. Họ tiến hành chọn mẫu ngẫu nhiên đối với 2 loại bóng đèn này. Kết quả các mẫu được tổng hợp trong bảng sau: Loại bóng đèn Kích thước mẫu Trung bình mẫu Độ lệch chuẩn mẫu X n1 = 6 X = 1243 s1 = 152 Y n2 = 4 Y = 985 s2 = 189 Hãy tìm khoảng tin cậy 95% cho µ2 − µ1, biết rằng tuổi thọ bóng đèn là đại lượng có phân phối chuẩn. Giải. Tuy phương sai về tuổi thọ của 2 loại bóng đèn chưa biết nhưng chúng ta có thể giả sử chúng bằng nhau vì chúng có cùng một điều kiện sản xuất. Do đó ước lượng cho µ1 − µ2 có dạng ! r 1 1 r 1 1 X − Y − tα s + , X − Y + tα s + . 2 ,n1+n2−2 p 2 ,n1+n2−2 p n1 n2 n1 n2 α Với độ tin cậy 95%, ta có = 2, 5%. Do đó tα = 2, 3060. Vậy µ1 − µ2 ∈ 2 2 ,n1+n2−2 (150, 30; 365, 69). Trang 39
Lý thuyết thống kê 2. Trường hợp mẫu phối hợp từng cặp Ví dụ 4.6. Một công ty sản xuất nhiên liệu muốn so sánh mức tiêu thụ nhiên liệu (gallon) của các xe khi dùng xăng thường và xăng tổng hợp. Công ty tiến hành chọn mẫu ngẫu nhiên 10 tài xế và xe của họ. Cho các tài xế lần lượt dùng 2 loại nhiên liệu trên để chạy trên cùng một quãng đường 200km. Sau mỗi lượt thử nghiệm, người ta ghi lại mức tiêu thụ nhiên liệu của mỗi xe. Kết quả thu được như sau Xăng tổng hợp X 10,10 6,94 9,80 10,70 8,55 7,38 7,04 9,35 7,58 10,05 Xăng thường Y 9,66 7,75 7,19 13,42 9,26 9,48 7,14 15,38 8,20 13,99 Dạng dữ liệu này được gọi là mẫu phối hợp từng cặp với số liệu ở cột thứ nhất tương ứng cho đại lượng X và số liệu ở cột thứ hai tương ứng cho đại lượng Y. 2 2 Giả sử X ∼ N(µ1, σ1), Y ∼ N(µ2, σ2), và n là kích thước của mẫu X và Y. Để xây dựng khoảng ước lượng cho µ1 − µ2, với mức ý nghĩa α, ta tiến hành như sau: Trang 40
Lý thuyết thống kê • Tính độ chênh lệch của từng cặp di = Xi − Yi. (4.12) • Tính giá trị trung bình n P di d = i=1 . (4.13) n • Tính độ lệch trung bình v u n uP 2 u (di − d) s = ti=1 . (4.14) d n − 1 • Độ chính xác sd = tα √ . (4.15) 2 ,n−1 n • Khoảng tin cậy µ1 − µ2 ∈ (d − , d + ). (4.16) Trang 41
Lý thuyết thống kê Ví dụ 4.7. Xét dữ liệu cho bởi ví dụ (4.6). Hãy ước lượng sự khác biệt về mức tiêu thụ nhiên liệu với mức ý nghĩa α = 1%, biết rằng mức tiêu thụ nhiên liệu là đại lượng ngẫu nhiên có phân phối chuẩn. Giải. Từ các số liệu của ví dụ (4.6), ta có bảng kết quả tính các di như sau: Xăng tổng hợp X (gallon) Xăng thường Y (gallon) di 10,10 9,66 0,44 6,94 7,75 -0,81 9,80 7,19 2,61 10,70 13,42 -2,72 8,55 9,26 -0,71 7,38 9,48 -2,1 7,04 7,14 -0,1 9,35 15,38 -6,03 7,58 8,20 -0,62 10,05 13,99 -3,94 Giá trị trung bình d = −1, 398 và độ lệch chuẩn mẫu sd = 2, 42. Trang 42
Lý thuyết thống kê α = 1% tα = 3, 2498 Với mức ý nghĩa , ta có 2 ,n−1 . Vậy µ1 − µ2 ∈ (−3, 88; 1, 09) 4.3 Ước lượng tỉ lệ tổng thể Ước lượng tỉ lệ tổng thể p được dùng trong trường hợp mục tiêu nghiên cứu cần xác định tỉ lệ có hay không có một tính chất nào đó của tổng thể. 4.3.1 Ước lượng tỉ lệ một tổng thể Giả sử mẫu ngẫu nhiên X có f là tỉ lệ xuất hiện tính chất cần khảo sát, n là kích thước mẫu X. Khi đó khoảng ước lượng, với mức ý nghĩa α, cho tỉ lệ tổng thể p được xác định như sau: • Độ chính xác r f(1 − f) = zα . (4.17) 2 n • Khoảng tin cậy p ∈ (f − , f + ). (4.18) Ví dụ 4.8. Kiểm tra ngẫu nhiên 400 sản phẩm do một nhà máy sản xuất, người ta Trang 43
Lý thuyết thống kê thấy có 20 phế phẩm. Với mức ý nghĩa α = 2%, hãy ước lượng tỉ lệ phế phẩm do nhà máy sản xuất. 20 Giải. Từ giả thiết, ta có f = = 0, 05. Với mức ý nghĩa α = 2%, ta có 400 zα = 2, 33 2 . Vậy p ∈ (0, 02; 0, 08) 4.3.2 Ước lượng sự khác biệt của hai tỉ lệ tổng thể Giả sử hai mẫu ngẫu nhiên X, Y có f1, f2 theo thứ tự là tỉ lệ xuất hiện tính chất cần khảo sát. n1, n2 là kích thước mẫu của X, Y, tương ứng. Khi đó khoảng ước lượng, với mức ý nghĩa α, cho sự khác biệt của hai tỉ lệ tổng thể p1 − p2 được xác định như sau: • Độ chính xác s f1(1 − f1) f2(1 − f2) = zα + . 2 (4.19) n1 n2 • Khoảng tin cậy p1 − p2 ∈ (f1 − f2 − , f1 − f2 + ). (4.20) Trang 44
Lý thuyết thống kê Ví dụ 4.9. Một doanh nghiệp tiến hành khảo sát thị trường để biết nhu cầu của khách hàng đối với loại sản phẩm họ sắp tung ra thị trường. Kết quả khảo sát thị trường cho biết, đối với vùng A, trong số 250 người được khảo sát, có 40 người trả lời sẽ mua sản phẩm này; đối với vùng B, trong số 180 người được khảo sát, có 30 người trả lời sẽ mua sản phẩm này. Với mức ý nghĩa α = 2%, hãy ước lượng sự khác biệt tỉ lệ khách hàng sẽ mua sản phẩm mới ở 2 vùng nói trên. Giải. 4 Tỉ lệ khách hàng ở vùng A sẽ mua sản phẩm của doanh nghiệp: f = . 1 25 1 Tỉ lệ khách hàng ở vùng B sẽ mua sản phẩm của doanh nghiệp: f = . 2 6 α = 2% zα = 2, 33 Với mức ý nghĩa , ta có 2 . vậy p1 − p2 ∈ (−0, 09; 0, 08) hay p1 − p2 ∈ (−9%, 8%). Trang 45
Lý thuyết thống kê Chương 5 KIỂM ĐỊNH GIẢ THUYẾT VỀ THAM SỐ TỔNG THỂ 5.1 Bài toán kiểm định giả thuyết 5.1.1 Mô hình toán ( H0 :, Giả thiết gốc - Null Hypothesis; (5.1) H1 :, Giả thiết đối. Ví dụ 5.1. Một công ty kinh doanh xăng dầu dự tính xây dựng trạm xăng tại địa điểm A nếu trung bình mỗi ngày có hơn 2000 xe qua điểm này. Hãy phát biểu bài toán kiểm định ứng với giá thiết trên. Đối với bài toán trên, mô hình toán có thể như sau: ( H0 :, µ ≤ 2000; H1 :, µ > 2000 5.1.2 Miền bác bỏ và p-value Miền bác bỏ, kí hiệu Wα, là miền thỏa tính chất P [Wα/H0] = α (α được gọi là mức ý nghĩa). (5.2) Trang 46
Lý thuyết thống kê p-value là mức ý nghĩa α nhỏ nhất mà H0 bị bác bỏ. 5.1.3 Các loại sai lầm Với mô hình kiểm định như trên, chúng ta có thể mắc các sai lầm sau: Kết luận Chấp nhận H0 Bác bỏ H0 Thực tế H0 đúng Kết luận đúng Sai lầm loại I H0 sai Sai lầm loại II Kết luận đúng Từ định nghĩa miền bác bỏ, ta suy ra xác suất mắc sai lầm loại I là α. Giả sử xác suất mắc sai lầm loại II là β. Khi đó chúng ta có bảng tóm tắt như sau Kết luận Chấp nhận H0 Bác bỏ H0 Thực tế H0 đúng P = 1 − α P = α H0 sai P = β P = 1 − β 5.1.4 Kiểu bài toán kiểm định và miền bác bỏ Căn cứ vào các giả thiết kiểm định, người ta phân các bài toán thành 3 loại Trang 47
Lý thuyết thống kê 1. Kiểm định 2 phía Kiểm định 2 phía là bài toán kiểm định có dạng mô hình như sau: ( H0 :, θ = θ0; H1 :,θ =6 θ0 Miền bác bỏ của bài toán này có dạng W = −∞, −zα ∪ zα , +∞ α 2 2 (5.3) 2. Kiểm định bên trái Kiểm định bên trái là bài toán kiểm định có dạng mô hình như sau: ( H0 :, θ ≥ θ0; H1 :,θ<θ 0 Miền bác bỏ của bài toán này có dạng Trang 48
Lý thuyết thống kê Wα = (−∞, −zα) (5.4) 3. Kiểm định bên phải Kiểm định bên phải là bài toán kiểm định có dạng mô hình như sau: ( H0 :, θ ≤ θ0; H1 :,θ>θ 0 Miền bác bỏ của bài toán này có dạng Trang 49
Lý thuyết thống kê Wα = (zα, +∞) (5.5) 5.1.5 Các bước giải bài toán kiểm định giả thuyết 1. Phát biểu các giả thiết H0 và đối thiết H1. 2. Định mức ý nghĩa α. 3. Chọn tiêu chuẩn kiểm định. 4. Thiết lập miền bác bỏ của H0. 5. Từ mẫu cụ thể đưa ra quyết định: chấp nhận hay bác bỏ H0. 5.2 Kiểm định giả thuyết về trung bình tổng thể 5.2.1 Kiểm định giả thuyết về trung bình trên một tổng thể Giả sử mẫu X có phân phối chuẩn N(µ, σ2). Với mức ý nghĩa α cho trước, bài toán so sánh trung bình tổng thể µ với một số µ0 có thể phát biểu ở 3 dạng sau: ( ( ( H0 :, µ = µ0; H0 :, µ ≥ µ0; H0 :, µ ≤ µ0; H1 :,µ =6 µ0 H1 :,µ µ 0 Trang 50
Lý thuyết thống kê a. Trường hợp biết phương sai σ2 X − µ0 • Tiêu chuẩn kiểm định Z = σ ∼ N(0, 1). √ n • Miền bác bỏ n o W = |Z| > zα – Kiểm định 2 phía α 2 . – Kiểm định bên trái Wα = {Z zα}. Ví dụ 5.2. Giả sử X ∼ N(µ; σ2). Quan sát thông số X của 36 phần tử ta thu được kết quả X = 2, 576. Biết rằng σ2 = 0, 5. Hãy so sánh trung bình µ của X với số 2, 4, với mức ý nghĩa 0, 05. ( H0 : µ = 2, 4 Giải. Đặt giả thiết . H1 : µ =6 2, 4 2 Theo đề ta có n = 36, X = 2, 576, µ0 = 2, 4 và phương sai σ = 0, 5 nên √ (X − µ ) n Z = 0 ' 1, 49 σ Trang 51
Lý thuyết thống kê 5% zα = 1, 96 Với mức ý nghĩa , tra bảng phân phối chuẩn ta có 2 . Khi đó miền bác bỏ Wα = (−∞, −1, 96) ∪ (1, 96, +∞). Vậy Z 6∈ Wα do đó ta kết luận: chấp nhận H0, nghĩa là giá trị trung bình µ = 2, 4. Ví dụ 5.3. Chiều cao trung bình của thanh niên Việt Nam trước đây là 1, 5m. Hiện nay để xác định lại chiều cao trung bình này người ta tiến hành kiểm tra chiều cao của 100 thanh niên và thu được kết quả X = 1, 6m với độ lệch tiêu chuẩn σ = 15cm. Chúng ta có thể kết luận được gì về chiều cao trung bình của thanh niên hiện nay, với mức ý nghĩa 0,02? Giải. Gọi µ là chiều cao trung bình của thanh niên Việt Nam hiện nay. ( H0 : µ ≤ 1, 5 (m) Đặt giả thiết . H1 : µ > 1, 5 (m) Ta có n = 100, X = 160, µ0 = 1, 5 cm và độ lệch tiêu chuẩn σ = 15 cm, nên √ (X − µ ) n Z = 0 ' 6, 67. σ Trang 52
Lý thuyết thống kê Với mức ý nghĩa 2%, tra bảng tích phân Laplace ta có zα = 2, 05. Khi đó miền bác bỏ Wα = (2, 05, +∞). Vậy Z ∈ Wα, do đó ta kết luận: bác bỏ H0, nghĩa là chiều cao trung bình của thanh niên Việt Nam đã tăng so với trước đây. b. Trường hợp chưa biết phương sai σ2 X − µ0 • Tiêu chuẩn kiểm định T = s ∼ T (n − 1). √ n • Miền bác bỏ n o W = |T | > tα – Kiểm định 2 phía α 2 ,n−1 . – Kiểm định bên trái Wα = {T tα,n−1}. Ví dụ 5.4. Quan sát mức hao phí xăng của 25 xe máy thuộc cùng một loại và chạy trên cùng một quãng đường, người ta thu được kết quả sau: Trang 53
Lý thuyết thống kê Mức xăng 1,9-2,1 2,1-2,3 2,3-2,5 2,5-2,7 Số xe 5 9 8 3 Với mức ý nghĩa 0, 05, hãy so sánh mức hao phí xăng thực tế so với mức hao phí của nhà sản xuất đưa ra là 2, 2. Giải. Gọi µ là mức hao phí xăng trung bình của loại xe máy đó. ( H0 : µ = 2, 2 Đặt giả thiết . H1 : µ =6 2, 2 Từ bảng số liệu của đề bài ta có 2 2 Số lượng xe (ni) Mức xăng (Xi) ni.Xi Xi ni.Xi 5 2,0 10,0 4,0 20 9 2,2 19,8 4,84 43,56 8 2,4 19,2 5,76 46,08 3 2,6 7,8 6,76 20,28 25 56,8 129,92 Trang 54
Lý thuyết thống kê Suy ra P P 2 ni.Xi ni.Xi i 56, 8 2 i 129, 92 X = P = = 2, 272 và X = P = = 5, 1968. ni 25 ni 25 i i Suy ra 2 n MS = X2 − X = 0, 0348 và s2 = σ2 = 0, 0363 và s = 0, 19 n − 1 n Vì phương sai σ2 chưa biết và cỡ mẫu n = 25 < 30 nên X − µ0 T = s = 1, 895 √ n 5% n = 25 tα = Với mức ý nghĩa và , tra bảng phân phối Student ta có 2 ,n−1 2, 0639. Khi đó miền bác bỏ Wα = (−∞, −2, 0639) ∪ (2, 0639, +∞) Vậy T 6∈ Wα, nghĩa là chấp nhận lượng xăng tiêu thụ trung bình µ = 2, 2 của nhà sản xuất đưa ra. Trang 55
Lý thuyết thống kê 5.2.2 Kiểm định giả thuyết về trung bình trên hai tổng thể 1. Trường hợp 2 mẫu độc lập 2 2 Giả sử hai biến ngẫu nhiên X ∼ N(µ1, σ1),Y ∼ N(µ2, σ2). Với mức ý nghĩa α cho trước, bài toán so sánh trung bình 2 tổng thể µ1 và µ2 có thể phát biểu ở 3 dạng sau: ( ( ( H0 :, µ1 = µ2; H0 :, µ1 ≥ µ2; H0 :, µ1 ≤ µ2; H1 :,µ 1 =6 µ2 H1 :,µ 1 µ2 2 2 a. Trường hợp biết phương sai σ1, σ2 X1 − X2 • Tiêu chuẩn kiểm định Z = s ∼ N(0, 1). σ2 σ2 1 + 2 n1 n2 • Miền bác bỏ n o W = |Z| > zα – Kiểm định 2 phía α 2 . – Kiểm định bên trái Wα = {Z < −zα}. Trang 56
Lý thuyết thống kê – Kiểm định bên phải Wα = {Z > zα}. Ví dụ 5.5. Tại một xí nghiệp, có 2 dây chuyền cùng gia công một loại chi tiết. Để đánh giá hiệu quả làm việc của 2 dây chuyền, người ta tiến hành thu thập dữ liệu về năng suất của chúng (đơn vị: sản phẩm/h). Kết quả thu được như sau Dây chuyền 1 2,5 3,2 3,5 3,8 3,5 Dây chuyền 2 2,0 2,7 2,5 2,9 2,3 2,6 Với mức ý nghĩa 5%, hãy cho biết dây chuyền nào hoạt động hiệu quả hơn, biết rằng năng suất là đại lượng có phân phối chuẩn và σ1 = σ2 = 0, 4. Giải. Gọi µ1, m2 là năng suất trung bình của dây chuyền 1 và 2. Giả thuyết kiểm định ( H0 :, µ1 ≤ µ2; H1 :,µ 1 > µ2 Từ bảng số liệu, ta có X1 = 3, 3, X2 = 2, 5. Trang 57
Lý thuyết thống kê Vì phương sai σ1 = σ2 = 0, 4 nên giá trị kiểm định 3, 3 − 2, 5 Z = r = 3, 3. 0, 42 0, 42 + 5 6 Với mức ý nghĩa α = 5%, tra bảng phân phối chuẩn (trường hợp kiểm định bên phải), ta có zα = 1, 645. Khi đó miền bác bỏ Wα = (1, 645; +∞). Vì Z ∈ Wα nên ta bác bỏ giả thuyết H0, nghĩa là dây chuyền 1 thực sự có năng suất cao hơn dây chuyền 2. 2 2 b. Trương hợp chưa biết phương sai nhưng có thể giả sử σ1 = σ2 X1 − X2 • Tiêu chuẩn kiểm định T = ∼ T (n + n − 2), với r 1 1 1 2 sp + n1 n2 s 2 2 (n1 − 1)s1 + (n2 − 1)s2 sp = n1 + n2 − 2 Trang 58
Lý thuyết thống kê • Miền bác bỏ n o W = |T | > tα – Kiểm định 2 phía α 2 ,n1+n2−2 . – Kiểm định bên trái Wα = {T tα,n1+n2−2}. Ví dụ 5.6. Một nghiên cứu về thu nhập trung bình mỗi năm ở hai vùng A và B thu được kết quả sau: 2 Vùng A n1 = 20 X1 = 18, 27 s1 = 8, 74 2 Vùng B n2 = 19 X2 = 16, 78 s2 = 6, 58 Với mức ý nghĩa 5%, có thể nói thu nhập 2 vùng này là khác nhau hay không? ( H0 : µ1 = µ2 Giải. Đặt giả thiết . H1 : µ1 =6 µ2 α = 5% tα = 2, 0262 Với mức ý nghĩa , ta có 2 ,n1+n2−2 . Do đó miền bác bỏ Wα = (−∞, −2, 0262) ∪ (2, 0262, +∞). Ta tính được sp = 2, 773 và giá trị kiểm định T = 1, 677. Suy ra T 6∈ Wα, do đó chấp nhận giả thuyết H0. Trang 59
Lý thuyết thống kê 2. Trường hợp mẫu phối hợp từng cặp Giả giữ chúng ta có mẫu phối hợp từng cặp (X, Y ). Để thực hiện bài toán kiểm định đối với mẫu dữ liệu này ta làm như sau: • Tính di. • Tính d, sd. d • Lập tiêu chuẩn kiểm định T = s . √d n • Miền bác bỏ n o W = |T | > tα – Kiểm định 2 phía α 2 ,n−1 . – Kiểm định bên trái Wα = {T tα,n−1}. Ví dụ 5.7. Xét lại ví dụ (4.6). Có ý kiến cho rằng sử dụng xăng tổng hợp sẽ tiết kiệm hơn xăng thường. Bằng dữ liệu đã cho, hãy kiểm chứng nhận định trên với mức ý nghĩa α = 1%. Trang 60
Lý thuyết thống kê Giải. Gọi µ1, µ2 là mức tiêu thụ trung bình đối với xăng tổng hợp và xăng thường. Giả thuyết kiểm định cho bài toán là ( H0 : µ1 ≥ µ2 H1 : µ1 < µ2 Từ ví dụ (4.7), ta có d = −1, 398, sd = 2, 42. Giá trị kiểm định d T = s = −1, 8268. √d n Giá trị tra bảng tα,n−1 = 2, 8214. Khi đó miền bác bỏ Wα = (−∞; −2, 8214). Vì T 6∈ Wα nên chấp nhận giả thuyết H0. 5.3 Kiểm định giả thuyết về tỉ lệ tổng thể a. Kiểm định giả thuyết về tỉ lệ trên một tổng thể Giả sử X, Y có phân phối 0-1. Với mức ý nghĩa α cho trước, bài toán so sánh Trang 61
Lý thuyết thống kê tỉ lệ p và p0 có thể phát biểu ở 3 dạng sau: ( ( ( H0 :, p = p0; H0 :, p ≥ p0; H0 :, p ≤ p0; H1 :,p =6 p0 H1 :,p p 0 r p r q + 1 − p 1 − q Nếu n > 5 và √ zα – Kiểm định 2 phía α 2 . – Kiểm định bên trái Wα = {Z zα}. Ví dụ 5.8. Tỉ lệ khách hàng trước đây sử dụng sản phẩm A là 60%. Sau khi thực hiện một chiến dịch quảng cáo, người ta tiến hành khảo sát khách hàng thì thấy Trang 62
Lý thuyết thống kê rằng: trong 400 người được hỏi thì có 250 người dùng loại sản phẩm A. Với mức ý nghĩa 2%, hãy đánh giá hiệu quả của chiến dịch quảng cáo. b. Kiểm định giả thuyết về tỉ lệ trên hai tổng thể Giả sử hai biến ngẫu nhiên X, Y có phân phối 0-1. Với mức ý nghĩa α cho trước, bài toán so sánh tỉ lệ 2 tổng thể p1 và p2 có thể phát biểu ở 3 dạng sau: ( ( ( H0 :, p1 = p2; H0 :, p1 ≥ p2; H0 :, p1 ≤ p2; H1 :,p 1 =6 p2 H1 :,p 1 p2 f1 − f2 • Tiêu chuẩn kiểm định Z = s ∼ N(0, 1), với 1 1 p(1 − p) + n1 n2 n f + n f p ' 1 1 2 2. n1 + n2 • Miền bác bỏ n o W = |Z| > zα – Kiểm định 2 phía α 2 . Trang 63
Lý thuyết thống kê – Kiểm định bên trái Wα = {Z zα}. Ví dụ 5.9. Cho bảng số liệu sau Nhà máy Số sản phẩm Số phế phẩm A 1000 20 B 900 30 Với mức ý nghĩa 2%, có thể xem tỉ lệ phế phẩm của 2 nhà máy là như nhau không? 5.4 Kiểm định giả thuyết về phương sai 5.4.1 Kiểm định giả thuyết về phương sai trên một tổng thể Giả sử biến ngẫu nhiên X có phân phối chuẩn. Với mức ý nghĩa α, bài toán 2 so sánh phương sai của X với một giá trị σ0 cho trước có thể phát biểu như sau: ( 2 2 ( 2 2 ( 2 2 H0 :, σ = σ0; H0 :, σ ≥ σ0; H0 :, σ ≤ σ0; 2 2 2 2 2 2 H1 :,σ =6 σ0 H1 :,σ σ0 Trang 64
Lý thuyết thống kê 2 2 (n − 1)s 2 • Tiêu chuẩn kiểm định χ = 2 ∼ χn−1, σ0 2 5 với χn−1 là phân phối chi-bình phương có bậc tự do là n − 1 (dòng) . • Miền bác bỏ n 2 2 2 2 o – Kiểm định 2 phía Wα = χ χα . 1− 2 ,n−1 2 ,n−1 2 2 – Kiểm định bên trái Wα = χ χα,n−1 . 5Bảng 3,Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 65
Lý thuyết thống kê Ví dụ 5.10. Để kiểm tra độ chính xác của một máy sản xuất công cụ, người ta tiến hành đo chiều dài của 15 chi tiết do máy đó sản xuất. Kết quả tính toán đạt được: s2 = 14, 6. Với mức ý nghĩa 1%, hãy cho biết máy trên có hoạt động bình thường không biết rằng chiều dài các chi tiết do máy sản xuất là đại lượng có phân phối chuẩn và dung sai thiết kế của máy là σ2 = 12. 5.4.2 Kiểm định giả thuyết về sự bằng nhau của 2 phương sai Giả sử 2 biến ngẫu nhiên X, Y có phân phối chuẩn. Với mức ý nghĩa α, bài toán so sánh phương sai của X và Y có thể phát biểu như sau: ( 2 2 ( 2 2 H0 :, σ1 = σ2; H0 :, σ1 ≤ σ2; 2 2 2 2 H1 :,σ 1 =6 σ2 H1 :,σ 1 > σ2 2 s1 • Tiêu chuẩn kiểm định F = 2 ∼ F (n1 − 1, n2 − 1), s2 với F (n1 − 1, n2 − 1) là phân phối Fisher với bậc tự do là n1 − 1 (cột) và 6 n2 − 1 (dòng) . 6Bảng 4, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 66
Lý thuyết thống kê 2 s1 2 2 Lưu ý: trong công thức F = 2, điều kiện bắt buộc là s1 > s2. s2 • Miền bác bỏ n o W = F Fα – Kiểm định 2 phía α 1− 2 ,n1−1,n2−1 hoặc 2 ,n1−1,n2−1 . – Kiểm định bên phải Wα = {F > Fα,n1−1,n2−1}. Trang 67
Lý thuyết thống kê Nhận xét 5.1. Vì phân phối Fisher không có tính đối xứng, nên để tính giá trị F α 1− 2 ,n1−1,n2−1 ta làm như sau • Fα Tìm 2 ,n2−1,n1−1. 1 • Giá trị F1−α,n −1,n −1 = . 2 1 2 Fα 2 ,n2−1,n1−1 Ví dụ 5.11. Người ta muốn kiểm tra độ chính xác của 2 máy công cụ. Mẫu ngẫu nhiên các chi tiết do 2 máy này sản xuất được thể hiện trong bảng tóm tắt sau 2 Máy 1 n1 = 20 s1 = 164 2 Máy 2 n2 = 10 s2 = 146 Với độ tin cậy 98%, hãy cho biết độ chính xác của 2 máy có như nhau không? Trang 68
Lý thuyết thống kê Chương 6 PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ 6.1 ANOVA là gì? • Phân tích phương sai (Analysis of Variance - ANOVA) là phương pháp dùng so sánh trung bình của nhiều tổng thể (từ 3 trở lên). • Phân tích phương sai thường được dùng để đánh giá ảnh hưởng của yếu tố nguyên nhân (định tính) đối với yếu tố kết quả (định lượng). Ví dụ 6.1. Khảo sát ảnh hưởng của yếu tố trình độ học vấn (định tính) đến năng suất lao động (định lượng) của một nhóm công nhân. 6.2 So sánh trung bình của k tổng thể có phân phối chuẩn Giả sử các tổng thể X1,X2, ,Xk có 2 • phân phối chuẩn N(µi, σi ), i = 1, 2, . . . , k, • phương sai bằng nhau, • độc lập. Trang 69
Lý thuyết thống kê Khi đó ANOVA được thực hiện như sau: 1. Đặt giả thuyết ( H0 : µ1 = µ2 = = µk H1 : Tồn tại µi =6 µj. 2. Tính trung bình mẫu của các nhóm 3. Tính tổng bình phương các độ lệch 4. Tính các phương sai 5. Kiểm định giả thuyết Để thực hiện các bước trên, chúng ta sắp xếp dữ liệu theo bảng sau Trang 70
Lý thuyết thống kê a. Tính trung bình mẫu của các nhóm nj P xij i=1 • Trung bình mẫu của từng nhóm: Xj = , j = 1, 2, . . . , k. nj k P nj.Xj j=1 • X = Trung bình mẫu: k . P nj j=1 b. Tính tổng bình phương các độ lệch nj P 2 • Tổng bình phương độ lệch của từng nhóm: SSj = (xij − Xj) . i=1 k P • Tổng bình phương độ lệch trong nội bộ các nhóm: SSW = SSj. j=1 k P 2 • Tổng bình phương độ lệch giữa các nhóm: SSG = nj(Xj − X) . j=1 Trang 71
Lý thuyết thống kê k nj P P 2 • Tổng bình phương độ lệch mẫu: SST = (xij − X) . j=1 i=1 c. Tính các phương sai SSW • Phương sai trong nội bộ nhóm: MSW = . n − k SSG • Phương sai giữa các nhóm: MSG = . k − 1 d. Kiểm định giả thuyết MSG • Tiêu chuẩn kiểm định F = ∼ F (k − 1, n − k), MSW với F (k − 1, n − k) là phân phối Fisher với bậc tự do là k − 1 và n − k. • Miền bác bỏ Wα = {F > Fα,k−1,n−k}. Nhận xét ? SST=SSW+SSG ? SSW phản ánh phần biến thiên của yếu tố kết quả không do ảnh hưởng của yếu tố nguyên nhân. Trang 72
Lý thuyết thống kê ? SSG phản ảnh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân. Bảng kết quả ANOVA thực hiện bởi Excel Source of Variation SS Degree of Freedom MS F ratio SSG MSG Between groups SSG k-1 MSG = F = k − 1 MSW SSW Within groups SSW n-k MSW = n − k Total SST n-1 Ví dụ 6.2. Khảo sát ảnh hưởng của trình độ học vấn đối với năng suất lao động của một nhóm công nhân, ta có bảng số liệu sau Quan sát Tiểu học THCS THPT CĐ 1 1,38 1,43 1,52 1,55 2 1,38 1,43 1,53 1,58 3 1,40 1,45 4 1,42 1,45 Trang 73
Lý thuyết thống kê Với mức ý nghĩa 1%, có thể kết luận rằng năng suất lao động bị ảnh hưởng bởi trình độ học vấn hay không? Vì sao? Giải. Ta có bảng tóm tắt kết quả như sau: Quan sát Tiểu học THCS THPT CĐ 1 1,38 1,43 1,52 1,55 2 1,38 1,43 1,53 1,58 3 1,40 1,45 4 1,42 1,45 k P nj 4 4 2 2 n = nj = 12 j=1 Xj 1,395 1,44 1,525 1,565 X = 1, 46 −3 −4 −5 −4 −3 SSj 1, 1.10 4.10 5.10 4, 5.10 SSW = 2.10 SSG = 0, 049 Các phương sai MSW = 2, 5.10−4 49 MSG = 3000 Trang 74
Lý thuyết thống kê Đặt giả thuyết ( H0 : µ1 = µ2 = µ3 H1 : Tồn tại µi =6 µj. Suy ra giá trị kiểm định F = 65, 33. Miền bác bỏ: F1%,k−1,n−k = 7, 59. Wα = (7, 59, +∞). Vì F ∈ Wα nên ta bác bỏ H0. Trang 75
Lý thuyết thống kê Chương 7 KIỂM ĐỊNH PHI THAM SỐ 7.1 Kiểm định tính độc lập Giả sử hai biến ngẫu nhiên X, Y là biến định tính. X có các trạng thái X1,X2, ,Xr và Y có các trạng thái Y1,Y2, ,Yc. Bài toán xét tính độc lập của X, Y được phát biểu như sau: ( H0 : X, Y độc lập; H1, X, Y không độc lập. Để thực hiện kiểm định giả thuyết trên, ta tiến hành sắp xếp dữ liệu như sau: P B1 B2 Bc A1 n11 n12 n1c n1 A2 n21 n22 n2c n2 Ar nr1 nr2 nrc nr P m1 m2 mc n Trang 76
Lý thuyết thống kê " # r c n2 2 P P ij 2 • Tiêu chuẩn kiểm định χ = n − 1 ∼ χ(r−1)×(c−1). i=1 j=1 ni.mj 2 2 • Miền bác bỏ Wα = {χ > χα,(r−1)×(c−1)}. Ví dụ 4.1. Nghiên cứu sự ảnh hưởng của hoàn cảnh gia đình đối với tình trạng phạm tội của trẻ em vị thành niên, người ta thu được bảng số liệu như sau Bố hoặc mẹ đã mất Bố mẹ li hôn Có đủ bố mẹ P Không phạm tội 20 25 18 63 Phạm tội 29 43 13 85 P 49 68 31 n=148 Với mức ý nghĩa 5%, chúng ta có thể kết luận được gì về tình trạng phạm tội của trẻ vị thành niên? Giải. Giả thuyết kiểm định ( H0 : hoàn cảnh gia đình và tình trạng phạm tội độc lập; H1, ngược lại H0. Trang 77
Lý thuyết thống kê Giá trị tiêu chuẩn χ2 = 4, 0433. 2 Với mức ý nghĩa 5%, giá trị χ5%,(2−1)×(3−1) = 5, 9915, nên miền bác bỏ Wα = (5, 9915; +∞). 2 Vậy χ 6∈ Wα nên ta chấp nhận H0, điều này có nghĩa là chúng ta chưa có đủ cơ sở để bác bỏ giả thuyết "hoàn cảnh gia đình và tình trạng phạm tội không liên quan đến nhau". 7.2 Kiểm định tổng hạng Wilcoxon cho trung bình hai mẫu độc lập Kiểm định tổng hạng Wilcoxon dùng so sánh trung bình của mai mẫu định tính độc lập trong trường hợp cỡ mẫu nhỏ. Giả thuyết kiểm định của bài toán được viết như sau: ( ( ( H0 :,M1 = M2 H0 :,M1 ≥ M2 H0 :,M1 ≤ M2 H1 :,M1 =6 M2 H1 :,M1 M2 Để thực hiện việc kiểm định, chúng ta tiến hành như sau: • Xếp hạng các giá trị từ nhỏ đến lớn (trường hợp đồng hạng thay thế bằng hạng trung bình). Trang 78
Lý thuyết thống kê • Qui ước: mẫu 1 là mẫu nhỏ n1, mẫu 2 là mẫu lớn n2. • Tổng hạng T1 là tổng tất cả các hạng trong mẫu 1. Tiêu chuẩn kiểm định • Nếu n1 ≤ 10 và n2 ≤ 10 thì miền bác bỏ có dạng sau – Kiểm định 2 phía: Wα = {T TU }. – Kiểm định bên phải: Wα = {T > TU }. – Kiểm định bên trái: Wα = {T < TL}. 7 Trong đó TL,TU được tra từ bảng tổng hạng Wilcoxon . Ví dụ 4.2. Tại một cửa hàng để kiểm tra hiệu quả của việc trưng bày hàng hóa đến doanh số (đơn vị: triệu đồng), người ta chọn 2 mẫu ngẫu nhiên, mẫu thứ nhất gồm 9 gian hàng được trưng bày bình thường, mẫu thứ 2 gồm 10 gian hàng trưng bày theo cách mới. Số liệu về doanh thu được cho bởi bảng sau: Doanh số/tuần (mẫu 1) 22 34 52 62 30 40 64 83 56 Doanh số/tuần (mẫu 2) 52 71 76 54 67 83 66 90 77 84 7Bảng 7, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 79
Lý thuyết thống kê Với mức ý nghĩa 1%, hãy đánh giá hiệu quả của việc trưng bày hàng hóa theo cách mới ở cửa hàng nói trên. Giải. Giả thuyết kiểm định ( H0 :,M1 ≥ M2 H1 :,M1 < M2 Kết quả xếp hạng của dữ liệu trên được tóm tắt trong bảng sau Doanh số/tuần (mẫu 1) 22 34 52 62 30 40 64 83 56 Ranks 1 3 5,5 9 2 4 10 16,5 8 Doanh số/tuần (mẫu 2) 52 71 76 54 67 83 66 90 77 84 Ranks 5,5 13 14 7 12 16,5 11 19 15 18 Tổng hạng của nhóm nhỏ là T1 = 1 + 3 + 5, 5 + 9 + 2 + 4 + 10 + 16, 5 + 8 = 59. Với mức ý nghĩa 1%, tra bảng tổng hạng Wilcoxon (một phía), với n1 = 9, n2 = 10, ta có TL = 61,TU = 119. Vậy miền bác bỏ Wα = (−∞; 61). Trang 80
Lý thuyết thống kê Do T1 ∈ Wα nên bác bỏ giả thuyết H0, nghĩa là việc trưng bày hàng hóa theo cách mới làm cho doanh thu tăng. 7.3 Kiểm định dấu và hạng Wilcoxon cho mẫu phối hợp từng cặp Kiểm định dấu và hạng Wilcoxon dùng so sánh trung bình mẫu định tính phối hợp từng cặp. Các bước thực hiện • Tính di = Xi − Yi. • Tính giá trị tuyệt đối của |di|. • Xác định cỡ mẫu thực tế n0 = n − (số chênh lệch bằng 0). • Xếp hạng Ri từ 1 đến n0 cho các |di| theo thứ tự từ nhỏ đến lớn (trường hợp đồng hạng thay thế bằng hạng trung bình). • Tách riêng các hạng − và + theo dấu của di gốc. n0 P + • Tính tổng hạng W = Ri . i=1 Với cỡ mẫu n0 ≤ 20 ta có qui tắc kiểm định như sau: Trang 81
Lý thuyết thống kê • Giả thuyết kiểm định ( ( ( H0 :,M1 = M2 H0 :,M1 ≥ M2 H0 :,M1 ≤ M2 H1 :,M1 =6 M2 H1 :,M1 M2 • Miền bác bỏ – 2 phía: Wα = {W WU }. – bên phải: Wα = {W > WU }. – bên trái: Wα = {W < WL} 8 Trong đó WL,WU được tra từ bảng dấu và hạng Wilcoxon . Ví dụ 4.3. Để khảo sát năng suất của một giống lúa mới B (kg/sào) người ta tiến hành trồng đối chứng với giống lúa cũ A. Kết quả thu được như sau: Thửa ruộng 1 2 3 4 5 6 7 8 9 10 A 312 333 356 316 310 352 389 313 316 346 B 346 372 392 351 330 364 375 315 327 378 Hiệu số -34 -39 -36 -35 -20 -12 14 -2 -11 -32 8Bảng 6, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 82
Lý thuyết thống kê Với mức ý nghĩa 5%, có thể cho rằng giống lúa mới hiệu quả hơn hay không? Giải. Giả thuyết kiểm định ( H0 :,M1 ≥ M2 H1 :,M1 < M2 Kết quả tính hiệu di = Xi − Yi và xếp hạng được tóm tắt trong bảng sau Thửa ruộng 1 2 3 4 5 6 7 8 9 10 A 312 333 356 316 310 352 389 313 316 346 B 346 372 392 351 330 364 375 315 327 378 Hiệu số -34 -39 -36 -35 -20 -12 14 -2 -11 -32 Hạng của hiệu số 7 10 9 8 5 3 4 1 2 6 Hạng có dấu -7 -10 -9 -8 -5 -3 4 -1 -2 -6 n0=n=10 P + Giá trị kiểm định W = Ri = 4. Tra bảng dấu và hạng Wilcoxon với i=1 0 mức ý nghĩa α = 5% (một phía) và dòng n = 10, ta có WL = 10,WU = 45. Từ W < WL, ta bác bỏ H0, nghĩa là năng suất của giống lúa mới thực sự lớn hơn năng suất của giống lúa cũ, với mức ý nghĩa α = 5%. Trang 83
Lý thuyết thống kê Tài liệu tham khảo [1] Bộ môn Toán-TKKT, Bài giảng "Lý Thuyết Thống Kê Kinh Tế", UEL, 2010. [2] Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008. [3] Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. [4] Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Bài tập & Bài giải - Thống kê ứng dụng trong Kinh tế & Xã hội", Nhà xuất bản Thống kê, 2009. Trang 84