Bài giảng Hồi quy và tương quan

pdf 8 trang hapham 2450
Bạn đang xem tài liệu "Bài giảng Hồi quy và tương quan", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_hoi_quy_va_tuong_quan.pdf

Nội dung text: Bài giảng Hồi quy và tương quan

  1. MỤC TIÊU Hồi quy và tương quan 6.00 • Đánh giá sự liên quan giữa hai biến định lượng thông qua biểu đồ 5.00 • Xây dựng và phiên giải đường hồi quy 4.00 FEV (lít) • Tính và phiên giải được hệ số tương quan 3.00 • Kiểm định đường hồi quy 2.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) TẠI SAO CẦN? MÔ HÌNH HỒI QUI – Dự đoán các giá trị của các biến phụ thuộc (y) • Biểu đồ chấm điểm thể hiện quan hệ giữa chiều cao và dung tích thở gắng sức (FEV) dựa trên các giá trị của các độc lập (x1, 6.00 x2, xk.). • ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, 5.00 – Phân tích mối quan hệ giữa các biến độc lập 4.00 và biến phụ thuộc: FEV (lít) • ví dụ: mối quan hệ giữa mức độ mỡ trong máu và 3.00 tuổi 2.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) MÔ HÌNH HỒI QUI (tiếp) MÔ HÌNH HỒI QUI (tiếp) • Nhận xét gì? • Mô hình tuyến tính 6.00 • FEV tăng cùng với Chiều cao y= a + bx + ey 5.00 • Vậy FEV tăng như thế nào? • Trong đó 4.00 y= a+ bx + e FEV (lít) y = biến phụ thuộc • Tăng bao nhiêu khi chiều cao tăng thêm x cm? 3.00 x = biến độc lập b a = giao điểm 2.00 a 150.0 155.0 160.0 165.0 170.0 175.0 b = độ dốc Chiều cao (cm) e = giá trị sai số x 1
  2. CÁC BƯỚC TIẾN HÀNH XÂY ĐÁNH GIÁ CÁC GIẢ THUYẾT DỰNG ĐƯỜNG HỒI QUI 1. Đánh giá các giả thuyết • Biến x, y là biến ngẫu nhiên 2. Xác định các hệ số • Giá trị của biến y có phân bố chuẩn 3. Đánh giá các hệ số hồi quy • Tập hợp các giá trị của y có 4. Sử dụng để ước lượng/dự đóan phương sai như nhau ĐƯỜNG (HỒI QUI) XÁC ĐỊNH CÁC HỆ SỐ TRUNG BÌNH TỐI THIỂU • Các hệ số được ước lượng: – trên một mẫu rút ra từ quần thể – tính tóan các giá trị thống kê mẫu Là một đường thẳng mà từ đó tổng – xây dựng phương trình đường thẳng tốt nhất bình phương trung tới đường thẳng mô tả được mối quan hệ giữa hai biến? y w trung bình là nhỏ nhất (tối thiểu) w w w w w w w w Vậy đường thẳng tốt w w w w w nhất là đường nào? w x ĐƯỜNG (HỒI QUI) TÍNH HỆ SỐ HỒI QUI TRUNG BÌNH TỐI THIỂU Tổng bình phương = (2 - 1)2 +(4 - 2)2 +(1.5 - 3)2 + (3.2 - 4)2 = 6.89 Tổng bình phương = (2 -2.5)2 + (4 - 2.5)2 +(1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99 Hãy so sánh hai đường thẳng 4 (2,4) Tính các hệ số hồi quy từ mẫu Đường hồi quy w n n ( x )( y ) (4,3.2) n n å i å i yˆ = b + b x 3 w i=1 i=1 0 1 å(xi - x)(yi - y) å xi yi - i=1 i=1 n 2.5 b = n = n 2 2 Đường hồi quy quần thể 2 å(xi - x) n (å xi ) (1,2)w i=1 2 i=1 (3,1.5) å xi - w i=1 n 1 Tổng bình phương càng y = a + bx + e nhỏ thì đường thẳng phù a = y - bx hợp với bộ số liệu tốt 1 2 3 4 hơn. 2
  3. VÍ DỤ TÍNH TAY • Chiều cao và FEV của 20 sinh viên Lập bảng số liệu 2 2 2 2 Biến độc lập, X Biến phụ thuộc, Y x y xy x y (x-x) (y-y) height FEV 79 50 3950 6241 2500 5.4 10.0 154.0 3.54 85 54 4590 7225 2916 13.4 0.7 157.0 3.54 160.4 3.19 76 47 3572 5776 2209 28.4 38.0 161.2 2.85 161.2 3.42 161.3 3.20 Sx Sx Sxy Sx2 Sy2 162.0 3.60 ĐƯỜNG HỒI QUI ĐƯỜNG HỒI QUI x = 165 ,38 åx = 3307,6 å y = 77 ,1 • Đường hồi quy mô tả mối quan hệ giữa FEV và chiều cao sẽ là: 2 y = 3,86; åx 2 = 547587,2 åy =306,8 åxy =12797,0 n = 20. FEV=-8,45 + 0,0744*chiều cao (3307,6)(77,1) 12797,0 - 20 b = = 0,0744. a = 3,86- 0,0744*165,38 = -8,45 (3307,6)2 Tính đường hồi qui bằng MS EXCEL 547587,2 - 20 Tools > Data Analysis > Regression > yˆ = a + bx = -8,45 + 0,0744 x [bôi đen khỏang y và khỏang x] > OK KẾT QUẢ TỪ EXCEL PHIÊN GIẢI ĐƯỜNG HỒI QUI 6.00 SUMMARY OUTPUT 5.00 Regression Statistics Multiple R 0.5813 4.00 R Square 0.3379 FEV (lít) Adjusted R Square 0.3011 Standard Error 0.5892 yˆ = -8,45 + 0,0744 x 3.00 Observations 20 ANOVA 2.00 150.0 155.0 160.0 165.0 170.0 175.0 df SS MS F Sig. F Chiều cao (cm) Regression 1 3.1894 3.1894 9.1865 0.0072 FEV = - 8,45 + 0,0744 height Residual 18 6.2493 0.3472 Total 19 9.4387 Coef. SE t Stat P-value Lower 95% Upper 95% giá trị điểm cắt Đây là giá trị độ dốc, với mỗi một cm cao Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856 lên thì FEV sẽ tăng 0,0744 lít X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260 3
  4. ĐÁNH GIÁ ĐƯỜNG HỒI QUI ĐÁNH GIÁ ĐỘ DỐC • Phương pháp bình phương tối thiểu sẽ cho – Khi không có mối quan hệ tuyến tính giữa hai biến, đường hồi qui sẽ nằm ngang chúng ta đường hồi qui kể cả khi không có mối q quan hệ tuyến tính giữa x và q q qq q q q • Chúng ta cần phải đánh giá xem đường hồi qui q q q q q q q q q q q q q có phải là tốt nhất hay không? q q q • Chúng ta đánh giá độ dốc (slope) của đường hồi Có mối quan hệ tuyến tính Kh. Có mối quan hệ tuyến tính các giá trị (x) khác nhau cho các giá trị (x) khác nhau cho kết qui (ít khi đánh giá điểm cắt – Intercept) kết quả khác nhau ở (y) quả không khác nhau ở (y) độ dốc khác không (0) độ dốc bằng không (0) KIỂM ĐỊNH ĐỘ DỐC VÍ DỤ • Chúng ta có thể suy luận b từ b bằng cách kiểm định: • Kiểm định giả thuyết thống kê về mối quan H : b = 0 0 hệ tuyết tính giữa chiều cao và dung tích H1: b ≠ 0 (or 0) – The test statistic is thở gắng sức của các sinh viên trường y, s2 sử dụng a = 5%. sb = 2 b - b å( xi - x) t = trong đó s b 1 s2 = ( (y - y)2 -b2 (x - x)2 ) n -2 å i å i sai số chuẩn của b. – Nếu sai số có phân bố chuẩn thì thống kê này sẽ có phân bố t-student với df=n-2 Kiểm định độ dốc: kết VÍ DỤ quả từ EXCEL • để tính t, chúng ta cần: SUMMARY OUTPUT • b=0,0744 • sb=0,025 Regression Statistics Multiple R 0.5813 R Square 0.3379 Adjusted R Square 0.3011 b - b 0,0744 - 0 Standard Error 0.5892 có đủ bằng chứng để kết t = = = 3,031 s .025 Observations 20 luận chiều cao có khả năng b dự đoán FEV ANOVA df SS MS F Sig. F • vùng bác bỏ t > t.025 or t < -t.025 with n = n-2 = Regression 1 3.1894 3.1894 9.1865 0.0072 Residual 18 6.2493 0.3472 18; khỏang, t.025 = 2,1 Total 19 9.4387 • kết luận: độ dốc đường hồi qui khác 0 có ý Coef. SE t Stat P-value Lower 95% Upper 95% nghĩa TK, đường hồi qui là mô tả tốt nhất. Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856 X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260 4
  5. Hệ số xác định Phần 2 – Để đo lường độ mạnh của mối quan hệ tuyến tính chúng ta dùng hệ số xác định ( yˆ - y)2 SSR R2 = å = å( y - y)2 SST Hệ số xác định Hệ số xác định y2 • Sự biến thiên của các giá trị quan sát và Hai điểm số liệu (x1,y1) và (x2,y2) giá trị trung bình: n t phầ Mô hình hồi qui (SSR) i mộ y lý giả Tổng biến thiên của y (SST) còn lại, ch biến thiên của y = SSR + SSE ưa lý y1 giải Sai số (SSE) x1 x2 Tổng biến thiên y = Biến thiên lý giải bằng + Phần chưa lý giải (sai số) đường hồi qui 2 2 2 2 2 2 (y1 - y) + (y2 - y) = (yˆ1 - y) + (yˆ 2 - y) + (y1 - yˆ 1) + (y2 - yˆ 2 ) Hệ số xác định Ví dụ: • R2 đo lường tỷ lệ biến thiên của y được lý giải bằng 2 sự biến thiên của x 2 2 (å xi ) b (å xi - 2 2 n ( x ) R = 2 = 0,3379 b2( x2 - å i ( y ) SSR å i 2 å i R2 = = n å yi - ( y - y)2 ( y )2 n å i y2 - å i å i n • R2 có giá trị từ 0 đến 1 R2 = 1: lý tưởng, đường hồi qui trùng với các điểm số liệu. R2 = 0: không có mối liên hệ giữa x và y. 5
  6. Ví dụ Sử dụng đường hồi qui SUMMARY OUTPUT • Nếu mô hình hồi quy là mô tả tốt cho mối Regression Statistics Multiple R 0.5813 Hệ số xác định=0,3379, nghĩa quan hệ giữa hai biến chúng ta có thể R Square 0.3379 là chỉ có 33,8% biến thiên của Adjusted R Square 0.3011 FEV được lý giải bằng sự biến dùng mô hình đó để dự đóan giá trị của y: Standard Error 0.5892 thiên của chiều cao (mô hình Observations 20 chưa phải là mô hình tốt) – Ước lượng điểm ANOVA – Ước lượng khỏang df SS MS F Sig. F Regression 1 3.1894 3.1894 9.1865 0.0072 Residual 18 6.2493 0.3472 Total 19 9.4387 Coef. SE t Stat P-value Lower 95% Upper 95% Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856 X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260 Ước lượng điểm Ước lượng khoảng • Hai giá trị khỏang: • Ví dụ: – Ước lượng khỏang giá trị của y với một giá trị của – Ước lượng FEV của một sinh viên cao 187cm: x 1 (x - x) 2 yˆ ± t s 1+ + p (1-a / 2) y|x n 2 y=-8,45+0,0744*187=5,46 lít å(xi - x) – Khỏang tin cậy – ước lượng trung bình của y với – Một sinh viên cao 187cm sẽ có dung tích thở mỗi giá trị của x. gắng sức là 5,46 lít 2 1 (x - x) yˆ ± t s + p – Kết quả này chính xác như thế nào? (1-a / 2) y|x n 2 å (xi - x) Kiểm định F cho mô hình hồi quy Hệ số tương quan - Giả thuyết thống kê H0: b = 0 và H1: b ≠ 0 (or 0) ANOVA df SS MS F Sig. F ( x )2 Regression b2( x2 - å i ) SSReg/ 1 å i MSR/MSE (SSReg) n df Residual SSRes/ n-2 SST-SSReg (SSRes) df ( y )2 y2 - å i Total n-1 å i n Bác bỏ H0 nếu F>F1,n-2, 1-a Không bác bỏ H0 nếu F< F1,n-2, 1-a 6
  7. Ví dụ một số giá trị hệ số Hệ số tương quan tương quan Y Y Y • Hệ số tương quan (Coefficient of correlation) được sử dụng để đo lường độ lớn của mối quan hệ giữa hai biến số. X X X r = -1 r = -.6 r = 0 Y Y X X r = .6 r = 1 Cách tính Kiểm định giả thuyết cho r • Công thức • Giả thuyết 2 2 2 b [å xi - (å xi ) / n] r = H0: r = 0 (không liên quan) 2 2 y - ( yi ) / n å å H1: r ¹ 0 (có mối quan hệ tuyến tính) • Giá trị hệ số tương quan nằm trong khỏang -1 • Kiểm định đến 1 r - r – nếu r = -1 (mối tương quan nghịch) hoặc r = +1 (mối t = tương quan thuận) tất cả các điểm số liệu nằm trên 2 với df = n - 2 đường hồi quy 1- r – nếu r = 0 không có mối tương quan n - 2 Ví dụ Một số dạng hồi quy khác • Hệ số tương quan giữa FEV và chiều cao (0,0744)2 547587,2 - (3307,6)2 / 20 r = [ ] = 0,58 306,6 - (77,1)2 / 20 • Kiểm định H : r = 0 (không liên quan) 0,58 - 0 0 t = = 3,02 H : r ¹ 0 (có mối quan hệ 2 1 1- 0,58 tuyến tính) 20 - 2 t>t tra bảng=2,1 à bác bỏ H0, có mối quan hệ tuyến tính giữa FEV và chiều cao, 7
  8. Mô hình tuyến tính – không Hồi quy đa biến tuyến tính Y Y • Có nhiều biến độc lập – y = b0+b1x1 + b2x2+ +bnxn+ e • Hồi quy logistics: X X – y = b +b x + b x + +b x + e e e 0 1 1 2 2 n n X – Trong đó y là biến phụ thuộc chỉ có hai giá trị X có/không Không tuyến tính, Tuyến tính hồi quy bội ü 8