Bài giảng Xử lý dữ liệu với SPSS - Hồ Thanh Trí
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xử lý dữ liệu với SPSS - Hồ Thanh Trí", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
bai_giang_xu_ly_du_lieu_voi_spss_ho_thanh_tri.pdf
Nội dung text: Bài giảng Xử lý dữ liệu với SPSS - Hồ Thanh Trí
- XỬ LÝ DỮ LIỆU VỚI SPSS Hồ Thanh Trí
- THANG ĐO ĐỊNH DANH(NOMINAL SCALE) Là loại thang đo mà trong đó số đo dùng để xếp loại Dùng cho dữ liệu định tính Có thể gán các ký tự,trị số để mã hóa dữ liệu Các con số không có ý nghĩa về lượng
- CÁC DẠNG CÂU HỎI CỦA THANG ĐO ĐỊNH DANH Câu hỏi nhiều lựa chọn
- THANG ĐO THỨ BẬC(ORDINAL SCALE) Là loại thang đo trong đó số đo dùng để so sánh thứ tự Dùng cho dữ liệu định tính Không đo lường được chênh lệch thứ bậc hơn kém Không có ý nghĩa về lượng Có thể gán các ký tự,trị số .để mã hóa dữ liệu Các mã số không mang ý nghĩa
- THANG ĐO THỨ BẬC(ORDINAL SCALE)
- TIẾNG VIỆT THEO UNICODE Edit Options General Mục Character Encoding for Data and Syntax click chọn Unicode Ok
- TIẾNG VIỆT THEO UNICODE
- TIẾNG VIỆT THEO UNICODE
- LÀM SẠCH DỮ LIỆU Xác định những giá trị vô nghĩa:giá trị khác với giá trị mã hóa Xác định ra những giá trị khuyết:câu hỏi không có câu trả lời Xác định ra những mối quan hệ không logic giữa các câu trả lời
- LÀM SẠCH DỮ LIỆU Bước 1: lập bảng tần số từng biến,để tìm số liệu bất thường Analyze Descriptive Statistics Frequencies Bước 2: Xắp xếp dữ liệu theo biến bất thường.Chú ý quan trọng : Click con trỏ ở vào cột của biến có số liệu bất thường.Sau đó dùng lệnh: Data Sort Cases(từ lớn đến nhỏ hoặc ngược lại) Bước 3: kiểm tra và chỉnh sửa số liệu
- MÃ HÓA LẠI BIẾN Hãy mã hóa lại biến TUOI Tuổi dưới 20 Từ 20 đến dưới 40 Từ 40 đến dưới 60 Trên 60 Nên mã hóa và lưu lại trên biến mới Transform Recode into Different Variable
- MÃ HÓA LẠI BIẾN
- THỐNG KÊ MÔ TẢ TẦN SỐ Analyze Descriptive Statistics Frequencies
- THỐNG KÊ MÔ TẢ TẦN SỐ
- KẾT QUẢ THỐNG KÊ MÔ TẢ
- KẾT QUẢ THỐNG KÊ MÔ TẢ
- KẾT QUẢ THỐNG KÊ MÔ TẢ Cột Frequency là tần số của từng biểu hiện, được tính bằng cách đếm và cộng dồn. Cột Percent: tần suất tính theo tỷ lệ % bằng cách lấy tần số của mỗi biểu hiện chia cho số quan sát. Cột Valid Percent: phần trăm hợp lệ, tính trên số quan sát có thông tin trả lời. Cumulative Percent: phần trăm tích lỹ do cộng dồn.
- NHẬP LIỆU VỚI CÂU HỎI NHIỀU LỰA CHỌN Bạn cho biết các loại điện thoại di động mà bạn đã sử dụng qua Nokia Samsung Motorola Iphone Mobel Có thể lựa chọn nhiều hơn 1 phương án làm sao để nhập dữ liệu được?
- NHẬP LIỆU VỚI CÂU HỎI NHIỀU LỰA CHỌN Vào cửa sổ Variable view click chọn thuộc tính value của biến cần khai báo.(kiểm tra số lựa chọn)
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN Analyze Multiple Response Define Variable set
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN Analyze Multiple Response Frequencies
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN KẾT QUẢ
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN (PHÂN TÍCH 2 BIẾN) Analyze Multiple Response Crosstabs
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN (PHÂN TÍCH 2 BIẾN) KẾT QUẢ
- ĐỔ BẢNG MÔ TẢ VỚI BIẾN ĐỊNH LƯỢNG Analyze Descriptive statistics Descriptives
- ĐỔ BẢNG MÔ TẢ VỚI BIẾN ĐỊNH LƯỢNG
- ĐỔ BẢNG MÔ TẢ BIẾN ĐỊNH LƯỢNG (BIẾN PHỤ THUỘC) TRONG MỐI QUAN HỆ VỚI CÁC BIẾN ĐỊNH TÍNH KHÁC (BIẾN ĐỘC LẬP) Chọn công cụ Compare Means / Means
- THỐNG KÊ MÔ TẢ VỚI CUSTOM TABLES Vào Analyze Tables Custom Tables
- HÌNH THÀNH CÁC BẢNG BIỂU
- HÌNH THÀNH CÁC BẢNG BIỂU
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN Analyze Tables Multipe Response
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN
- THỐNG KÊ VỚI CÂU HỎI NHIỀU LỰA CHỌN Sau đó quay trở về bảng Custom Table và thực hiện bình thường với biến vừa tạo
- HỒI QUY TUYẾN TÍNH(REGRESSION) Áp dụng trong trường hợp biến phụ thuộc là biến định lượng Analyze Regression Linear
- HỒI QUY(REGRESSION)
- HỒI QUY(REGRESSION)
- HỒI QUY(REGRESSION) Estimates :hệ số hồi quy Covarianmatrix : ma trận kết hợp phương sai Model fit : độ thích hợp R squared change :thay đổi R² Part and partial correlations: phân tích tương quan tuyến tính các biến độc lập Descriptives : thống kê mô tả Collinearity diagnostics : kiểm soát đa cộng tuyến
- HỒI QUY(REGRESSION)
- Đồ thị giúp ta biết được sự tương quan giữa các biến độc lập so với biến phụ thuộc
- ĐỌC DỮ LIỆU TỪ MÔ HÌNH Correlations ( bảng tương quan ma trận) . = 1 : chặt chẽ . Tiến về 0 : không chặt chẽ . Ở giữa : trung bình Model Summary :tóm tắt mô hình Anova :phân tích phương sai Coefficient : hệ số hồi quy
- ĐỌC DỮ LIỆU TỪ MÔ HÌNH Xét cột Sig và VIF(mức độ phóng đại phương sai) ở bảng Coefficients Sig<0,05,VIF<5(VIF giải thích hiện tượng đa cộng tuyến) Đa cộng tuyến là kiểm tra xem các biến độc lập trong mô hình có tương quan chặt chẽ với nhau. Xem cột Sig và F ở bảng ANOVA mô hình lý thuyết phù hợp với dữ liệu thực tế.Các biến độc lập có tương quan tuyến tính với biến phụ thuộc. Xem cột R square,Durbin Watson ở bảng Model Summary Hệ số Durbin Watson(1<DW<3):giải thích hiện tượng tương quan chuỗi(coi thử các mẫu có lặp đi lặp lại hay không) R square có ý nghĩa:các biến độc lập giải thích được bao nhiêu % biến phụ thuộc
- Giải thích ý nghĩa của hệ số R²
- GIẢI THÍCH KẾT QUẢ
- GIẢI THÍCH Ý NGHĨA PHƯƠNG TRÌNH Viết phương trình dựa vào hệ số B gọi là phương trình ở dạng chưa chuẩn hóa Viết phương trình dựa vào hệ số Beta phương trình ở dạng chuẩn hóa nhưng khi giải thích phải lấy phương trình ở dạng chuẩn hóa
- GIẢI THÍCH Ý NGHĨA PHƯƠNG TRÌNH Beta nào càng lớn thì càng ảnh hưởng đến biến phụ thuộc Ưu tiên giải pháp cho Beta lớn nhất nhưng cũng phải giải thích các biến bị loại Sau đó xét tới hệ số Mean(GTTB) của từng thành phần nếu: Cao duy trì Thấp tìm giải pháp nâng cao lên
- BIẾN ĐỔI BIẾN 1. Dùng Lệnh Analysis > Regression > Cure Estimation để định dạng và tìm các thông số b0, b1, b2, b3 của hàm (nguyên tắc giá trị F càng lớn là càng phù hợp). 2. Dùng lệnh Transform > Compute Variable để tính lại giá trị tuyến tính của biến bằng cách thế các thông số b0, b1, b2,b3 vào công thức tính. 3. Chạy hồi quy bằng SPSS dạng tuyến tính. 4. Viết phương tr.nh hồi quy dạng đổi biến và dạng gốc.
- CÁC HÀM ĐỔI BIẾN 1. Linear. Model whose equation is Y = b0 + (b1 * t). The series values are modeled as a linear function of time. 2. Logarithmic. Model whose equation is Y = b0 + (b1 * ln(t)). 3. Inverse. Model whose equation is Y = b0 + (b1 / t). 4. Quadratic. Model whose equation is Y = b0 + (b1 * t) + (b2 *t 2). The quadratic model can be used to model a series which "takes off" or a series which dampens. 5. Cubic. Model defined by the equation Y = b0 + (b1 * t) + (b2 * t 2) + (b3 * t 3). 6. Power. Model whose equation is Y = b0 * (t b1) or ln(Y) = ln(b0) + (b1 * ln(t)).
- CÁC HÀM ĐỔI BIẾN 7. Compound. Model whose equation is Y = b0 * (b1 t) or ln(Y) = ln(b0) + (ln(b1) * t). 8. S-curve. Model whose equation is Y = e (b0 + (b1/t)) or ln(Y) = b0 + (b1/t). 9. Logistic. Model whose equation is Y = 1 / (1/u + (b0 * (b1 t))) or ln(1/y-1/u)= ln (b0) + (ln(b1)*t) where u is the upper boundary value. After selecting Logistic, specify the upper boundary value to use in the regression equation. The value must be a positive number, greater than the largest dependent variable value. 10. Growth. Model whose equation is Y = e (b0 + (b1 * t)) or ln(Y) = b0 + (b1 * t). 11. Exponential. Model whose equation is Y = b0 * (e (b1 * t)) or ln(Y) = ln(b0) + (b1 * t).
- ƯỚC LƯỢNG ĐƯỜNG CONG Đưa biến phụ thuộc vào ô Dependent Đưa biến độc lập vào ô independent Chọn các hàm để ước lượng
- ƯỚC LƯỢNG ĐƯỜNG CONG Nếu R Dựa vào ngang nhau constant, chọn hàm F b1,b2, b3 lớn nhất để viết lại hàm mới Chọn hàm có giá trị Rsquare vượt trội
- Đơn giản chỉ có vậy bạn hãy nhớ mình cần đọc những gì và giải thích nó như thế nào?
- MÃ HÓA BIẾN(BIẾN GIẢ DUMMY) Cách 1: Vào Variable View đặt tên biến mới Sau đó vào Transform Compute Variable Ô Target Variable(biến mục tiêu) đánh lại tên biến đã đặt ở trên Sau đó chọn biến độc lập để mã hóa VD: Gioitinh=1 nam,Gioitinh=2 nu Cách 2: vào Transform Recode into Different variable(tạo một biến giả mới)
- HỒI QUY LOGISTIC Áp dụng trong trường hợp biến phụ thuộc là biến định tính có 2 thuộc tính(VD: có hay không; tăng hay giảm .) Analyse Regression Binary Logistic Chuyển biến phụ thuộc Y vào Dependent variable box. Chuyển các biến độc lập có liên quan vào Covariates box. Chọn Enter trong ô Method Click Option Đánh dấu vào CI for Exp(B), 95% Click Continue Click OK Xem bảng Variable in the equation Xem cột sig. nếu biến Xi có sig. <0.05 có ý nghĩa thống kê với mức ý nghĩa 5%. Cột EXP(B)= của từng biến độc lập
- MÔ HÌNH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN NGHÈO Ở NÔNG THÔN Giới thiệu: Theo tiêu chuẩn của World Bank (1 USD/người/ngày), năm 2010, tỷ lệ nghèo ở Việt Nam là 10,3%. Tuy nhiên, nếu áp dụng chuẩn mới ( 2 USD/người/ngày) thì tỷ lệ nghèo sẽ cao hơn nhiều. Nền kinh tế không thể phát triển bền vững khi còn tình trạng nghèo cao. Đó là thách thức và đương đầu của các nước đang phát triển. Cải thiện tình trạng nghèo theo quá trình tăng trưởng và phát triển đang được Chính phủ Việt Nam quan tâm. Để giải quyết điều này, trước hết phải nhận diện được các yếu tố ảnh hưởng đến nghèo. Tuy nhiên, cách nào để định lượng mối quan hệ giữa các yếu tố và nghèo vẫn còn bỏ ngỏ trong nghiên cứu. Phần nghiên cứu này sẽ giải quyết vấn đề đặt ra, tập trung vào các nội dung: (1) Cơ sở lý thuyết để hình thành mô hình hồi quy Binary Logistic đối với tình trạng nghèo; (2) Phân tích mô hình dựa trên chương trình SPSS 18.
- CƠ SỞ LÝ THUYẾT CỦA MÔ HÌNH 1. Các yếu tố ảnh hưởng đến nghèo Các công trình nghiên cứu tại Việt Nam trước đây như: Van de Walle, D. và Dileni, G.(2001), Minot, N. (2004), WB (2007), Đinh Phi Hổ và Nguyễn Trọng (2007), đã nhận diện có tám yếu tố ảnh hưởng đến nghèo. Nghề nghiệp, tình trạng việc làm Trình độ học vấn Giới tình chủ hộ Quy mô hộ Số người sống phụ thuộc Quy mô diện tích đất của hộ gia đình Quy mô vốn vay từ định chế chính thức Khả năng tiếp cận cơ sở hạ tầng
- Nghề nghiệp, tình trạng việc làm Người nghèo thường không có việc làm, làm thuê hoặc làm việc trong nông nghiệp, trong khi người giàu thường có việc làm trong những lĩnh vực có thu nhập cao và tương đối ổn định như buôn bán, dịch vụ, công chức. Trình độ học vấn Vì không có đủ tiền để trang trải cho chi phí học tập nên con cái họ thường bỏ học rất sớm hay thậm chí không đi học. Hơn nữa, người nghèo không những thiếu hiểu biết mà còn thiếu khả năng tiếp thu kiến thức chuyên môn cần thiết trong hoạt động kinh tế. Hệ quả là rơi vào cái bẫy: ít học – nghèo. Giới tình chủ hộ Ở vùng nông thôn, những hộ gia đình có chủ hộ là nữ có nhiều khả năng nghèo hơn những hộ có chủ là nam. Điều đó do nữ thường ít cơ hội làm việc với thu nhập cao, mà thường làm việc nhà và sống dựa vào nguồn thu từ người nam trong gia đình.
- Quy mô hộ Quy mô hộ gia đình càng lớn thì hộ có chi tiêu bình quân đầu người thấp hơn. Do đó, có nhiều khả năng nghèo hơn hộ có ít người. Số người sống phụ thuộc Tỷ lệ người ăn theo càng cao, họ phải gánh chịu nhiều chi phí hơn cho học hành, khám chữa bệnh. Do đó nhiều khả năng nghèo hơn hộ có ít người phụ thuộc. Quy mô diện tích đất của hộ gia đình Ở nông thôn, đất là tư liệu sản xuất chủ yếu của nông nghiệp, nguồn tạo ra thu nhập. Không có đất hoặc quy mô đất ít thường đi đôi với nghèo. Quy mô vốn vay từ định chế chính thức Thiếu vốn đầu tư dẫn tới năng suất thấp, kéo theo thu nhập hộ gia đình thấp. Do đó, vay vốn từ định chế chính thức là công cụ quan trọng giúp hộ nông thôn thoát nghèo. Khả năng tiếp cận cơ sở hạ tầng Cơ sở hạ tầng nông thôn bao gồm đường giao thông, điện, chợ, nước sạch, hệ thống thông tin liên lạc. Cơ sở hạ tầng nông thôn phát triển, nhất là thông qua thực hiện các dự án phát triển cơ sở hạ tầng, sẽ tạo nhiều cơ hội việc làm cho người nghèo ở vùng nông thôn.
- Mô hình định lượng Mô hình hồi quy Binary Logistic phân tích những yếu tố tác động đến khả năng nghèo của hộ gia đình như sau: Y là biến giả, có giá trị bằng 1(nếu hộ gia đình nghèo) và bằng 0 (cho tất cả các hộ gia đình khác); Xj là các yếu tố ảnh hưởng đến nghèo (j=1-n); u là phần dư.
- Mô hình định lượng Dạng tổng quát của mô hình hồi quy Binary Logistic: Trong đó, P(Y=1)=Po: Xác xuất hộ nghèo; P(Y=0)=1-Po: Xác xuất hộ không nghèo
- Mô hình định lượng Hệ số Odds: Do đó, Log của hệ số Odds là một hàm tuyến tính với các biến độc lập Xi (i=1,2, n) Dựa vào số liệu điều tra về nghèo của 182 hộ gia đình ở An Giang trong năm 2008, hàm hồi quy Binary Logistic về các yếu tố ảnh hưởng đến nghèo như sau:
- Bảng 1: Giải thích các biến trong mô hình Biến phụ thuộc Kỳ vọng Tên biến Giải thích nội dung biến Nguồn số dấu hệ số liệu hồi quy DANGHO Biến giả (dummy), nhận giá trị 1 nếu Điều tra hộ thuộc diện nghèo và nhận giá trị 0 nếu hộ thuộc diện không nghèo BIẾN ĐỘC LẬP Kỳ vọng Tên biến Giải thích nội dung biến Nguồn số dấu hệ số liệu hồi quy DTOC Biến giả, nhận giá trị 1 nếu hộ là Điều tra + người Khmer và nhận giá trị 0 nếu hộ là người Kinh Hoa. GTINH Biến giả, nhận giá trị 1 nếu chủ hộ Điều tra - thuộc giới nam và nhận giá trị 0 cho trường hợp thuộc giới nữ. HOCVAN Số năm đi học của chủ hộ Điều tra - Tổng số người trên 15 tuổi mà + PTHUOC không tạo ra được thu nhập trong hộ gia đình. Biến giả, nhận giá trị 0 nếu chủ hộ - NGHE làm việc liên quan tới nghề nông hay nhận giá trị 1 nếu chủ hộ làm việc trong các ngành phi nông nghiệp. KCACH Số Km từ nhà hộ gia đình đến chợ + mà người dân có thể mua bán. Biến giả, nhận giá trị 1 nếu hộ có - DUONGOTO đường ô tô đến tận nhà và nhận giá trị 0 nếu hộ không có đường ô tô đến nhà. Biến giả, nhận giá trị 1 nếu hộ có - LAMXA người đi làm xa và nhận giá trị 0 nếu hộ không có người đi làm xa. DTICH Diện tích đất mà hộ gia đình canh - tác (1000 m2) Biến giả, nhận giá trị 1 nếu hộ có - COVAY vay và nhận giá trị 0 nếu hộ không có vay từ các tổ chức tín dụng chính thức
- PHÂN TÍCH MÔ HÌNH DỰA TRÊN CHƯƠNG TRÌNH SPSS Dữ liệu và nhập vào SPSS Số liệu điều tra 182 hộ gia đình ở An Giang năm 2008 (Phụ lục 3.1.1) Sử dụng chương trình SPSS 18.0 Vào giao diện SPSS/Nhập dữ liệu vào SPSS. Kết quả như sau:
- Nhập dự liệu vào mô hình hồi quy Binary Logistic Analyze/ Regression/ Binary Logistic, sẽ xuất hiện hộp thoại
- Đưa biến DANGHO vào hộp thoại Dependent (biến phụ thuộc). Đưa các biến còn lại vào Covariates (biến độc lập). Chọn hộp thoại Save. Kết quả như sau:
- Chọn các bảng số liệu cần thiết, Copy và Paste qua giao diện Excel hoặc World để phân tích
- Phân tích hồi quy Binary Logistic 1. Phân tích các kiểm định. Kiểm định hệ số hồi quy Các biến trong mô hình (Variables in the Equation) B S.E. Wald df Sig. Exp(B) 95% C.I.for EXP(B) Lower Upper DANTOC 1.528 .580 6.952 1 .008 4.609 1.480 14.352 GIOITINH -.558 .492 1.286 1 .257 .572 .218 1.502 HOCVAN -.326 .099 10.739 1 .001 .722 .594 .877 PHUTHUOC .227 .241 .888 1 .346 1.255 .783 2.012 NGHE -1.951 .669 8.493 1 .004 .142 .038 .528 Step 1a KCACH .188 .166 1.276 1 .259 1.206 .871 1.670 DUONG -1.368 .516 7.025 1 .008 .255 .093 .700 LAMXA -1.689 1.019 2.746 1 .097 .185 .025 1.361 DIENTICH .015 .028 .275 1 .600 1.015 .961 1.071 COVAY -2.238 .594 14.195 1 .000 .107 .033 .342 Constant .798 .644 1.536 1 .215 2.222 a. Variable(s) entered on step 1: DANTOC, GIOITINH, HOCVAN, PHUTHUOC, NGHE, KCACH, DUONG, LAMXA, DIENTICH, COVAY.
- Biến DANTOC có Sig = 0,008 0,05. Do đó, biến GIOITINH tương quan không có ý nghĩa với biến DANGHO với độ tin cậy 95%. .
- Kiểm định mức độ phù hợp của mô hình. Phân loại dự báo (Classification Table) Classification Tablea Observed Predicted Hộ nghèo và không nghèo Percentage Correct không nghèo nghèo Hộ nghèo và không nghèo 111 18 86.0 Step 1 không nghèo nghèo 21 32 60.4 Overall Percentage 78.6 Với 132 hộ không nghèo (xem theo cột) mô hình dự đoán đúng 111 hộ (xem theo hàng), vậy tỷ lệ đúng là 86%. Còn 50 hộ nghèo, mô hình dự đoán sai 18 hộ, tỷ lệ đúng là 60,4%. Do đó tỷ lệ dự báo đúng của toàn bộ mô hình là 78,6%. - Mức độ phù hợp của mô hình Kiểm định Omnibus đối với các hệ số của mô hình (Omnibus Tests of Model Coefficients) Omnibus Tests of Model Coefficients Chi-square df Sig. Step 86.154 10 .000 Step 1 Block 86.154 10 .000 Model 86.154 10 .000 Kiểm định Omnibus cho thấy Sig < 0,01 (độ tin cậy 99%). Như vậy các biến độc lập có quan hệ tuyến tính với biến phụ thuộc trong tổng thể. Nói cách khác, mô hình lựa chọn là phù hợp tốt.
- Kết luận: Thông qua các kiểm định, có thể khẳng định: Các yếu tố ảnh hưởng đến nghèo theo thứ tự tầm quan trọng là thành phần dân tộc, vay tiền từ định chế tín dụng chính thức, nhà gần đường ô tô, làm việc ở khu vực phi nông nghiệp và trình độ văn hóa của chủ hộ. Gợi ý chính sách: Cần có chính sách giảm nghèo riêng cho người dân tộc thiểu số. Phát triển ngành nghề dịch vụ ở nông thôn. Mở rộng hoạt động tín dụng cho người nghèo. Phát triển cơ sở hạ tầng nông thôn, nhất là đường nông thôn. Nâng cao trình độ văn hóa cho người dân nông thôn.
- Đề tài gợi ý Vận dụng mô hình hồi quy Binary Logistic phân tích các nhân tố ảnh hưởng đến quyết định cho vay của ngân hàng thương mại cổ phần .chi nhánh
- Đề tài: Xây dựng mô hình logistic về khả năng trả nợ của khách hàng. NC trường hợp ngân hàng . 1. Lựa chọn biến số Với mô hình hồi quy Binary Logistic cần phải xác định biến nào là biến độc lập và biến phụ thuộc. Các biến được lựa chọn như sau: a)Biến phụ thuộc Trong nghiên cứu này biến phụ thuộc (Y) được lựa chọn như sau Y = 1 nếu KH có khả năng đảm bảo trả nợ Y = 0 nếu KH không có khả năng trả được toàn bộ nợ b)Biến độc lập
- Bảng 2.10: Biến độc lập sử dụng trong nghiên cứu STT Chỉ tiêu Thang đo Giả thiết Ký hiệu 1 Giới tính 1: Nam – 0: Nữ +/- Gioitinh 2 Tuổi Tuổi - Tuoi 3 Trình độ học vấn 1: Dưới TH +/- TĐHV 2: TH 3: ĐH 4: Trên ĐH 4 Tính chất công việc 1: Cấp quản lý +/- TCCV 2: Cấp chuyên viên, kinh doanh có đăng ký 3: Lao động được đào tạo, công nhân, kinh doanh tự do 4: Lao động thời vụ, thất nghiệp, nghỉ hưu 5 Tình trạng hôn nhân 1: Kết hôn – 0: độc thân - Honnhan 6 Tình trạng nhà ở 1: Sở hữu riêng - TTNO 2: Sống chung với cha mẹ 3: Thuê 7 Thời gian làm công việc hiện tại Tháng + Thoigianlamviec 8 Số người phụ thuộc Người - Songuoiphuthuoc 9 Lịch sử tín dụng 1: Có nợ – 0: Không có thông tin - LichsuTD 10 Số dịch vụ sử dụng Số dịch vụ + Sodichvu 11 Thu nhập hàng tháng Triệu đồng + Thunhap 12 Tiết kiệm hàng tháng Triệu đồng + Tietkiem 13 Số tiền vay Triệu đồng - Tienvay 14 Giá trị tài sản đảm bảo Triệu đồng + Taisan
- 2. Phân tích thống kê mô tả Bảng 2.11: Phân loại khách hàng theo khả năng trả nợ Nhóm (Y) Số lượng Tỷ trọng 0 31 19,38% 1 129 80,62% Tổng 160 100% (Nguồn: Số liệu tính toán từ dữ liệu của Ngân hàng TMCP Sài Gòn) Với bảng 2.11, số liệu khách hàng không có khả năng trả nợ là 19,38% và 80,62% khách hàng có đủ khả năng trả nợ. Ngoài ra, đề tài cũng thống kê mô tả toàn bộ dữ liệu và cho ra các thông số sau:
- Bảng 2.12: Số liệu thống kê mô tả mẫu nghiên cứu Biến độc lập Trung bình Mode Độ lệch Maximum Minimum Giới tính 0.49 0.00 0.50 0.00 1.00 Tuổi 44.99 43a 10.65 24.00 77.00 Trình độ học vấn 2.24 2.00 0.69 1.00 4.00 Tính chất công việc 2.33 2.00 0.78 1.00 4.00 Tình trạng hôn nhân 0.86 1.00 0.35 0.00 1.00 Tình trạng nhà ở 1.18 1.00 0.50 1.00 3.00 Thời gian làm việc 70.66 61.00 44.75 6.00 395.00 Số người phụ thuộc 1.06 0.00 0.99 0.00 3.00 Lịch sử tín dụng 0.49 0.00 0.50 0.00 1.00 Số dịch vụ đang sử dụng 0.77 1.00 0.55 0.00 2.00 Thu nhập hàng tháng 21.48 8.00 27.60 4.00 225.00 Tiết kiệm hàng tháng 15.80 4.00 26.13 1.50 215.00 Số tiền vay 473.97 100.00 865.73 30.00 6000.00 Giá trị tài sản 1343.91 160.00 1709.50 82.98 9446.08 Tỷ lệ nợ trên tổng tài sản 0.36 0.5000a 0.20 0.03 0.70
- 3. Phân tích tương quan Xem xét mối tương quan của các biến (định lượng) đưa vào mô hình. Nếu hệ số tương quan cặp > 0.8 thì sẽ dẫn đến hiện tượng đa cộng tuyến nếu đưa các biến này vào mô hình.
- Bảng 2.13: Hệ số tương quan cặp các biến định lượng đưa vào mô hình Thời gian Thu nhập Tiết kiệm Tỷ lệ nợ trên Tuổi Số tiền vay Giá trị tài sản làm việc hàng tháng hàng tháng tổng tài sản Hệ số 1 Tuổi tương quan cặp Sig. (2-tailed) Hệ số 0.324 1 Thời gian làm việc tương quan cặp Sig. (2-tailed) 0.000 Hệ số -0.003 0.050 1 Thu nhập hàng tháng tương quan cặp Sig. (2-tailed) 0.973 0.528 Hệ số -0.015 0.037 0.994 1 Tiết kiệm hàng tháng tương quan cặp Sig. (2-tailed) 0.854 0.643 0.000 Hệ số -0.055 0.052 0.498 0.461 1 Số tiền vay tương quan cặp Sig. (2-tailed) 0.487 0.515 0.000 0.000 Hệ số 0.064 -0.038 0.409 0.382 0.751 1 Giá trị tài sản tương quan cặp Sig. (2-tailed) 0.424 0.636 0.000 0.000 0.000 Hệ số -0.238 0.119 0.373 0.351 0.428 0.013 1 Tỷ lệ nợ trên tổng tài sản tương quan cặp Sig. (2-tailed) 0.002 0.133 0.000 0.000 0.000 0.874
- Theo kết quả bảng 2.13 thể hiện 2 biến thu nhập hàng tháng và tiết kiệm có sự tương quan chặt với nhau (hệ số tương quan = 0.994 > 0.8). Điều này cho thấy nếu cùng đưa 2 biến này vào mô hình thì sẽ xảy ra hiện tượng đa cộng tuyến. Tuy nhiên, theo Ramanathan (2003), đa cộng tuyến có thể không ảnh hưởng đến khả năng dự báo của mô hình và thậm chí có thể cải thiện khả năng dự báo. Có 2 cách xử lý vấn đề này là vẫn đưa biến vào mô hình để tăng khả năng dự báo hoặc loại bỏ 1 trong 2 biến trên.
- 4. Ước lượng mô hình hồi quy Mô hình 1: Sử dụng phần mềm thống kê SPSS với phương pháp Enter, đưa tất cả 15 biến vào mô hình, ta được mô hình 1. Mô hình 2: được ước lượng bằng cách loại bỏ những biến có mức ý nghĩa Sig > 0.25 (mức ý nghĩa dành cho mô hình dự báo) từ mô hình 1.
- Bảng 2.14: Kết quả ước lượng hồi quy Binary Logistic của các mô hình Mô hình 1 Mô hình 2 Biến Giả thiết β Sig. β Sig. Gioitinh +/- 0.704 0.348 Tuoi - 0.084 0.079 0.097 0.020 TĐHV +/- -1.277 0.089 TCCV +/- -1.993 0.008 -1.259 0.017 Honnhan - 2.683 0.024 1.909 0.032 TTNO - -0.260 0.740 Thoigianlamviec + -0.023 0.065 -0.020 0.047 Songuoiphuthuoc - -0.690 0.129 LichsuTD - -0.483 0.526 Sodichvu + 1.449 0.018 1.138 0.033 Thunhap + 0.672 0.050 0.585 0.000 Tietkiem + -0.141 0.744 Tienvay - -0.014 0.000 -0.013 0.000 Taisan + 0.004 0.002 0.003 0.007 TLNTTS - 10.727 0.002 8.193 0.006 Constant -4.568 0.217 -8.739 0.001 OB 0.000 0.000 Độ chính xác 94.40% 90.60% - 2LL 67.96% 74.69% McFadden R-squared 38.64% 17.51% Likelihood ratio 33.98% 37.35%
- Nhận xét chung Cả hai mô hình đều có độ phù hợp tổng quát với mức ý nghĩa quan sát (Sig. OB = 0.00 < α). Độ chính xác của kết quả dự báo của hai mô hình rất cao lần lượt là: 94.40%, 90.60%. Giá trị “McFadden R-squared” từ ước lượng hồi quy Binary Logistic của hai mô hình lần lượt là: 38.64%, 17.51% sự biến động của xác suất trả được nợ của khách hàng. Về kiểm định -2LL không cao lắm, điều này thể hiện một độ phù hợp khá tốt của mô hình tổng thể.
- 5. Đề xuất mô hình xếp hạng tín dụng cá nhân cho Ngân hàng TMCP Sài Gòn Mô hình 2 đảm bảo tất cả các hệ số hồi quy tìm được trong mô hình đều có ý nghĩa. Trong mô hình cũng không có hiện tượng đa cộng tuyến giữa biến thunhap và tietkiem (đã loại này ra khỏi mô hình 1 do biến tietkiem không có ý nghĩa thống kê vì có số Sig lớn 0.744). Ta có thể nhận thấy về chỉ tiêu thống kê về mức độ phù hợp mô hình, mức độ chính xác của dự báo thì mô hình 2 là vượt trội nhất, thích hợp cho mô hình XHTD. Vì vậy, tác giả xin đề xuất mô hình 2 là mô hình XHTD cá nhân cho Ngân hàng TMCP Sài Gòn.
- Tiến hành phân tích và nhận xét mô hình 2: Độ phù hợp mô hình 2: Kết quả kiểm định giả thuyết về độ phù hợp tổng quát ở Bảng 2.15 có mức ý nghĩa quan sát (Sig. OB = 0.00 < α) nên an toàn ta có thể bác bỏ giả thuyết: H0: β2 = β2 = β4 = β5 = β7 = β10 = β11 = β12 = β13 = β14 = β15 = 0 Bảng 2.15: Omnibus Tests of Model Coefficients Chi-square df Sig. Step 82.629 9 0.000 Step 1 Block 82.629 9 0.000 Model 82.629 9 0.000
- Bảng 2.16 cho thấy giá trị của – 2LL = 74.668 không cao lắm, như vậy nó thể hiện một độ phù hợp khá tốt của mô hình tổng thể. Bảng 2.16: Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 74.688a 0.403 0.644 a. Estimation terminated at iteration number 9 because parameter estimates changed by less than .001.
- Mức độ chính xác của dự báo Mức độ chính xác của dự báo được thể hiện qua bảng Classification Table (Bảng 2.17) Bảng 2.17: Classification Tablea Predicted Khả năng trả nợ Observed Percentage Không có Có khả năng Correct khả năng trả nợ trả nợ Không có 21 10 67.7 Khả năng khả năng trả nợ Step 1 trả nợ Có khả năng trả nợ 5 124 96.1 Overall Percentage 90.6 a. The cut value is .500 Bảng này cho thấy trong 26 trường hợp thực tế là không trả được nợ mô hình đã dự đoán trúng 21 trường hợp, tỷ lệ trúng là 67.7%. Còn 134 trường hợp thưc tế có trả được nợ mô hình dự đoán sai 10 trường hợp, tỷ lệ trúng là 96.1%. Từ đó ta tính được tỷ lệ dự đoán đúng toàn bộ mô hình là 90.6%
- Kiểm định ý nghĩa của các hệ số hồi quy tổng thể Bảng 2.18: Variables in the Equation B S.E. Wald df Sig. Gioitinh .704 .750 .880 1 .348 Tuoi .084 .048 3.084 1 .079 TĐHV -1.277 .751 2.890 1 .089 TCCV -1.993 .745 7.149 1 .008 Honnhan 2.683 1.189 5.095 1 .024 TTNO -.260 .786 .110 1 .740 Thoigianlamviec -.023 .013 3.407 1 .065 Songuoiphuthuoc -.690 .455 2.302 1 .129 Step 1a LichsuTD -.483 .762 .402 1 .526 Sodichvu 1.449 .610 5.641 1 .018 Thunhap .672 .343 3.834 1 .050 Tietkiem -.141 .431 .106 1 .744 Tienvay -.014 .003 17.191 1 .000 Taisan .004 .001 9.589 1 .002 TLNTTS 10.727 3.540 9.181 1 .002
- Kiểm định Wald về ý nghĩa cũa hệ số hồi quy tổng thể của các biến tuổi, tính chất công việc, hôn nhân, thời gian làm việc, số dịch vụ, thu nhập, tiền vay, tài sản, tỷ lệ dư nợ vay trên tổng giá trị tài sản đều có mức ý nghĩa sig. nhỏ hơn 0.05 nên ta an toàn bác bỏ giả thuyết H0: β2 = β2 = β4 = β5 = β7 = β10 = β11 = β12 = β13 = β14 = β15 = 0 Như vậy, các hệ số hồi quy tìm được có ý nghĩa và mô hình đưa ra sử dụng tốt. Từ các hệ số hồi quy này ta viết được phương trình 푃 ( 푌 = 1) Log [ ] = - 8.793 + 0.097 tuoi – 1.259 TCCV + 1.259 honnhan e 푃 ( 푌=0 ) – 0.020 thoigianlamviec + 1.138 sodichvu + 0.585 thunhap – 0.013 tienvay + 0.003 taisan + 8.193 TLNTTS. (1.1)
- Có thể diễn dịch ý nghĩa của các hệ số hồi quy Binary Logistic là: Hệ số hồi quy Tuổi (Tuoi): khi hệ số Tuổi làm tăng khả năng trả nợ của khách hàng. Điều này có thể lý giải trong thực tế là các ngân hàng e ngại cho những khách hàng trẻ vay sợ rủi ro, cho các khách hàng lớn tuổi vay ít rủi ro hơn. Tính chất công việc (TCCV): khi hệ số tính chất công việc càng lớn (khách hàng không có khả năng trả nợ càng cao. Trên thực tế, biến tính chất công việc tác giả phân loại thành 4 nhóm: Cấp quản lý; cấp chuyên viên hay kinh doanh có đăng ký; lao động được đào tạo, công nhân, kinh doanh tự do; lao động thời vụ, thất nghiệp, nghỉ hưu. Điều này cho thấy rằng những khách hàng càng có địa vị, chức vụ hay những khách hàng kinh doanh có đăng ký thì thường có một công việc cũng như mức thu nhập ổn định và có khả năng trả nợ cao hơn hai nhóm tính chất công việc còn lại.
- Tình trạng hôn nhân (Honnhan): kết quả kiểm định mô hình cho thấy các khách hàng đã lập gia đình có ít rủi ro và có nhiều uy tín tín dụng, vì họ có trách nhiệm hơn người độc thân. Một yếu tố khác có thể làm cho những người đã lập gia đình có nhiều uy tín tín dụng hơn là thu nhập gấp đôi. Thời gian làm công việc hiện tại (Thoigianlamviec): hệ số thời gian làm việc càng cao càng có khả năng trả nợ. Khi có thâm niên công việc hiện tại, thì thường có thu nhập cao hơn. Số dịch vụ đang sử dụng (Sodichvu): khách hàng càng sử dụng nhiều dịch vụ của ngân hàng chứng tỏ khách hàng có mối quan hệ thân thiết và uy tín với ngân hàng. Thu nhập hàng tháng (Thunhap): hệ số thu nhập càng cao khả năng trả nợ càng cao và tăng theo tỷ lệ tương ứng với mức thu nhập. Thu nhập thường được sử dụng đại diện cho sự giàu có về tài chính và khả năng trả nợ của người vay (Đinh & Kleimeier, 2007). Số tiền vay (Tienvay): khi khoản vay càng tăng, khả năng trả nợ của khách sẽ giảm.
- Giá trị tài sản (Taisan): tài sản thế chấp là một hình thức đảm bảo cho khoản vay của khách hàng. Đặc biệt, đối với các khoản vay sử dụng tài sản thế chấp là nhà ở, xác suất không trả nợ là rất thấp vì do người đi vay không muốn mất nhà của họ và đồng thời tài sản thế chấp này cũng làm giảm rủi ro của ngân hàng. Giá trị tài sản thế chấp cũng có thể nói lên sự giàu có về tài chính của khách hàng vì nó có mối tương quan đáng kể với thu nhập của khách hàng vay (Đinh & Kleimeier, 2007). Tỷ lệ nợ trên tổng tài sản (TLNTTS): kết quả kiểm định mô hình cho thấy tỷ lệ nợ trên tổng tài sản càng cao khả năng trả nợ càng cao (trái dấu với giả thuyết). Điều này có thể giải thích, giá trị tài sản thế chấp có thể nói lên sự giàu có về tài chính của khách hàng vì nó có mối tương quan đáng kể với thu nhập của khách hàng vay (Đinh & Kleimeier, 2007) nên những khách hàng có giá trị tài sản thế chấp và mức thu nhập càng cao thì nhu cầu chi tiêu tiêu dùng trong đời sống xã hội càng cao nên họ thường vay ngân hàng với số tiền vay lớn cho các mục đích tiêu dùng khác nhau (sửa chữa, mua nhà, mua ôtô, bổ sung vốn kinh doanh .), làm cho tỷ lệ nợ trên tổng tài sản càng cao. Tổng giá trị tài sản càng cao thì người vay càng có trách nhiệm với khoản vay của mình và thiện chí trả nợ cũng sẽ cao hơn.
- Ta có thể hoàn thiện hệ thống đánh giá xếp hạng tín dụng cá nhân dựa trên dự đoán xác suất được thực hiện thông qua hàm hồi quy Binary Logistic ước lượng từ mẫu trên. Năm hạng mức tín nhiệm cũng được đưa ra A, A1, B, B1, C dựa trên 5 loại khách hàng mà ngân hàng TMCP Sài Gòn đang áp dụng, tương ứng với xác suất trả nợ theo bảng sau: Bảng 2.19: Tiêu chuẩn phân bổ cá thể theo mức rủi ro Loại hiện tại Xếp hạng tín nhiệm Xác suất trả nợ (%) Mức độ rủi ro 1 A 91 – 100 Rất thấp 2 A1 90 – 75 Thấp 3 B 74 – 65 Trung Bình 4 B1 64 – 35 Cao 5 C 34 – 0 Rất cao
- Vận dụng mô hình Binary Logistic cho mục đích dự báo Ví dụ: Chấm điểm xếp hạng tín dụng cá nhân Khách hàng Nguyễn Văn A (Kết quả xếp hạng A1, điểm tín dụng 315 điểm) Bảng 2.20: Thông tin xếp hạng khách hàng Nguyễn Văn A Chỉ tiêu Thông tin Hệ số Hằng số Tuổi 42 0.097 -8.739 Tính chất công việc 2 -1.259 Hôn nhân 1 1.909 Thời gian làm việc 125 -0.02 Số dịch vụ 1 1.138 Thu nhập 11 0.585 Tiền vay 173 -0.013 Tài sản 709 0.003 Tỷ lệ nợ trên tổng tài sản 0.2434 8.193
- Xác suất trả nợ của khách hàng Nguyễn Văn A là: E(Y/X)= 푒−8.739+0.097∗42−1.259∗2+1.909∗1−0.02∗125+1.138∗1+0.585∗11−0.013∗173+0.003∗709+8.193∗0.2434 1+푒−8.739+0.097∗42−1.259∗2+1.909∗1−0.02∗125+1.138∗1+0.585∗11−0.013∗173+0.003∗709+8.193∗0.2434 5.318 = = 0.8417 1+5.318 Như vậy, mô hình Binary Logistic dự đoán khả năng trả nợ của khách hàng Nguyễn Văn A là 84.17%. Theo quy định trong bảng 2.18 thì xác suất trả nợ của khách hàng tương ứng với mức rủi ro A1 phù hợp với mức xếp hạng trong dữ liệu. Như vậy, khi ngân hàng cho khách hàng Nguyễn Văn A vay thì khả năng thu hồi nợ cao.
- Khách hàng Nguyễn Thị B (Kết quả xếp hạng B, điểm tín dụng 285 điểm) Bảng 2.21: Thông tin xếp hạng khách hàng Nguyễn Thị B Chỉ tiêu Thông tin Hệ số Hằng số Tuổi 48 0.097 -8.739 Tính chất công việc 3 -1.259 Hôn nhân 1 1.909 Thời gian làm việc 128 -0.02 Số dịch vụ 1 1.138 Thu nhập 8 0.585 Tiền vay 60 -0.013 Tài sản 130 0.003 TỷXác lệ nợ suấttrên tổng trả tàinợ sản của khách hàng 0.4604Nguyễn Thị B8.193 là: E(Y/X) = 푒−8.739+0.097∗48−1.259∗3+1.909∗1−0.02∗128+1.138∗1+0.585∗8−0.013∗60+0.003∗130+8.193∗0.4604 1+푒−8.739+0.097∗48−1.259∗3+1.909∗1−0.02∗128+1.138∗1+0.585∗8−0.013∗60+0.003∗130+8.193∗0.4604 1.992 = = 0.6658 1+1.992
- Như vậy, mô hình Binary Logistic dự đoán khả năng trả nợ của khách hàng Nguyễn Văn A là 66.58%. Theo quy định trong bảng 2.18 thì xác suất trả nợ của khách hàng tương ứng với mức rủi ro B phù hợp với mức xếp hạng trong dữ liệu. Như vậy, khi ngân hàng cho khách hàng Nguyễn Văn A vay thì khả năng thu hồi nợ cao.
- THANKS



