Tổng số lượt xem trang

Thứ Bảy, 18 tháng 1, 2025

𝗛𝗶𝗲̂̉𝘂 𝘃𝗲̂̀ 𝗴𝗶𝗮̉ đ𝗶̣𝗻𝗵 𝘁𝘂𝘆𝗲̂́𝗻 𝘁𝗶́𝗻𝗵 𝘁𝗿𝗼𝗻𝗴 𝗵𝗼̂̀𝗶 𝗾𝘂𝘆 𝘁𝘂𝘆𝗲̂́𝗻 𝘁𝗶́𝗻𝗵




Giả định về tính tuyến tính là một trong những nền tảng quan trọng giúp mô hình hồi quy tuyến tính hoạt động chính xác. Nhưng liệu bạn đã thực sự hiểu rõ vai trò, cách kiểm tra và xử lý khi giả định này bị vi phạm chưa? Hãy cùng phân tích chi tiết nhé!
Hồi quy tuyến tính giả định rằng mối quan hệ giữa biến độc lập (X) và biến phụ thuộc là tuyến tính. Công thức cơ bản của mô hình như sau:
𝗬=β𝟬+β𝟭𝗫𝟭+β𝟮𝗫𝟮+...+β𝗻𝗫𝗻+ϵ
Trong đó:
- β0​: Hệ số chặn (intercept).
- β1,β2,...,βn​: Các hệ số góc đại diện cho mức độ ảnh hưởng của các biến độc lập X1,X2,...,Xn
- ϵ: Sai số ngẫu nhiên.
Hồi quy tuyến tính dựa trên giả định rằng mối quan hệ giữa các biến là tuyến tính. Nếu giả định này không được đáp ứng, các hệ số β sẽ bị sai lệch, dẫn đến kết quả dự đoán không chính xác.
𝙂𝙞𝙖̉𝙞 𝙩𝙝𝙞́𝙘𝙝 𝙫𝙚̂̀ 𝙢𝙖̣̆𝙩 𝙮́ 𝙣𝙜𝙝𝙞̃𝙖 𝙩𝙝𝙤̂́𝙣𝙜 𝙠𝙚̂: Mối quan hệ tuyến tính giúp chúng ta hiểu rõ mức độ ảnh hưởng của từng biến X lên Y. Nếu mối quan hệ không tuyến tính, các hệ số hồi quy sẽ mất ý nghĩa.
Ngoài ra, chúng ta còn phân tích sự phụ thuộc giữa các biến độc lập X nữa hay còn gọi là đ𝗮 𝗰𝗼̣̂𝗻𝗴 𝘁𝘂𝘆𝗲̂́𝗻 (𝗺𝘂𝗹𝘁𝗶𝗰𝗼𝗹𝗹𝗶𝗻𝗲𝗮𝗿𝗶𝘁𝘆).Nếu Xi và Xj có mối quan hệ tuyến tính cao, mô hình sẽ khó xác định tác động độc lập của từng biến lên biến phụ thuộc .
Vì vậy trước khi thực hiện quá trình training với tập dữ liệu có n biến X thì số lần chúng ta cần thực hiện kiểm tra mối quan hệ là: 2Cn (từng cặp X) + n (từng Xi với Y)
𝗖𝗮́𝗰𝗵 𝗸𝗶𝗲̂̉𝗺 𝘁𝗿𝗮 𝗴𝗶𝗮̉ đ𝗶̣𝗻𝗵 𝘃𝗲̂̀ 𝘁𝗶́𝗻𝗵 𝘁𝘂𝘆𝗲̂́𝗻 𝘁𝗶́𝗻𝗵
𝙃𝙚̣̂ 𝙨𝙤̂́ 𝙩𝙪̛𝙤̛𝙣𝙜 𝙦𝙪𝙖𝙣 (𝙘𝙤𝙧𝙧𝙚𝙡𝙖𝙩𝙞𝙤𝙣 𝙘𝙤𝙚𝙛𝙛𝙞𝙘𝙞𝙚𝙣𝙩): nhưng cần lưu ý rằng đây chỉ là một phương pháp sơ bộ (Nó theo hình thức lý thuyết xác suất - thống kê thôi). Để kiểm tra sâu hơn về giả định tuyến tính, ngoài việc dùng hệ số tương quan, bạn nên kết hợp thêm các phương pháp bên dưới.
𝙑𝙚̃ 𝙗𝙞𝙚̂̉𝙪 đ𝙤̂̀ 𝙨𝙘𝙖𝙩𝙩𝙚𝙧 𝙥𝙡𝙤𝙩 𝙜𝙞𝙪̛̃𝙖 𝙩𝙪̛̀𝙣𝙜 𝙘𝙖̣̆𝙥: Nếu mối quan hệ là tuyến tính, bạn sẽ thấy các điểm phân bố theo một đường thẳng hoặc gần như đường thẳng.
𝙍𝙚𝙨𝙞𝙙𝙪𝙖𝙡 𝙋𝙡𝙤𝙩: Vẽ đồ thị phần dư (residuals) theo các giá trị dự đoán (predicted values). Nếu giả định tuyến tính đúng, các phần dư sẽ phân bố ngẫu nhiên xung quanh trục ngang (không có mẫu hình rõ ràng).
𝗚𝗶𝗮̉𝗶 𝗽𝗵𝗮́𝗽 𝗸𝗵𝗶 𝗴𝗶𝗮̉ đ𝗶̣𝗻𝗵 𝘁𝘂𝘆𝗲̂́𝗻 𝘁𝗶́𝗻𝗵 𝗯𝗶̣ 𝘃𝗶 𝗽𝗵𝗮̣𝗺
(Mình hay dùng cách 2)
𝗖𝗮́𝗰𝗵 𝟭: Biến đổi biến độc lập.
- Logarithm (log⁡(X))
- Căn bậc hai của X
- Đa thức (X^2,X^3) (Có lẽ trong bài tìm hiểu về SVM ta sẽ tìm hiểu phần này)
𝗖𝗮́𝗰𝗵 𝟮: Sử dụng mô hình phi tuyến.
- Random Forest hoặc Decision Tree.
- Neural Networks nếu dữ liệu lớn và phi tuyến tính rõ rệt.
Một bài demo dự đoán giá nhà mà mình thực hiện hồi quy tuyến tính nha

Không có nhận xét nào:

Đăng nhận xét

Cảm ơn bạn rất nhiều ạ

Trị viêm đại tràng

Ai có bệnh nên dùng, bài này cũng là kinh nghiệm của già làng, nay thấy bạn này chia sẻ TL đưa luôn! *** “Người Trung Quốc nói người việt na...