𝐑-𝐬𝐪𝐮𝐚𝐫𝐞𝐝 𝐯𝐚̀ 𝐀𝐝𝐣𝐮𝐬𝐭𝐞𝐝 𝐑-𝐬𝐪𝐮𝐚𝐫𝐞𝐝
R-squared (R2) và Adjusted R-squared (Radj2) đều là các chỉ số quan trọng trong hồi quy tuyến tính, giúp đánh giá mức độ phù hợp của mô hình với dữ liệu. R-squared đo lường tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập. Chỉ số này càng cao thì mô hình càng phù hợp với dữ liệu. Tuy nhiên, nhược điểm của R-squared là nó luôn tăng khi thêm biến độc lập vào mô hình, ngay cả khi biến đó không thực sự có ý nghĩa thống kê, dẫn đến nguy cơ overfitting.
Để khắc phục vấn đề này, Adjusted R-squared được sử dụng nhằm điều chỉnh giá trị R-squared bằng cách tính đến số lượng biến độc lập trong mô hình. Khác với R-squared, Adjusted R-squared chỉ tăng khi biến mới thực sự cải thiện mô hình và sẽ giảm nếu biến đó không có ý nghĩa.
Trong công thức của Adjusted R-squared sẽ bổ sung thêm 2 thành phần là
Trong đó:
- N Số lượng quan sát (sample size)
- p Số lượng biến độc lập
𝑲𝒉𝒊 𝒏𝒂̀𝒐 𝒕𝒂 𝒏𝒆̂𝒏 𝒔𝒖̛̉ 𝒅𝒖̣𝒏𝒈 𝑨𝒅𝒋𝒖𝒔𝒕𝒆𝒅 𝑹-𝒔𝒒𝒖𝒂𝒓𝒆𝒅?
- Khi có nhiều biến độc lập và cần kiểm tra xem biến nào thực sự quan trọng
- Khi so sánh nhiều mô hình hồi quy có số lượng biến khác nhau
- Khi muốn tránh overfitting do thêm biến không cần thiết
𝗩𝗶́ 𝗱𝘂̣ 𝘁𝗵𝘂̛̣𝗰 𝘁𝗲̂́: Bạn đang xây dựng mô hình dự đoán giá nhà với 10 biến độc lập. Nếu bạn thêm một biến mới (số lượng bãi đậu xe trong khu vực), R2 có thể tăng nhẹ nhưng biến này có thể không có ý nghĩa thực tế. Radj2 sẽ giúp kiểm tra xem biến này có thực sự cải thiện mô hình hay không.
Không có nhận xét nào:
Đăng nhận xét
Cảm ơn bạn rất nhiều ạ