Tổng số lượt xem trang

Thứ Bảy, 18 tháng 1, 2025

𝗥-𝘀𝗾𝘂𝗮𝗿𝗲𝗱


𝗛𝗶𝗲̂̉𝘂 𝗩𝗲̂̀ 𝗥-𝘀𝗾𝘂𝗮𝗿𝗲𝗱: 𝗖𝗵𝗶̉ 𝗦𝗼̂́ "𝗤𝘂𝘆𝗲̂̀𝗻 𝗟𝘂̛̣𝗰" 𝗧𝗿𝗼𝗻𝗴 𝗛𝗼̂̀𝗶 𝗤𝘂𝘆 𝗧𝘂𝘆𝗲̂́𝗻 𝗧𝗶́𝗻𝗵
Nếu bạn đang làm việc với các mô hình hồi quy tuyến tính hoặc đơn giản chỉ quan tâm đến cách mô hình "hiểu" dữ liệu, chắc hẳn bạn đã nghe qua về 𝗥-𝘀𝗾𝘂𝗮𝗿𝗲𝗱 (R2). Đây là một trong những chỉ số phổ biến nhất để đánh giá mức độ mà mô hình của bạn giải thích được biến thiên của dữ liệu. Nhưng... liệu bạn đã hiểu đúng về nó chưa?
𝗥-𝘀𝗾𝘂𝗮𝗿𝗲𝗱 𝗹𝗮̀ 𝗴𝗶̀?
Hiểu đơn giản, 𝗥-𝘀𝗾𝘂𝗮𝗿𝗲𝗱 trả lời câu hỏi: "Mô hình của bạn giải thích được bao nhiêu phần trăm biến động trong dữ liệu mục tiêu ?"
Công thức: (dưới hình ảnh nha)
Nghe phức tạp đúng không? Đừng lo, mình sẽ giải thích:
𝙏𝙤̂̉𝙣𝙜 𝙗𝙞𝙚̂́𝙣 𝙩𝙝𝙞𝙚̂𝙣 (𝙎𝙎𝙩𝙤𝙩​): Đây là tổng độ dao động của giá trị thực tế y so với giá trị trung bình của chúng (thể hiện độ biến thiên của dữ liệu thực tế xung quanh giá trị trung bình đó).
𝙋𝙝𝙖̂̀𝙣 𝙙𝙪̛ (𝙎𝙎𝙧𝙚𝙨𝙨): Đây là tổng sai số giữa giá trị thực tế y và giá trị mô hình dự đoán y’ ( Đây là "phần mô hình chưa giải thích được", hay nói cách khác là phần lỗi của mô hình.).
Nếu mô hình "lý tưởng", toàn bộ dao động của y đều được giải thích thì R2 sẽ bằng 1. Nhưng nếu mô hình kém, không giải thích được gì cả thì R2 = 0. Hiểu đơn giản hơn thì nó chính là phần trăm biến động của y mà mô hình có thể giải thích được.
Ví dụ thực tế
Bạn đang xây dựng một mô hình để dự đoán doanh thu cửa hàng dựa trên chi phí quảng cáo ở 3 kênh: TV, radio, và mạng xã hội.
𝑲𝒊̣𝒄𝒉 𝒃𝒂̉𝒏 1: R2=0.85 → Mô hình giải thích được 85% biến động trong doanh thu. Khá ổn đấy! Nhưng vẫn còn 15% dao động có thể do các yếu tố khác như chất lượng sản phẩm, đối thủ cạnh tranh,...
𝑲𝒊̣𝒄𝒉 𝒃𝒂̉𝒏 2: R2=0.45 → Mô hình chỉ giải thích được 45%. Bạn cần xem lại liệu dữ liệu quảng cáo có thực sự ảnh hưởng mạnh đến doanh thu không, hoặc có đang thiếu yếu tố quan trọng nào?


Đ𝗶𝗲̂̉𝗺 𝗺𝗮̂́𝘂 𝗰𝗵𝗼̂́𝘁
𝗥-𝘀𝗾𝘂𝗮𝗿𝗲𝗱 là chỉ số tuyệt vời để đánh giá độ phù hợp của mô hình. Tuy nhiên, nó không phản ánh độ chính xác của dự đoán, và không phải lúc nào R2 cao cũng là tốt. Hãy luôn kết hợp với các chỉ số khác như MSE, RMSE hoặc MAE để có cái nhìn toàn diện hơn.
Bạn xây dựng mô hình hồi quy để dự đoán doanh thu của một cửa hàng dựa trên số lượng quảng cáo, nhưng dữ liệu doanh thu bị nhiễu lớn (do các yếu tố khác như thời tiết, kinh tế, v.v.). Mô hình tuyến tính có thể đạt R² cao (ví dụ: 0.90) nhưng sai số dự đoán vẫn lớn (RMSE hoặc MAE cao). Hoặc trường hợp mô hình bị overfitting và R2 nó cũng sẽ khá cao nữa.
Bạn đã từng gặp trường hợp R2 "lừa dối" mình chưa? Chia sẻ bên dưới nhé!

Không có nhận xét nào:

Đăng nhận xét

Cảm ơn bạn rất nhiều ạ

Trị viêm đại tràng

Ai có bệnh nên dùng, bài này cũng là kinh nghiệm của già làng, nay thấy bạn này chia sẻ TL đưa luôn! *** “Người Trung Quốc nói người việt na...