Naïve Bayes là một nhóm thuật toán phân loại dựa trên Định lý Bayes, giả định rằng các đặc trưng (features) độc lập với nhau, tức là giả định điều kiện độc lập (Naive assumption).
1. 𝑮𝒂𝒖𝒔𝒔𝒊𝒂𝒏 𝑵𝒂𝒊𝒗𝒆 𝑩𝒂𝒚𝒆𝒔 (𝑮𝑵𝑩)
Dùng khi nào? Khi dữ liệu là liên tục (continuous), ví dụ như chiều cao, cân nặng, điểm số, giá trị pixel của ảnh.
Giả sử các đặc trưng tuân theo phân phối chuẩn (Gaussian distribution) và tính xác suất bằng công thức: (trong ảnh 1)
𝟮. 𝗠𝘂𝗹𝘁𝗶𝗻𝗼𝗺𝗶𝗮𝗹 𝗡𝗮𝗶𝘃𝗲 𝗕𝗮𝘆𝗲𝘀 (𝗠𝗡𝗕)
Khuyên dùng khi dữ liệu là rời rạc và có số lần xuất hiện, phổ biến trong bài toán xử lý ngôn ngữ tự nhiên (NLP).
Cách hoạt động: Tính xác suất của một từ xuất hiện trong một lớp bằng công thức: (trong ảnh 3)
Ví dụ thực tế: Phân loại văn bản (spam detection, sentiment analysis), Phân loại tài liệu theo chủ đề.
3. 𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊 𝑵𝒂𝒊𝒗𝒆 𝑩𝒂𝒚𝒆𝒔 (𝑩𝑵𝑩)
Khi dữ liệu là nhị phân (0/1), tức là mỗi đặc trưng chỉ có hai trạng thái (có hoặc không có) thì ta sẽ dùng BNB.
Mô hình giả định rằng một từ xuất hiện hay không xuất hiện trong tài liệu là quan trọng, thay vì số lần xuất hiện.
Công thức tính xác suất: (trong ảnh 2)
Ví dụ thực tế: Phân loại email spam (email chứa hoặc không chứa một số từ khóa spam), dự đoán một người có mắc bệnh dựa trên một số triệu chứng (có hoặc không có triệu chứng đó).
𝗞𝗲̂́𝘁 𝗹𝘂𝗮̣̂𝗻
- Gaussian Naïve Bayes phù hợp với dữ liệu liên tục.
- Multinomial Naïve Bayes phù hợp với dữ liệu rời rạc có số lần xuất hiện, thường dùng trong NLP.
- Bernoulli Naïve Bayes phù hợp với dữ liệu nhị phân, chỉ quan tâm đến sự xuất hiện hay không của đặc trưng.
Việc chọn loại Naive Bayes phù hợp tùy thuộc vào kiểu dữ liệu của bạn.
Like
Comment
Share
Không có nhận xét nào:
Đăng nhận xét
Cảm ơn bạn rất nhiều ạ