ML_1: Phân lớp Bayes
-
date_range 06/04/2020 23:34 infosortMachine_Learninglabelmlbayes
1. Lý thuyết quyết định Bayes
Đặt vấn đề: Một bài toán học có giám sát cho biết:
- Không gian giả thuyết
- , với , là dữ liệu quan sát được.
Yêu cầu tìm sao cho lớn nhất.
Quy tắc quyết định Bayes (Maximum a posteriori):
Ta có:
với là khả năng xuất hiện .
Do đó:
Quy tắc giả thuyết hợp lý nhất (Maximum likelihood):
Khi thiếu thông tin về các trong , ta giả thiết mọi giả thuyết trong có cùng xác suất, nghĩa là:
Khi đó, một giá trị cho cực đại cũng là giả thuyết , ký hiệu là:
2. Phân lớp Bayes
Xét bài toán gồm lớp . Đã biết các , và . Ta có:
trong đó .
Hàm quyết định cho mỗi lớp là hay . Do đó ta có:
Nếu xác suất như nhau thì:
Ví dụ:
Một địa phương có dân số ung thư.
Xét nghiệm cho thấy người mắc bệnh () cho kết quả dương tính , người không mắc bệnh () cho kết quả âm tính .
Một người xét nghiệm cho kết quả dương tính thì sẽ kết luận như nào?
Lời giải:
Dữ kiện từ đầu bài:
- ,
- ,
- ,
Nên ta có:
Vì nên ta đưa ra kết luận "không ung thư".
2.1. Phân lớp cực tiểu rủi ro:
Giả sử sau khi phân lớp (giả sử lớp), ta quyết định hành động tương ứng. Hành động nếu phân lớp và nếu phân lớp .
Đặt là tổn thất phải chịu nếu trangj thái tự nhiên là . Khi đó, tổn thất trung bình khi hành động tương ứng với mỗi quyết định phân lớp là:
Trở lại ví dụ ở trên, trước tiên ta chuẩn hóa:
Giả sử nếu quyết định ung thư () cho điều trị sớm () với chi phí triệu đồng, còn nếu không điều trị sớm () mà có bệnh, chi phí chữa trị sau đó là triệu đồng. Trong trường hợp này ta nên quyết định như nào?
Nếu điều trị sớm, dù có bệnh hay không thì vẫn tốn kém triệu:
Nếu không, với xác suất sau này sẽ phải điều trị, nên:
Như vậy, quyết định cực tiểu rủi ro là "điều trị sớm".
Khái quát lại, thiệt hại khi hành động ứng với quyết định phân lớp tương ứng là:
2.2. Phân lớp Naive Bayes
Phân lớp Naive Bayes được áp dụng khi mẫu mô tả bởi liên kết các giá trị-thuộc tính. Khi đó:
Trong đó:
Thay trở lại công thức trên, quy tắc phân lớp Naive Bayes sẽ quyết định:
2.3. Phân lớp Bayes khi mỗi lớp có phân bố chuẩn
Xét lớp có phân bố chuẩn, hàm mật độ dạng:
trong đó:
- là số chiều của
- là vector trung bình của lớp
- là ma trận hiệp phương sai của lớp
Hàm quyết định cho lớp :
Lấy logarit hai vế:
Loại bỏ các hằng số, ta được hàm quyết định cuối cùng: