UML_1: Mô hình Học thống kê | 2.1.
-
date_range 22/03/2020 15:25 infosortStatistical_Learninglabelslvapnik
2.1 Mô hình Học thống kê
Input:
- Miền giá trị đầu vào: Một tập bất kỳ, tập các đối tượng mà ta muốn gán nhãn.
- Miền giá trị nhãn: , gồm hai lớp, thường là hoặc .
- Dữ liệu huấn luyện: là tập hữu hạn các dữ liệu trên miền .
Output: Đầu ra là một hàm . Hàm này có thể gọi là hàm dự đoán, một giả thuyết hoặc một bộ phân lớp. Chúng ta ký hiệu cho: thuật toán học được huấn luyện từ tập dữ liệu .
Mô hình sinh dữ liệu: Chúng ta cùng giải thích về cách mà dữ liệu được sinh ra.
- Đầu tiên, giả sử dữ liệu được lấy mẫu bởi phân bố xác suất .
- Tiếp theo, chúng ta giả định hàm gán nhãn đúng .
- Như vậy, từng cặp dữ liệu trong được lấy mẫu theo và gán nhãn bởi .
Đánh giá hàm dự đoán:
Sai số của bộ phân lớp là xác suất dự đoán sai trên dữ liệu được lấy ngẫu nhiên.
Định nghĩa sai số dự đoán của :
còn được gọi là lỗi thật, lỗi tổng quát hoặc rủi ro kỳ vọng.
Nhiệm vụ của bộ học:
- Bộ học không biết về phân bố và hàm gán nhãn . Nhiệm vụ của nó là từ tập huấn luyện tìm ra một giả thuyết tốt nhất có thể được theo nghĩa tối thiểu hóa rủi ro kỳ vọng .
Tham khảo:
[1] Understanding machine learning-theory algorithms.
[2] UML2.1 – Học thống kê | UET_AI_LAB.