menu

UML_1: Mô hình Học thống kê | 2.1.

2.1 Mô hình Học thống kê
  • Input:

    • Miền giá trị đầu vào: Một tập bất kỳ, tập các đối tượng mà ta muốn gán nhãn.
    • Miền giá trị nhãn: , gồm hai lớp, thường là hoặc ​.
    • Dữ liệu huấn luyện: là tập hữu hạn các dữ liệu trên miền .
  • Output: Đầu ra là một hàm . Hàm này có thể gọi là hàm dự đoán, một giả thuyết hoặc một bộ phân lớp. Chúng ta ký hiệu cho: thuật toán học được huấn luyện từ tập dữ liệu .

  • Mô hình sinh dữ liệu: Chúng ta cùng giải thích về cách mà dữ liệu được sinh ra.

    • Đầu tiên, giả sử dữ liệu được lấy mẫu bởi phân bố xác suất .
    • Tiếp theo, chúng ta giả định hàm gán nhãn đúng .
    • Như vậy, từng cặp dữ liệu trong được lấy mẫu theo và gán nhãn bởi .
  • Đánh giá hàm dự đoán:

    • Sai số của bộ phân lớp là xác suất dự đoán sai trên dữ liệu được lấy ngẫu nhiên.

    • Định nghĩa sai số dự đoán của :

    • còn được gọi là lỗi thật, lỗi tổng quát hoặc rủi ro kỳ vọng.

  • Nhiệm vụ của bộ học:

    • Bộ học không biết về phân bố và hàm gán nhãn . Nhiệm vụ của nó là từ tập huấn luyện tìm ra một giả thuyết tốt nhất có thể được theo nghĩa tối thiểu hóa rủi ro kỳ vọng .

 

Tham khảo:

[1] Understanding machine learning-theory algorithms.

[2] UML2.1 – Học thống kê | UET_AI_LAB.