menu

ML_1: Phân lớp Bayes

date_range 06/04/2020 23:34

Bayes

1. Lý thuyết quyết định Bayes
  • Đặt vấn đề: Một bài toán học có giám sát cho biết:
    • Không gian giả thuyết
    • , với , là dữ liệu quan sát được.

UML_3: Tối thiểu rủi ro thực nghiệm với xu hướng quy nạp | 2.3.

date_range 05/04/2020 16:25

uml3

2.3. Tối thiểu rủi ro thực nghiệm với xu hướng quy nạp
  • Ở bài viết trước, chúng ta đã chứng minh phương pháp ERM có thể dẫn đến overfitting. Bây giờ chúng ta sẽ tìm cách cải thiện nó bằng việc tìm các điều kiện để đảm bảo ERM không bị overfit.
  • Một trong những phương pháp chung khi thực hiện ERM là giới hạn không gian tìm kiếm. Cụ thể, bộ học sẽ chọn trước một tập các hàm dự đoán (trước khi nhìn thấy dữ liệu). Tập các hàm dự đoán này gọi là "không gian giả thuyết" (hypothesis class), ký hiệu là . Mỗi hàm ánh xạ . Cho trước , bộ học sử dụng ERM chọn ra hàm dự đoán sao cho lỗi trên nhỏ nhất:
  • Lựa chọn không gian hạn chế lý tưởng khi có hiểu biết trước về vấn đề cần học. Ví dụ, về vấn đề dự đoán trái đu đủ chín hay chưa (đã đề cập ở bài viết trước), chúng ta có thể chọn giả thuyết là tập các hình chữ nhật (với các cạnh song song với trục). Ở phần dưới, chúng ta sẽ chứng minh cho không gian giả thuyết này không bị overfit.
  • Câu hỏi đặt ra bây giờ là: Không gian giả thuyết như nào thì giúp tránh được overfitting? Hãy cùng nhau khám phá ở phần còn lại của bài viết.

ML&PR_1: Đường cong phù hợp | 1.1.

date_range 04/04/2020 22:52

bis

1.1. Đường cong phù hợp
  • Chúng ta bắt đầu bằng một ví dụ hồi quy đơn giản. Giả sử ta quan sát các dữ liệu với đầu vào và đầu ra là (, ).
    • Ví dụ dữ liệu được sinh ra từ hàm () với giá trị đích () bị ảnh hưởng bởi nhiễu Gauss.

UML_2: Tối thiểu rủi ro thực nghiệm | 2.2.

date_range 03/04/2020 15:25

2.2. Tối thiểu rủi ro thực nghiệm
  • Như đã đề cập ở phần trước, một thuật toán học có đầu vào là tập huấn luyện được lấy mẫu bởi phân bố không biết trước và được gán nhãn bằng hàm . Đầu ra của thuật toán học là hàm dự đoán . Mục đích của thuật toán là tìm hàm với sai số trên là nhỏ nhất.

UML_1: Mô hình Học thống kê | 2.1.

date_range 22/03/2020 15:25

2.1 Mô hình Học thống kê
  • Input:
    • Miền giá trị đầu vào: Một tập bất kỳ, tập các đối tượng mà ta muốn gán nhãn.
    • Miền giá trị nhãn: , gồm hai lớp, thường là hoặc ​.
    • Dữ liệu huấn luyện: là tập hữu hạn các dữ liệu trên miền .