menu

UML_3: Tối thiểu rủi ro thực nghiệm với xu hướng quy nạp | 2.3.

uml3

2.3. Tối thiểu rủi ro thực nghiệm với xu hướng quy nạp
  • Ở bài viết trước, chúng ta đã chứng minh phương pháp ERM có thể dẫn đến overfitting. Bây giờ chúng ta sẽ tìm cách cải thiện nó bằng việc tìm các điều kiện để đảm bảo ERM không bị overfit.

  • Một trong những phương pháp chung khi thực hiện ERM là giới hạn không gian tìm kiếm. Cụ thể, bộ học sẽ chọn trước một tập các hàm dự đoán (trước khi nhìn thấy dữ liệu). Tập các hàm dự đoán này gọi là "không gian giả thuyết" (hypothesis class), ký hiệu là . Mỗi hàm ánh xạ . Cho trước , bộ học sử dụng ERM chọn ra hàm dự đoán sao cho lỗi trên nhỏ nhất:

  • Lựa chọn không gian hạn chế lý tưởng khi có hiểu biết trước về vấn đề cần học. Ví dụ, về vấn đề dự đoán trái đu đủ chín hay chưa (đã đề cập ở bài viết trước), chúng ta có thể chọn giả thuyết là tập các hình chữ nhật (với các cạnh song song với trục). Ở phần dưới, chúng ta sẽ chứng minh cho không gian giả thuyết này không bị overfit.

  • Câu hỏi đặt ra bây giờ là: Không gian giả thuyết như nào thì giúp tránh được overfitting? Hãy cùng nhau khám phá ở phần còn lại của bài viết.

2.3.1. Không gian giả thuyết
  • Cách thức đơn giản nhất để giới hạn không gian tìm kiếm là đặt giới hạn trên cho kích cỡ của (số lượng ). Chúng ta cần chứng minh với hữu hạn, sẽ không bị overfit, nếu dữ liệu huấn luyện đủ lớn (size của phụ thuộc vào size của ).

  • Với giả thiết hữu hạn: cho tập huấn luyện , hàm gán nhãn , ký hiệu là kết quả khi áp dụng lên :

  • Định nghĩa (Giả thuyết tính khả thi):

    Tồn tại sao cho . Nghĩa là dự đoán chính xác tất cả các mẫu trên , do đó nếu lấy mẫu từ .

    Ý nói rằng, mọi giả thuyết từ đều có thể cho kết quả . Tuy nhiên, cái ta quan tâm là lỗi trên chứ không phải trên .

  • có thể đại diện cho nếu điểm thuộc được lấy mẫu trên một cách độc lập. Ký hiệu . Tập được coi là cửa sổ để bộ học hình dung ra . có thể có hoặc không đại diện cho . Tập càng lớn thì càng có nhiều khả năng đại diện cho .

  • Giả sử với xác suất tập không đại diện cho , ta có là sự tự tin đối với hàm dự đoán . Ta ký hiệu tượng trưng cho xác suất dự đoán sai của mô hình. Nếu nghĩa là việc học thất bại, ngược lại, nếu chứng tỏ việc học thành công.

  • Ta cần tìm xác suất cận trên của việc lấy mẫu dữ liệu dẫn đến việc học thất bại. Giả sử là tập huấn luyện. Ta cần tìm:

    • Gọi là tập giả thiết cho kết quả kém:

    • Gọi

      hay

      là tập các bộ huấn luyện lừa được thuật toán học. Nghĩa là , nhưng lại cho kết quả tốt trên . Ta có:

    • Do đó ta có:

  • Bổ đề (Union Bound): Cho hai tập , và phân phối :

    • Áp dụng vào ta được:

  • lấy mẫu từ nên ta có:

    • Như giả thuyết ban đầu ta có:

    • Do đó:

      • Chứng minh:

        , , cần chứng minh: .

        Với , ta có:

        Do đó:

        Vậy ta đã chứng minh được bất đẳng thức trên.

  • Từ ta có:

  • Hệ quả: Cho là tập giả thuyết hữu hạn, , thỏa mãn

    thì với độ tự tin ít nhất thuật toán cho hàm dự đoán tốt, nghĩa là .

 

Tham khảo: