Bài này tóm tắt các kĩ thuật ước lượng tham số, vốn có nguồn gốc từ lí thuyết xác suất thống kê, đang được dùng rộng rãi trong Machine Learning. Bài này chỉ là ôn lại để chuẩn bị cho 1 series về Gaussian Process nên sẽ hơi sơ sài, không có ví dụ.
Trong thống kê, bài toán ước lượng tham số có thể tóm tắt như sau: Cho tập dữ liệu , biết rằng tập dữ liệu này lấy mẫu từ phân phối
, với
là tham số. Hãy ước lượng giá trị của tham số
.
Như vậy ta cần tập mẫu , và biết trước dạng của hàm
.
1. Frequentist: Maximum Likelihood Estimation (MLE)
Theo trường phái frequentist, tham số chỉ đơn giản là ẩn số (constant-valued but unknown), và MLE là một phương pháp thống kê để ước lượng ẩn số này.
Theo đó, hàm likelihood được định nghĩa là:
Ý tưởng là để “phù hợp” với tập mẫu thì giá trị của
phải càng lớn càng tốt. Do đó bài toán ước lượng
chính là tìm
để
đạt cực đại:
(1)
Có nhiều cách để giải bài toán này. Nếu công thức của là closed-form thì có thể giải rất đơn giản bằng cách tính đạo hàm và giải phương trình đạo hàm bằng 0.
Thông thường vì công thức của là tích của nhiều đại lượng nhỏ, nên thay vì tìm cực đại của
, người ta tìm cực đại của
:
Và lời giải của MLE là nghiệm của phương trình:
Tuy nhiên trong thực tế, công thức (1) không closed-form thì bài toán được chuyển thành 1 bài toán optimization.
2. Bayesian estimators: MAP and EAP
Theo trường phái Bayesian, không chỉ đơn giản là ẩn số, mà là một biến ngẫu nhiên, và ta không biết giá trị của nó. Vì là biến ngẫu nhiên nên ta sẽ đặt một phân phối prior
để mô hình hoá “niềm tin” của ta về giá trị của
. Thật ra đây là cách “hiển nhiên” để biểu thị niềm tin rằng
là một biến ngẫu nhiên.
Vậy bây giờ ta có cả hàm likelihood và xác suất prior
, một cách hiển nhiên ta sẽ dùng định lí Bayes để tính xác suất posterior:
(2)
Cho một sample mới , ta có thể tính xác suất sample đó thuộc vào tập huấn luyện bằng công thức xác suất điều kiện:
(3)
Dựa vào (2) và (3) có một số thứ thú vị mà ta có thể làm:
Thứ nhất, để ước lượng giá trị của , ta có thể dùng kì vọng của (2):
Đây gọi là Expected a Posteriori (EAP) estimation. Tuy nhiên tính tích phân trên toàn miền giá trị của khá là bất khả thi trong thực tế. Người ta thường dùng Maximum A Postoeriori, như sau.
Thứ hai, thay vì ước lượng EAP, ta có thể ước lượng điểm bằng MAP:
Vì mẫu số trong (2) không phụ thuộc vào , nên công thức trên có thể viết lại thành:
(4)
Để ý rằng công thức (4) giống hệt (1), chỉ thêm phần xác suất prior của . Trên thực tế nếu
là phân phối uniform thì MAP chính là MLE.
Thứ ba, (3) là công thức của một phân phối xác suất đầy đủ cho mọi sample. Như vậy ta hoàn toàn có thể tính được expected values của phân phối này:
(5)
Tuỳ vào ngữ cảnh bài toán cụ thể, đây gọi là “fully Bayesian inference”, vì ta tính tích phân qua tất cả các giá trị của .
Thông thường người ta hay chọn , khi đó MAP thường ít overfitting hơn MLE, vì nói chung giá trị của
chọn bằng MAP sẽ có norm nhỏ hơn so với giá trị
chọn bằng MLE.
3. Applied in Machine Learning: discriminative models
Rất nhiều mô hình Machine Learning là discriminative. Những mô hình này (logistic regression, neural networks…) mô hình hoá xác suất có điều kiện , thay vì
. Khi đó lí thuyết đề cập trong bài này đều có thể áp dụng, nhưng thay vì viết
, ta viết
. Như vậy các công thức (1), (4), (5) trở thành:
(6)
(7)
(8)
Lưu ý là trong (7) ta viết vì trong cách tiếp cận Bayesian,
cũng là một biến ngẫu nhiên.
Các công thức (6), (7) sẽ còn được gặp lại trong các bài sau về Gaussian Process.
