[RL1] Markov Decision process – Introduction
[RL2a] Markov Decision Process – Discounted Reward
[RL2b] Markov Decision Process – Bellman equation
[RL2c] Markov Decision Process – Solving Bellman equation
[RL2d] Bellman Equations revisited
[RL3a] Reinforcement Learning context
Lại nói tiếp chuyện Học củng cố. Trong các bài trước, ta đã xem xét mô hình Markov Decision Process (MDP) và các phương pháp giải MDP. Ta cũng đã nói qua về hàm Q-function, hàm quan trọng nhất trong MDP, có thể dùng để biểu diễn trạng thái của agent. Vì hàm này quan trọng nên viết lại ra đây:
Image may be NSFW.
Clik here to view.
Đương nhiên nếu ta biết trước mô hình (ma trận chuyển trạng thái T và hàm reward R), thì mọi chuyện không còn gì để bàn. Tưởng tượng là một agent, được thả vào trong môi trường lạ, agent này sẽ thực hiện một loạt các hành động a, rơi vào các trạng thái s và nhận được reward r. Nói cách khác, agent sẽ chỉ nhận được chuỗi Image may be NSFW.
Clik here to view. và nhiệm vụ của nó là phải tìm ra policy Image may be NSFW.
Clik here to view. sao cho tối đa hoá expected reward. Reinforcement Learning, do đó, là thuật toán giúp agent tìm ra policy tối ưu, khi nó quan sát được chuỗi Image may be NSFW.
Clik here to view..
Có nhiều cách để làm việc này , nhưng nhìn chung có 3 cách sau:
Image may be NSFW.
Clik here to view.
- Model-based RL: trong cách này, trước tiên ta phải học được mô hình của MDP từ chuỗi Image may be NSFW.
Clik here to view., chẳng hạn T có thể là maximum likelihood estimation của các trạng thái, R là expected reward của mỗi trạng thái trong training set. Sau đó dùng các thuật toán trong phần trước để giải MDP và tìm ra policy tối ưu.
Lưu ý là trong cách làm này, ta phải tìm cách ước lượng MDP. - Value-function-based RL: ta tìm cách học trực tiếp hàm Q-function (nôm na là expected reward của agent khi ở trạng thái s và thực hiện hành động a), sau đó tìm policy tối ưu.
- Policy Search: trong cách này, ta trực tiếp tìm policy tối ưu từ training set, thay vì phải mô hình hoá Q-function.
Rõ ràng đi từ 1 đến 3 thì yêu cầu của thuật toán càng ngày càng “khó”, vì rõ ràng trong Policy Search thì rất khó để ước lượng trực tiếp policy tối ưu từ training set. Ta nói rằng Model-based RL thì more “supervised”.
Trong thực tế người ta chủ yếu tập trung vào Model-free RL. Chẳng hạn ta sẽ bàn về Image may be NSFW.
Clik here to view. trong phần sau.
Image may be NSFW.
Clik here to view.

Clik here to view.
