[RL1] Markov Decision process – Introduction
[RL2a] Markov Decision Process – Discounted Reward
[RL2b] Markov Decision Process – Bellman equation
[RL2c] Markov Decision Process – Solving Bellman equation
[RL2d] Bellman Equations revisited
[RL3a] Reinforcement Learning context
[RL3b] Temporal Difference Learning – intuition
Như đã nói trong bài trước, ta sẽ tập trung vào Model-free RL, trong đó ta muốn học trực tiếp giá trị của các trạng thái Image may be NSFW.
Clik here to view. từ tập huấn luyện Image may be NSFW.
Clik here to view..
Cụ thể, tập huấn luyện sẽ gồm nhiều episodes, mỗi episode là một chuỗi Image may be NSFW.
Clik here to view. mà agent thực hiện cho đến khi kết thúc cuộc đời của nó. Chẳng hạn nếu là chơi cờ thì tập huấn luyện sẽ gồm nhiều trận đấu, mỗi trận là một chuỗi các nước đi. Từ tập huấn luyện này, ta tìm cách ước lượng Image may be NSFW.
Clik here to view..
Tại sao lại ước lượng Image may be NSFW.
Clik here to view., khi trong bài trước ta nói rằng Model-free RL tìm cách ước lượng giá trị Image may be NSFW.
Clik here to view.? Nhắc lại rằng ta có thể tính Image may be NSFW.
Clik here to view. từ Image may be NSFW.
Clik here to view., Image may be NSFW.
Clik here to view. và Image may be NSFW.
Clik here to view., như đã nói trong bài này, mà Image may be NSFW.
Clik here to view. và Image may be NSFW.
Clik here to view. có thể ước lượng một cách đơn giản từ tập huấn luyện (chẳng hạn dùng maximum likelihood), nên một khi có Image may be NSFW.
Clik here to view. ta hoàn toàn có thể tính Image may be NSFW.
Clik here to view. nếu muốn. Tuy nhiên mục tiêu cuối cùng của RL vẫn là tìm ra policy tối ưu, chứ không phải tìm Image may be NSFW.
Clik here to view. hay Image may be NSFW.
Clik here to view., mà từ Image may be NSFW.
Clik here to view. vẫn có thể dùng Image may be NSFW.
Clik here to view. để tìm policy tối ưu, thành ra Image may be NSFW.
Clik here to view. hay Image may be NSFW.
Clik here to view. cũng không còn quan trọng nữa.
Mọi chuyện sẽ dễ dàng hơn khi ta xem ví dụ sau. Cho một MDP với mô hình chuyển trạng thái T và hàm reward R như sau:
Image may be NSFW.
Clik here to view.
Mô hình này có 6 trạng thái. Khi chuyển từ Image may be NSFW.
Clik here to view. sang Image may be NSFW.
Clik here to view. thì reward nhận được là +1, nghĩa là Image may be NSFW.
Clik here to view.. Tương tự như vậy cho các trạng thái khác. Image may be NSFW.
Clik here to view. là trạng thái cuối cùng, trò chơi kết thúc khi agent đi đến trạng thái này.
Đặc biệt từ trạng thái Image may be NSFW.
Clik here to view., agent có thể tới Image may be NSFW.
Clik here to view. với xác suất 0.9, và tới Image may be NSFW.
Clik here to view. với xác suất 0.1, nghĩa là Image may be NSFW.
Clik here to view. và Image may be NSFW.
Clik here to view.. Trong cả hai trường hợp, reward đều là 0.
Giờ ta thả 5 agent vào mô hình này, quan sát được các chuỗi trạng thái như sau:
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Giả sử rằng ta không biết mô hình MDP như trong hình, mà chỉ biết 5 episodes như trên. Bài toán RL là ước lượng mô hình MDP từ các episodes (training set) này.
Ở đây có 2 chuyện ta có thể làm:
- Ước lượng mô hình MDP (tức là ước lượng Image may be NSFW.
Clik here to view.và Image may be NSFW.
Clik here to view.)
- Ước lượng Image may be NSFW.
Clik here to view.
Ta sẽ xem lần lượt 2 chuyện này.
1. Ước lượng mô hình MDP
Cách dễ nhất để làm chuyện này là dùng maximum likelihood. Chẳng hạn nhìn vào 5 episodes trên ta thấy từ Image may be NSFW.
Clik here to view. lúc nào cũng đi tới Image may be NSFW.
Clik here to view. với reward bằng +1, nên theo maximum likelihood thì Image may be NSFW.
Clik here to view. và Image may be NSFW.
Clik here to view..
Một trường hợp thú vị hơn là từ Image may be NSFW.
Clik here to view. ta có 3 lần đi đến Image may be NSFW.
Clik here to view., và 2 lần đi đến Image may be NSFW.
Clik here to view.. Vậy suy ra Image may be NSFW.
Clik here to view. và Image may be NSFW.
Clik here to view..
Có bạn sẽ bảo: ủa vậy sai rồi, vì theo mô hình như trong sơ đồ trên, thật ra Image may be NSFW.
Clik here to view..
Đương nhiên là sai, vì ta ước lượng tham số chỉ dựa vào 5 episodes. Nếu có nhiều dữ liệu hơn, có thể ước lượng của ta sẽ gần hơn với mô hình MDP đã cho.
Như vậy ta đã thấy việc ước lượng T và R từ chuỗi Image may be NSFW.
Clik here to view. là rất đơn giản. Nhưng như ta đã nói, ta sẽ tập trung vào model-free RL, nên phần này xem như là làm chơi cho biết. Ta tập trung chủ yếu vào phần sau.
2. Ước lượng Image may be NSFW.
Clik here to view.![V(s) V(s)]()
Nhắc lại rằng theo định nghĩa Image may be NSFW.
Clik here to view.. (1)
Khi áp dụng vào trong mỗi episode trong training set, vì ta quan sát được các trạng thái cho đến cuối cùng, nên không còn hàm Image may be NSFW.
Clik here to view. nữa. Chẳng hạn với chuỗi đầu tiên Image may be NSFW.
Clik here to view. thì ta có:
Image may be NSFW.
Clik here to view. (giả sử vậy đi)
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Nói chung cứ như vậy ta có thể tính được Image may be NSFW.
Clik here to view. cho mỗi episode, tuỳ vào giá trị của Image may be NSFW.
Clik here to view..
Tuy nhiên để ý rằng trong tính toán ở trên ta đã “cheat” bằng cách dùng kiến thức ta đã biết từ mô hình MDP, rằng Image may be NSFW.
Clik here to view.. Trong thực tế khi học, ta chưa biết giá trị của T, thành ra một cách “ngây thơ” nhất, ta sẽ giả sử Image may be NSFW.
Clik here to view. cho mọi s và s’. Như vậy các phép tính ở trên sẽ thành:
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Trở lại với tập huấn luyện:
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Để đơn giản hơn nữa, ta sẽ giả sử luôn là Image may be NSFW.
Clik here to view.. Như vậy có thể thấy trong episode số 1, ta có Image may be NSFW.
Clik here to view., trong episode số 2, ta có Image may be NSFW.
Clik here to view., trong episode số 3, ta có Image may be NSFW.
Clik here to view. v.v… Giả sử ta mới chỉ quan sát được 3 episode đầu tiên, thì rõ ràng với maximum likelihood, ta sẽ có Image may be NSFW.
Clik here to view..
Với episode số 4, ta có Image may be NSFW.
Clik here to view.. Ta dễ dàng ước lượng giá trị mới của Image may be NSFW.
Clik here to view. là Image may be NSFW.
Clik here to view.
Có bạn lại bảo: ủa vậy sai rồi, với Image may be NSFW.
Clik here to view., dùng công thức huyền thoại Image may be NSFW.
Clik here to view., ta sẽ tính được Image may be NSFW.
Clik here to view. (lưu ý Image may be NSFW.
Clik here to view.).
Đương nhiên là sai, vì ta mới chỉ quan sát được 4 episodes.
Một cách tổng quát hơn, gọi Image may be NSFW.
Clik here to view. là giá trị của Image may be NSFW.
Clik here to view. sau khi quan sát episode thứ T, Image may be NSFW.
Clik here to view. là reward mà agent nhận được cho trạng thái Image may be NSFW.
Clik here to view. trong episode T. Như trong ví dụ trên, khi Image may be NSFW.
Clik here to view. thì Image may be NSFW.
Clik here to view., Image may be NSFW.
Clik here to view. và Image may be NSFW.
Clik here to view..
Dùng toán phổ thông, ta có thể tính Image may be NSFW.
Clik here to view. từ Image may be NSFW.
Clik here to view. như sau:
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view. (2)
với Image may be NSFW.
Clik here to view. gọi là learning rate, và rõ ràng là Image may be NSFW.
Clik here to view. càng nhỏ khi Image may be NSFW.
Clik here to view. càng lớn (càng học nhiều episode thì Image may be NSFW.
Clik here to view. càng nhỏ).
Công thức (2) là tinh thần chung của Temporal Difference Learning. Rõ ràng ta cập nhật Image may be NSFW.
Clik here to view. với mỗi episode, dựa vào “độ lỗi” tính bởi Image may be NSFW.
Clik here to view. , được weight bằng learning rate. Độ lỗi này thực chất là sự khác biệt giữa reward trong episode mới và ước lượng hiện tại của Image may be NSFW.
Clik here to view., do đó đây được gọi là Temporal Difference Learning.
Ta sẽ phát biểu Temporal Difference Learning một cách hình thức trong bài sau.
Image may be NSFW.
Clik here to view.
Clik here to view.
