1,114
回編集
(en:State–action–reward–state–action 22:44, 3 December 2019 からコピー) |
(Q学習 2018年3月21日 (水) 01:56 からコピー) |
||
=== SARSA ===
SARSA([[:en:state–action–reward–state–action|state–action–reward–state–action]])は方策オン型のTD学習。
:<math>Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1} + \gamma Q(s_{t+1}, a_{t+1})-Q(s_t,a_t)]</math>
=== Q学習 ===
{{main|Q学習}}
Q学習([[:en:Q-learning|Q-learning]])は方策オフ型のTD学習。
:<math>Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha\left[r_{t+1} + \gamma\max_pQ(s_{t+1}, p) - Q(s_t,a_t)\right]</math>
== 連続空間 ==
|
回編集