2020年2月6日 (木) 09:57時点における版編集 Pxenviq (会話 \| 投稿記録) 1,114 回編集編集の要約なし ← 古い編集		2020年2月6日 (木) 10:02時点における版編集取り消し Pxenviq (会話 \| 投稿記録) 1,114 回編集 en:State–action–reward–state–action 22:44, 3 December 2019‎ からコピー新しい編集 →
34行目: === SARSA === SARSA（[[:en:state–action–reward–state–action\|state–action–reward–state–action]]）は方策オン型のTD学習。 :<math>Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t} + \gamma Q(s_{t+1}, a_{t+1})-Q(s_t,a_t)]</math> === Q学習 ===

「強化学習」の版間の差分