「強化学習」の版間の差分

編集の要約なし
: <math> R_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dotsb = \sum^{\infty}_{\tau = 0}\gamma^{\tau}r_{t+1+\tau}</math>
ここで ''r<sub>t</sub>'' は時刻 ''t'' で得られた報酬であり、γ は割引率 (0 < γ < 1) である。モンテカルロ法はある状態 ''s'' から何らかの方策で次の行動を選び、''R<sub>t</sub>'' が収束するまでそれを繰り返した後、''V''(''s'') と ''Q''(''s'', ''a'') を更新するという行動を繰り返して最適な状態および行動を学習する。
 
== TD学習 ==
TD学習([[:en:temporal difference learning|temporal difference learning]])はエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。
 
=== SARSA ===
SARSA([[:en:state–action–reward–state–action|state–action–reward–state–action]])は方策オン型のTD学習。
 
=== Q学習 ===
{{main|Q学習}}
Q学習([[:en:Q-learning|Q-learning]])は方策オフ型のTD学習。
 
== 連続空間 ==
1,114

回編集