「モンテカルロ法」の版間の差分

強化学習 2020年2月5日 (水) 05:40‎ へ移動
(強化学習 2020年2月5日 (水) 05:40‎ へ移動)
積分の計算法には他に[[台形公式]]・[[シンプソンの公式]]・[[二重指数関数型数値積分公式]]等があるが、モンテカルロ法はこれらの手法より多次元問題の際に利用しやすく、誤差が少ない。
 
== 機械強化学習 ==
{{main|強化学習}}
[[機械学習]]の分野におけるモンテカルロ法とは[[強化学習]]の一種{{要出典|date=2019年3月}}で、行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す。この方法はある状態 ''s'' から、得られる報酬の合計を予測しそれを基に状態の価値と次に行う行動を決定する。状態価値を ''V''(''s'')、行動価値を ''Q''(''s'', ''a'') で表す(ここで ''a'' は状態 ''s'' で行う行動である)とき、モンテカルロ法は以下の式で値を更新する。
[[機械学習]]の[[強化学習]]の文脈では、モンテカルロ法とは行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す<ref>{{Cite book
 
|last = Richard S.
: <math> V(s) \leftarrow V(s) + \alpha\left[R_t - V(s)\right] </math>
|first = Sutton
: <math> Q(s, a) \leftarrow Q(s, a) + \alpha\left[R_t - Q(s, a)\right] </math>
|year = 1998
ここで、αは学習率(0 < α < 1)である。また ''R<sub>t</sub>'' はシミュレーションによって得られる報酬の総和を未来に得られる分、割り引いたものであり、以下の式で表される。
|title = Reinforcement Learning: An Introduction
: <math> R_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dotsb = \sum^{\infty}_{\tau = 0}\gamma^{\tau}r_{t+1+\tau}</math>
|isbn = 978-0262193986
ここで ''r<sub>t</sub>'' は時刻 ''t'' で得られた報酬であり、γ は割引率 (0 < γ < 1) である。モンテカルロ法はある状態 ''s'' から何らかの方策で次の行動を選び、''R<sub>t</sub>'' が収束するまでそれを繰り返した後、''V''(''s'') と ''Q''(''s'', ''a'') を更新するという行動を繰り返して最適な状態および行動を学習する。
|url = http://incompleteideas.net/book/RLbook2018trimmed.pdf
|page = 91
}}</ref>。
 
==統計学==
1,114

回編集