「モンテカルロ法」の版間の差分

編集の要約なし
(強化学習 2020年2月5日 (水) 05:40‎ へ移動)
{{main|強化学習}}
[[機械学習]]の[[強化学習]]の文脈では、モンテカルロ法とは行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す<ref>{{Cite book
|last first = Richard S.
|firstlast = Sutton
|year = 1998
|title = Reinforcement Learning: An Introduction
|isbn = 978-02621939860262039246
|url = http://incompleteideas.net/book/RLbook2018trimmed.pdf
|page = 91
1,114

回編集