「モンテカルロ法」の版間の差分

削除された内容 追加された内容
Pxenviq (会話 | 投稿記録)
強化学習 2020年2月5日 (水) 05:40‎ へ移動
Pxenviq (会話 | 投稿記録)
編集の要約なし
39行目:
{{main|強化学習}}
[[機械学習]]の[[強化学習]]の文脈では、モンテカルロ法とは行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す<ref>{{Cite book
|last first = Richard S.
|firstlast = Sutton
|year = 1998
|title = Reinforcement Learning: An Introduction
|isbn = 978-02621939860262039246
|url = http://incompleteideas.net/book/RLbook2018trimmed.pdf
|page = 91