「モンテカルロ法」の版間の差分
削除された内容 追加された内容
強化学習 2020年2月5日 (水) 05:40 へ移動 |
編集の要約なし |
||
39行目:
{{main|強化学習}}
[[機械学習]]の[[強化学習]]の文脈では、モンテカルロ法とは行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す<ref>{{Cite book
|
|
|year = 1998
|title = Reinforcement Learning: An Introduction
|isbn = 978-
|url = http://incompleteideas.net/book/RLbook2018trimmed.pdf
|page = 91
|