2020年2月5日 (水) 05:43時点における版編集 Pxenviq (会話 \| 投稿記録) 1,114 回編集強化学習 2020年2月5日 (水) 05:40‎ へ移動 ← 古い編集		2020年2月6日 (木) 14:23時点における版編集取り消し Pxenviq (会話 \| 投稿記録) 1,114 回編集編集の要約なし新しい編集 →
39行目: {{main\|強化学習}} [[機械学習]]の[[強化学習]]の文脈では、モンテカルロ法とは行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す<ref>{{Cite book \|~~last~~ first = Richard S. \|~~first~~last = Sutton \|year = 1998 \|title = Reinforcement Learning: An Introduction \|isbn = 978-~~0262193986~~0262039246 \|url = http://incompleteideas.net/book/RLbook2018trimmed.pdf \|page = 91

「モンテカルロ法」の版間の差分