「強化学習」の版間の差分

削除された内容 追加された内容
編集の要約なし
Xqbot (会話 | 投稿記録)
m ロボットによる 追加: bg:Обучение с утвърждение; 細部の編集
5行目:
強化学習は、学習のための適切な入力データと出力データのペアが与えられることがない、という意味からすると、[[教師あり学習]]とは異なる学習手法である。また、未知の学習領域を開拓していく行動と、既知の学習領域を利用していく行動とをバランス良く選択することができるという特徴も持っている。その性質から未知の環境下での[[ロボット]]の行動獲得に良く用いられる。
 
== マルコフ決定過程 ==
'''マルコフ決定過程''' (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。
* 環境は状態を持ち、それは完全に正確に観測可能。
13行目:
環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。
 
== 連続空間 ==
基本的なモデルでは、環境の状態や行動は[[離散]]であるが、[[連続]]とするモデルもある。
 
== 神経科学 ==
[[神経科学]]においては、Schultzらが、[[黒質]]緻密部の[[ドーパミン]]作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において[[大脳基底核]]はドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。
 
27行目:
[[Category:心理学|きょうかかくしゅう]]
 
[[bg:Обучение с утвърждение]]
[[de:Bestärkendes Lernen]]
[[en:Reinforcement learning]]