「強化学習」の版間の差分

削除された内容 追加された内容
Foobarhoge (会話 | 投稿記録)
編集の要約なし
Foobarhoge (会話 | 投稿記録)
5行目:
強化学習は、学習のための適切な入力データと出力データのペアが与えられることがない、という意味からすると、[[教師あり学習]]とは異なる学習手法である。また、未知の学習領域を開拓していく行動と、既知の学習領域を利用して行動とをバランス良く選択することができるという特徴も持っている。その性質から未知の環境下での[[ロボット]]の行動獲得に良く用いられる。
 
==マルコフ決定過程==
'''マルコフ決定過程''' (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。
* 環境は状態を持ち、それは完全に正確に観測可能。
* エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。