2009年4月8日 (水) 00:21時点における版編集 Foobarhoge (会話 \| 投稿記録) 294 回編集編集の要約なし ← 古い編集		2009年4月8日 (水) 00:23時点における版編集取り消し Foobarhoge (会話 \| 投稿記録) 294 回編集 →‎マルコフ過程新しい編集 →
5行目: 強化学習は、学習のための適切な入力データと出力データのペアが与えられることがない、という意味からすると、[[教師あり学習]]とは異なる学習手法である。また、未知の学習領域を開拓していく行動と、既知の学習領域を利用して行動とをバランス良く選択することができるという特徴も持っている。その性質から未知の環境下での[[ロボット]]の行動獲得に良く用いられる。 ==マルコフ決定過程== '''マルコフ決定過程''' (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。 * 環境は状態を持ち、それは完全に正確に観測可能。 * エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。

「強化学習」の版間の差分