「ベイジアンゲーム」の版間の差分

編集の要約なし
{{出典の明記|date=2016-9}}
'''ベイジアンゲーム''' ({{lang-en-short|bayesian game}}) とは他のプレーヤーの特性 (利得など) に関する情報が不完備であるゲームである[[ジョン・ハーサニ]]の枠組みに従うと<ref>Harsanyi, John C., 1967/1968. "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III).</ref>ベイジアンゲームはゲームに自然 (Nature) というプレーヤーを導入することでモデル化できる自然は各プレーヤーにそのプレーヤーのタイプの値をとる確率変数を割りあてそれらのタイプの上に確率ないし確率密度関数を関連づける (ゲーム理論の教科書では自然は各プレーヤーのタイプ空間の上の確率分布に従ってタイプを無作為に選ぶとする)このようにベイジアンゲームをモデル化するハーサニの手法では不完備情報のゲームは不完全情報のゲーム (すべてのプレーヤーにとってゲームの歴史がわからないもの) に変えられているプレーヤーのタイプはそのプレーヤーの利得関数を決定するそのタイプに関連づけられる確率はそのタイプが特定化されるプレーヤーがそのタイプである確率であるベイジアンゲームで情報の不完備性というのは少なくとも 1 人のプレーヤーが他のプレーヤーのタイプ (利得関数) について確信がないということを意味している
 
このようなゲームはゲームに備わっている確率的分析のためにベイジアンと呼ばれているプレーヤーたちは各プレーヤーのタイプについて事前の信念をもっており (ここで信念とはプレーヤーのとりうるタイプの上の確率分布)ゲームにおいて行動がとられるにつれて[[ベイズの定理|ベイズルール]]に従って信念を更新しうるすなわち他のプレーヤーのタイプについてプレーヤーがもつ信念はプレーヤーたちがとった行動にもとづいて変化していくプレーヤーたちがもっている情報の不足と信念のモデリングとはこのようなゲームが不完備情報のシナリオを分析するためにも使えることを意味している
 
== ゲームの特徴づけ ==
[[完全情報ゲーム|完備情報]]の非ベイジアンゲームの[[標準型ゲーム|正規形表現]]はプレーヤーたちの戦略空間と利得関数の特徴づけになっているプレーヤーの戦略とはゲームで起こりうるあらゆる事態に対応する行動の完全な計画でありこれは決して起こりえない事態についてもそのときとるべき行動を定めたものであるプレーヤーの戦略空間はこのプレーヤーがとりうるすべての戦略の集合である利得関数は戦略プロファイルの集合から利得の集合 (通常実数の集合) への関数であるここに戦略プロファイルとはすべてのプレーヤーの戦略を特定化したベクトル (組) である
 
ベイジアンゲームにおいては戦略空間タイプ空間利得関数および信念を各プレーヤーについて特定化する必要があるプレーヤーの戦略とはそのプレーヤーがなるかもしれないすべてのタイプについて起こりうるあらゆる事態をカバーするような行動の完全な計画である戦略は実際に実現したタイプを 1 つ所与としてそれについてだけの行動計画であってはならずもし自分がほかのタイプになっていたならばとったであろう行動をも定めたものでなければならない戦略空間は前述のとおりプレーヤーのタイプ空間とは,たん、単にそのプレーヤーのとりうるタイプすべての集合であるプレーヤーの信念は他のプレーヤーのタイプに関して自分がもっている不確実性を記述したものであるそれぞれの信念はその信念をもつプレーヤーじしん自身のタイプを所与として他のプレーヤーたちが特定のタイプをもっていることの確率である (すなわち信念とは条件つき確率 ''p'' (他のプレーヤーのタイプ | 自分のタイプ)). 利得関数は戦略プロファイルとタイププロファイルの 2 変数関数であるプレーヤーが利得関数 <math>U (x, y)</math> をもちそのタイプが <math>t</math> であるならばこのプレーヤーが受けとる利得は <math>U (x^*, t)</math> となるここに <math>x^*</math> はゲームでとられる戦略プロファイル (戦略の組)
 
そのようなゲームの形式的な定義は次のようになるだろう:
 
ゲームは <math>G = \langle N, \Omega, \langle A_i, u_i, T_i, \tau_i, p_i, C_i \rangle_{i\in N} \rangle</math> で定められるここに
# <math>N</math> はプレーヤーの集合;
# <math>\Omega</math> は自然の状態の集合たとえばカードゲームではカードの任意の並び順;
# <math>A_i</math> はプレーヤー <math>i</math> の行動集合で<math>A = A_1 \times A_2 \times \cdots \times A_N</math> とする;
# <math>T_i</math> はプレーヤー <math>i</math> のタイプ集合で関数 <math>\tau_i: \Omega \to T_i</math> によって決定される自然の各状態についてゲームでプレーヤーは異なるタイプをもつプレーヤーたちの帰結はタイプを決定するものである同じ帰結をもつプレーヤーは同じタイプに属する;
# <math>C_i \subseteq A_i \times T_i</math> はプレーヤー <math>i</math> の <math>T_i</math> に属するタイプがとりうる行動を定める;
# <math>u_i: \Omega \times A \to R</math> はプレーヤー <math>i</math> の利得関数より形式的には<math>L = \{ (\omega, a_1, \ldots, a_N) \mid \omega \in \Omega, \forall i, (a_i, \tau_i (\omega)) \in C_i \}</math> で<math>u_i: L \to R</math>;
# <math>p_i</math> はプレーヤー <math>i</math> にとっての <math>\Omega</math> 上の確率分布で各プレーヤーは自然の状態の確率分布について異なる見解をもっていてよいゲームにおいては彼らは自然の正確な状態を知ることはできない
 
純粋戦略 <math>s_i: T_i \to A_i</math> は,すべての <math>t_i</math> について <math>(s_i (t_i), t_i) \in C_i</math> をたしていなければならないしたがって各プレーヤーの戦略はそのプレーヤーのタイプにのみ依存する他のプレーヤーのタイプについてはいっさい一切の知識をたないかもしれないからである戦略プロファイルが与えるプレーヤー <math>i</math> の期待利得は<math>u_i (S) = E_{\omega \sim p_i} [u_i (\omega, s_1 (\tau_1 (\omega)), \ldots, s_N (\tau_N (\omega)))]</math> となる
 
<math>S_i</math> を純粋戦略の集合とする:<math>S_i = \{ s_i: T_i \rightarrow A_i \mid (s_i (t_i) ,t_i) \in C_i, \forall t_i \}.</math>
 
ゲーム <math>G</math> のベイジアン均衡はゲーム <math>\hat G = \langle N, \hat A = S_1 \times \cdots \times S_N, \hat u = u \rangle</math> の (混合戦略かもしれない) ナッシュ均衡として定義されるしたがって有限ゲーム <math>G</math> についてはベイジアン均衡はつねに存在する
 
== シグナリング ==
[[シグナリングゲーム]]はベイジアンゲームの一例であるこのようなゲームで情報をったがわの参加者 (「'''エージェント'''」) は自分のタイプを知っておりそうでないほうの参加者 (「'''プリンシパル'''」) はエージェントのタイプを知らないこうしたゲームにおいては「分離均衡」として知られる均衡においてプリンシパルがエージェントのタイプをエージェントがとる行動 (プリンシパルに送るシグナルという形をとる) にもとづいて推論することができる場合がある
 
シグナリングゲームの特別の例が労働市場のモデルであるプレーヤーは求職者 (エージェント) と雇用者 (プリンシパル) である求職者には 2 つのタイプがあり有能と無能とする雇用者は求職者がそのどちらであるのかを知らないが求職者の 90 % は無能であり 10 % が有能であることは知っているとする (「有能」タイプの確率が 0.1 で「無能」タイプの確率が 0.9)
 
雇用者の行動空間は自然数の集合としこれは賃金を表すものとする賃金は求職者がどの程度有能と期待されるかにもとづき契約をするさいに用いられる有能な労働者により大きな賃金を支払うことは雇用者により大きな利得をもたらすだろうが無能な労働者に賃金が支払われてしまうとあまり成果は上がらないであろうしたがって雇用者の利得は(もし契約が引きうけられるならば) 求職者の能力と支払う賃金とによって決定される重要なこととして雇用者は求職者がどの程度有能かに関する自分の信念に従って行動 (提示する賃金) を選択するのだがこの信念は求職者から送られるシグナルを通して大部分決定されるということである
 
求職者の行動空間は大学教育を受けるか大学に行かないかの 2 つの行動からなるものとする有能な労働者にとっては奨学金を受けられるからとか授業があまり苦でないとかの理由で大学教育を受けることのコストが低いとしようこうして大学教育が求職者が雇用者に対して自分が実際に有能であるということを伝えうる手段「シグナル」になる
 
雇用者がとるかもしれないひとつの戦略は有能な求職者ならば (その教育を受けるコストの低さのために) 大学に行くに足るけれども無能な求職者にとっては十分でないような賃金を全求職者に与えるというものであるこれは'''分離均衡''' (separating equilibrium) を生みだす:このとき有能な求職者は大学に行くことで自分の能力を示すことができ無能な求職者はそうしない雇用者はどの労働者が大学に行けるかを観察できそれゆえ有能な労働者に高い賃金無能な労働者に低い賃金を支払うことで自分の利得を最大化することができる
 
== ベイジアン・ナッシュ均衡 ==
ベイジアンでないゲームにおいて戦略プロファイルが[[ナッシュ均衡]]であるとはその戦略プロファイルにおける各人の戦略が他のプレーヤーたちの戦略に対して最適反応になっているすなわち他のプレーヤーの戦略を所与としてさらに高い利得をあげうる戦略が存在しないことをいうベイジアンゲームにおいては (プレーヤーたちはリスク中立的であるとされており)合理的なプレーヤーは他のプレーヤに関する自分の信念を所与として自分の期待利得を最大化しようとする (プレーヤーがリスク回避的ないしリスク愛好的であるような一般のケースでは仮定はプレーヤーは[[期待効用最大化]]主体であるというものである)
 
'''ベイジアン・ナッシュ均衡'''は戦略プロファイルと各プレーヤーにとっての他のプレーヤーのタイプに関する信念であって他のプレーヤーのタイプに関する信念と他のプレーヤーの戦略とを所与として期待利得を最大化するものとして定義される
 
この解概念はプレーヤーたちの信念についてさらなる制約が課されないかぎり動学ゲームにおいては多数の均衡を生みだすこのために不完備情報の動学ゲームを分析するにあたってはベイジアン・ナッシュ均衡は不完全な道具になっている
 
== 完全ベイズ均衡 ==
プレーヤーたちが同時でなく逐次的に手番をもつ動学的なゲームではベイジアン・ナッシュ均衡はもっともらしくない均衡を生むこともある同様にもっともらしくない均衡は情報が完全で完備なゲームにおいて[[時間的不整合性|信用できない脅しや約束]]のようにもっともらしくないナッシュ均衡が起こるのと同じようにして生じるかもしれないそのような均衡は完全・完備情報のゲームにおいては[[部分ゲーム完全均衡]]を導入することで排除されえたしかしながら不完備情報のゲームにおいてはこの解概念を活用することはかならずしも可能ではないなぜならばこうしたゲームでは,1 、1点集合でない情報集合を含んでおり[[部分ゲーム]]というのは情報集合の全体を包含していなければならないのであったから時としてゲームが 1 つしか部分ゲームをもたず (全体ゲームが唯一の部分ゲームになり)すべてのナッシュ均衡が自明に部分ゲーム完全となってしまうということがあるからであるサブゲーム完全化では情報集合を切ることができないということのためにゲームが 2 つ以上の部分ゲームをもつ場合でさえももっともらしくない均衡が排除されずに残ってしまうということがありうる
 
ベイジアン・ナッシュ均衡概念やサブゲーム完全化によって生みだされる均衡を精緻化するには'''完全ベイズ均衡'''の概念が使えるかもしれない完全ベイズ均衡には続きプレーが最適であるべしというサブゲーム完全化の精神があるしかし,1 、1点集合でない情報集合における手番ではより満足のゆく扱いがなされるように決定節に関するプレーヤーの信念を定める
 
これまでベイジアンゲームについて議論してきたところでは情報は完全である (あるいは不完全のときは手番は同時的である) と仮定してきたしかし動学的なゲームを調べるにあたっては不完備情報をモデル化する手段が必要になる完全ベイズ均衡はこの手段を提供する:プレーヤーたちは自分の情報集合において生起するノードに信念を定めるこのことは情報集合が自然 (不完備情報の場合) または他のプレーヤー (不完全情報の場合) によって生成されうることを意味する
 
=== 信念の体系 ===
ベイジアンゲームにおいて各プレーヤーがもつ信念は完全ベイズ均衡においてはより厳密に計算される信念の体系は任意の情報集合においてそのなかでの確率の和が 1 になるようにゲームの各ノードに確率を割りあてるものであるプレーヤーの信念はそのプレーヤーが手番をもつすべての情報集合においてノードの上のこうした確率分布である (プレーヤーの信念はそのプレーヤーの情報集合の和集合から [0, 1] への関数として書かれることもある)信念の体系が所与の戦略プロファイルと'''整合的'''であるとはその体系によって各ノードに割りあてられる確率がその戦略プロファイルを所与としてそのノードに到達する確率として[[ベイズの定理|ベイズルール]]を用いて計算されたものになっているときをいう
 
=== 逐次合理性 ===
逐次合理性の概念は完全ベイズ均衡における続きプレーの最適性を決定するものである戦略プロファイルが特定の信念の体系に対してある特定の情報集合において'''逐次合理的'''であるとはその情報集合において手番をもつプレーヤーの期待利得が他のプレーヤーの戦略を所与として最大であることをいうすべての情報集合について前記が成りたつときその戦略プロファイルはこの特定の信念の体系に対して逐次合理的であるという
 
=== 定義 ===
完全ベイズ均衡とは戦略プロファイルと信念の体系であって戦略が信念の体系を所与として逐次合理的であり信念の体系が戦略プロファイルを所与として到達しうるすべての部分で整合的であるものをいう
 
「到達しうるすべての部分で」という句を明記することは必要であるなぜならば戦略プロファイルを所与としたときある情報集合は到達不可能かもしれないがそのときにはその集合のなかの点について確率を計算するさいにベイズルールを用いることができないからであるこのような情報集合は'''均衡経路外''' (off the equilibrium path) といわれどんな信念も割りあてうるより強い整合性の概念では経路外の情報集合についても「合理的」であるようにさらなる制約が課される
 
<!-- 翻訳途中