ベイジアンゲーム

ベイジアンゲーム (英: bayesian game) とは、他のプレーヤーの特性 (利得など) に関する情報が不完備であるゲームである。ジョン・ハーサニの枠組みに従うと^[1]、ベイジアンゲームは、ゲームに自然 (Nature) というプレーヤーを導入することでモデル化できる。自然は各プレーヤーに、そのプレーヤーのタイプの値をとる確率変数を割りあて、それらのタイプの上に確率ないし確率密度関数を関連づける (ゲーム理論の教科書では、自然は各プレーヤーのタイプ空間の上の確率分布に従ってタイプを無作為に選ぶとする)。このようにベイジアンゲームをモデル化するハーサニの手法では、不完備情報のゲームは不完全情報のゲーム (すべてのプレーヤーにとってゲームの歴史がわからないもの) に変えられている。プレーヤーのタイプはそのプレーヤーの利得関数を決定する。そのタイプに関連づけられる確率は、そのタイプが特定化されるプレーヤーがそのタイプである確率である。ベイジアンゲームで情報の不完備性というのは、少なくとも1人のプレーヤーが他のプレーヤーのタイプ (利得関数) について確信がないということを意味している。

このようなゲームは、ゲームに備わっている確率的分析のためにベイジアンと呼ばれている。プレーヤーたちは各プレーヤーのタイプについて事前の信念をもっており (ここで信念とは、プレーヤーのとりうるタイプの上の確率分布)、ゲームにおいて行動がとられるにつれてベイズルールに従って信念を更新しうる、すなわち、他のプレーヤーのタイプについてプレーヤーがもつ信念は、プレーヤーたちがとった行動にもとづいて変化していく。プレーヤーたちがもっている情報の不足と、信念のモデリングとは、このようなゲームが不完備情報のシナリオを分析するためにも使えることを意味している。

ゲームの特徴づけ

完備情報の非ベイジアンゲームの正規形表現は、プレーヤーたちの戦略空間と利得関数の特徴づけになっている。プレーヤーの戦略とは、ゲームで起こりうるあらゆる事態に対応する行動の完全な計画であり、これは決して起こりえない事態についてもそのときとるべき行動を定めたものである。プレーヤーの戦略空間は、このプレーヤーがとりうるすべての戦略の集合である。利得関数は、戦略プロファイルの集合から利得の集合 (通常、実数の集合) への関数である。ここに戦略プロファイルとは、すべてのプレーヤーの戦略を特定化したベクトル (組) である。

ベイジアンゲームにおいては、戦略空間、タイプ空間、利得関数、および信念を、各プレーヤーについて特定化する必要がある。プレーヤーの戦略とは、そのプレーヤーがなるかもしれないすべてのタイプについて、起こりうるあらゆる事態をカバーするような行動の完全な計画である。戦略は、実際に実現したタイプを 1 つ所与としてそれについてだけの行動計画であってはならず、もし自分がほかのタイプになっていたならばとったであろう行動をも定めたものでなければならない。戦略空間は前述のとおり。プレーヤーのタイプ空間とは、単にそのプレーヤーのとりうるタイプすべての集合である。プレーヤーの信念は、他のプレーヤーのタイプに関して自分がもっている不確実性を記述したものである。それぞれの信念は、その信念をもつプレーヤー自身のタイプを所与として、他のプレーヤーたちが特定のタイプをもっていることの確率である (すなわち、信念とは条件つき確率 p (他のプレーヤーのタイプ | 自分のタイプ))。利得関数は戦略プロファイルとタイププロファイルの2変数関数である。プレーヤーが利得関数 $U(x,y)$ をもち、そのタイプが $t$ であるならば、このプレーヤーが受けとる利得は $U(x^{*},t)$ となる。ここに $x^{*}$ はゲームでとられる戦略プロファイル (戦略の組)。

そのようなゲームの形式的な定義は次のようになるだろう：

ゲームは $G=\langle N,\Omega ,\langle A_{i},u_{i},T_{i},\tau _{i},p_{i},C_{i}\rangle _{i\in N}\rangle$ で定められる。ここに、

$N$ はプレーヤーの集合；
$\Omega$ は自然の状態の集合、たとえばカードゲームではカードの任意の並び順；
$A_{i}$ はプレーヤー $i$ の行動集合で、 $A=A_{1}\times A_{2}\times \cdots \times A_{N}$ とする；
$T_{i}$ はプレーヤー $i$ のタイプ集合で、関数 $\tau _{i}:\Omega \to T_{i}$ によって決定される。自然の各状態について、ゲームでプレーヤーは異なるタイプをもつ。プレーヤーたちの帰結はタイプを決定するものである。同じ帰結をもつプレーヤーは同じタイプに属する；
$C_{i}\subseteq A_{i}\times T_{i}$ は、プレーヤー $i$ の $T_{i}$ に属するタイプがとりうる行動を定める；
$u_{i}:\Omega \times A\to R$ はプレーヤー $i$ の利得関数。より形式的には、 $L=\{(\omega ,a_{1},\ldots ,a_{N})\mid \omega \in \Omega ,\forall i,(a_{i},\tau _{i}(\omega ))\in C_{i}\}$ で、 $u_{i}:L\to R$ ；
$p_{i}$ はプレーヤー $i$ にとっての $\Omega$ 上の確率分布で、各プレーヤーは自然の状態の確率分布について異なる見解をもっていてよい。ゲームにおいては、彼らは自然の正確な状態を知ることはできない。

純粋戦略 $s_{i}:T_{i}\to A_{i}$ は，すべての $t_{i}$ について $(s_{i}(t_{i}),t_{i})\in C_{i}$ を満たしていなければならない。したがって各プレーヤーの戦略はそのプレーヤーのタイプにのみ依存する。他のプレーヤーのタイプについては一切の知識を持たないかもしれないからである。戦略プロファイルが与えるプレーヤー $i$ の期待利得は、 $u_{i}(S)=E_{\omega \sim p_{i}}[u_{i}(\omega ,s_{1}(\tau _{1}(\omega )),\ldots ,s_{N}(\tau _{N}(\omega )))]$ となる。

$S_{i}$ を純粋戦略の集合とする： $S_{i}=\{s_{i}:T_{i}\rightarrow A_{i}\mid (s_{i}(t_{i}),t_{i})\in C_{i},\forall t_{i}\}.$

ゲーム $G$ のベイジアン均衡は、ゲーム ${\hat {G}}=\langle N,{\hat {A}}=S_{1}\times \cdots \times S_{N},{\hat {u}}=u\rangle$ の (混合戦略かもしれない) ナッシュ均衡として定義される。したがって、有限ゲーム $G$ については、ベイジアン均衡は常に存在する。

シグナリング

シグナリングゲームはベイジアンゲームの一例である。このようなゲームで、情報を持った側の参加者 (「エージェント」) は自分のタイプを知っており、そうでない側の参加者 (「プリンシパル」) はエージェントのタイプを知らない。こうしたゲームにおいては、「分離均衡」として知られる均衡において、プリンシパルがエージェントのタイプを、エージェントがとる行動 (プリンシパルに送るシグナルという形をとる) にもとづいて推論することができる場合がある。

シグナリングゲームの特別の例が労働市場のモデルである。プレーヤーは求職者 (エージェント) と雇用者 (プリンシパル) である。求職者には2つのタイプがあり、有能と無能とする。雇用者は求職者がそのどちらであるのかを知らないが、求職者の90%は無能であり10%が有能であることは知っているとする (「有能」タイプの確率が 0.1 で、「無能」タイプの確率が 0.9)。

雇用者の行動空間は自然数の集合とし、これは賃金を表すものとする。賃金は、求職者がどの程度有能と期待されるかにもとづき、契約をする際に用いられる。有能な労働者により大きな賃金を支払うことは、雇用者により大きな利得をもたらすだろうが、無能な労働者に賃金が支払われてしまうと、あまり成果は上がらないであろう。したがって雇用者の利得は、(もし契約が引きうけられるならば) 求職者の能力と、支払う賃金とによって決定される。重要なこととして、雇用者は、求職者がどの程度有能かに関する自分の信念に従って行動 (提示する賃金) を選択するのだが、この信念は求職者から送られるシグナルを通して大部分決定されるということである。

求職者の行動空間は、大学教育を受けるか大学に行かないかの2つの行動からなるものとする。有能な労働者にとっては、奨学金を受けられるからとか、授業があまり苦でないとかの理由で、大学教育を受けることのコストが低いとしよう。こうして大学教育が、求職者が雇用者に対して自分が実際に有能であるということを伝えうる手段、「シグナル」になる。

雇用者がとるかもしれないひとつの戦略は、有能な求職者ならば (その教育を受けるコストの低さのために) 大学に行くに足るけれども無能な求職者にとっては十分でないような賃金を、全求職者に与えるというものである。これは分離均衡 (separating equilibrium) を生みだす：このとき有能な求職者は大学に行くことで自分の能力を示すことができ、無能な求職者はそうしない。雇用者は、どの労働者が大学に行けるかを観察でき、それゆえ有能な労働者に高い賃金、無能な労働者に低い賃金を支払うことで、自分の利得を最大化することができる。

ベイジアン・ナッシュ均衡

ベイジアンでないゲームにおいて、戦略プロファイルがナッシュ均衡であるとは、その戦略プロファイルにおける各人の戦略が、他のプレーヤーたちの戦略に対して最適反応になっている、すなわち、他のプレーヤーの戦略を所与としてさらに高い利得をあげうる戦略が存在しないことをいう。ベイジアンゲームにおいては (プレーヤーたちはリスク中立的であるとされており)、合理的なプレーヤーは、他のプレーヤーに関する自分の信念を所与として、自分の期待利得を最大化しようとする (プレーヤーがリスク回避的ないしリスク愛好的であるような一般のケースでは、仮定は、プレーヤーは期待効用最大化主体であるというものである)。

ベイジアン・ナッシュ均衡は、戦略プロファイルと、各プレーヤーにとっての他のプレーヤーのタイプに関する信念であって、他のプレーヤーのタイプに関する信念と他のプレーヤーの戦略とを所与として期待利得を最大化するものとして定義される。

この解概念は、プレーヤーたちの信念についてさらなる制約が課されないかぎり、動学ゲームにおいては多数の均衡を生みだす。このために、不完備情報の動学ゲームを分析するにあたってはベイジアン・ナッシュ均衡は不完全な道具になっている。

完全ベイズ均衡

プレーヤーたちが同時でなく逐次的に手番をもつ動学的なゲームでは、ベイジアン・ナッシュ均衡はもっともらしくない均衡を生むこともある。同様に、もっともらしくない均衡は、情報が完全で完備なゲームにおいて信用できない脅しや約束のようにもっともらしくないナッシュ均衡が起こるのと同じようにして生じるかもしれない。そのような均衡は、完全・完備情報のゲームにおいては、部分ゲーム完全均衡を導入することで排除されえた。しかしながら、不完備情報のゲームにおいては、この解概念を活用することはかならずしも可能ではない。なぜならば、こうしたゲームでは、1点集合でない情報集合を含んでおり、部分ゲームというのは情報集合の全体を包含していなければならないのであったから、時としてゲームが1つしか部分ゲームをもたず (全体ゲームが唯一の部分ゲームになり)、すべてのナッシュ均衡が自明に部分ゲーム完全となってしまうということがあるからである。サブゲーム完全化では情報集合を切ることができないということのために、ゲームが2つ以上の部分ゲームをもつ場合でさえも、もっともらしくない均衡が排除されずに残ってしまうということがありうる。

ベイジアン・ナッシュ均衡概念やサブゲーム完全化によって生みだされる均衡を精緻化するには、完全ベイズ均衡の概念が使えるかもしれない。完全ベイズ均衡には、続きプレーが最適であるべしというサブゲーム完全化の精神がある。しかし、1点集合でない情報集合における手番では、より満足のゆく扱いがなされるように、決定節に関するプレーヤーの信念を定める。

これまでベイジアンゲームについて議論してきたところでは、情報は完全である (あるいは不完全のときは手番は同時的である) と仮定してきた。しかし、動学的なゲームを調べるにあたっては、不完備情報をモデル化する手段が必要になる。完全ベイズ均衡はこの手段を提供する：プレーヤーたちは、自分の情報集合において生起するノードに信念を定める。このことは、情報集合が自然 (不完備情報の場合) または他のプレーヤー (不完全情報の場合) によって生成されうることを意味する。

信念の体系

ベイジアンゲームにおいて各プレーヤーがもつ信念は、完全ベイズ均衡においてはより厳密に計算される。信念の体系は、任意の情報集合においてそのなかでの確率の和が1になるように、ゲームの各ノードに確率を割りあてるものである。プレーヤーの信念は、そのプレーヤーが手番をもつすべての情報集合において、ノードの上のこうした確率分布である (プレーヤーの信念は、そのプレーヤーの情報集合の和集合から [0, 1] への関数として書かれることもある)。信念の体系が所与の戦略プロファイルと整合的であるとは、その体系によって各ノードに割りあてられる確率が、その戦略プロファイルを所与としてそのノードに到達する確率としてベイズルールを用いて計算されたものになっているときをいう。

逐次合理性

逐次合理性の概念は、完全ベイズ均衡における続きプレーの最適性を決定するものである。戦略プロファイルが、特定の信念の体系に対して、ある特定の情報集合において逐次合理的であるとは、その情報集合において手番をもつプレーヤーの期待利得が、他のプレーヤーの戦略を所与として最大であることをいう。すべての情報集合について前記が成りたつとき、その戦略プロファイルは、この特定の信念の体系に対して逐次合理的であるという。

定義

完全ベイズ均衡とは、戦略プロファイルと信念の体系であって、戦略が信念の体系を所与として逐次合理的であり、信念の体系が戦略プロファイルを所与として到達しうるすべての部分で整合的であるものをいう。

「到達しうるすべての部分で」という句を明記することは必要である。なぜならば、戦略プロファイルを所与としたときある情報集合は到達不可能かもしれないが、そのときにはその集合のなかの点について確率を計算するさいにベイズルールを用いることができないからである。このような情報集合は均衡経路外 (off the equilibrium path) といわれ、どんな信念も割りあてうる。より強い整合性の概念では、経路外の情報集合についても「合理的」であるようにさらなる制約が課される。

参考文献

^ Harsanyi, John C., 1967/1968. "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III).

[1] Harsanyi, John C., 1967/1968. "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III).

[1]