ベイズ法

ベイズ法（ベイズほう、英：Bayesian inference method）は、生物の系統進化を示す系統樹を推定する手法の一つ。ベイズの定理に基づいて尤度を通してデータを加味した事後確率分布を目的関数にとり、マルコフ連鎖モンテカルロ法を適用して事後確率分布を推定し、その期待値としての最良の樹形を選択する。ベイズ法を利用した系統推定ソフトウェアではMrBayesが代表的である^[1]。

理論編集

基本的理論編集

ベイズ法では、最尤法がベイズ推定の枠組みの中で再構築されている。最尤法ではある特定の仮定（進化モデル）の下で与えられた配列群の尤度を最大化する系統樹が最適樹として選択される。すなわち、与えられた配列に対する系統樹の枝長と進化モデルの尤度が最尤法では目的関数として取られている。一方で、ベイズ法の目的関数は、与えられた配列に対する系統樹の樹形と枝長と進化モデルの事後確率となる。最適樹は事後確率分布の最頻値を最大事後確率推定した系統樹として選択される^[2]。

ただし、特に樹形の事前分布を一様分布とした場合、最尤法による系統樹とベイズ法による系統樹はほぼ一致し、ベイズ法はむしろ最尤法で必要のない事後確率を計算する回りくどい手法となる。そこでベイズ法では単一の最適樹を求めるのではなく、複数の最適樹を事後確率と共に提示するか、あるいはそれらを統合して単一の合意樹を作成することを主目的とする。これにより、遺伝子の水平伝播などにより系統樹が一意に定まらない場合や、複数の系統仮説が求められる場合に、ベイズ法は効果を発揮することになる^[2]。

アルゴリズム編集

系統樹 $\tau _{i}$ の事前確率分布を $f(\tau _{i})$ とする。配列データXが与えられた場合の $\tau _{i}$ の事後確率分布 $P(\tau _{i}|X)$ は、 $f(X|\tau _{i})$ を最尤法により求められる尤度関数とすると、ベイズの定理に従って以下のように表される^[2]。

$P(\tau _{i}|X)={\frac {f(X|\tau _{i})f(\tau _{i})}{\sum _{j=i}^{|\tau |}f(X|\tau _{i})f(\tau _{i})}}$

なお、系統樹 $\tau _{i}$ の枝長と、その進化モデルの持つ全てのパラメータも確率分布として予測でき、実際にベイズ法で求める確率分布は分母・分子ともに枝長とパラメータの二重積分の形で表現できる^[2]。ただしいずれにせよ、分母は非常に小規模な系統樹でなければ最尤法による計算が不可能であるため、ベイズ法ではマルコフ連鎖モンテカルロ法（MCMC）を利用して近似的に計算し、同時に最適な樹形の探索も行っている^[2]。

MCMCの手順は次の通りである^[2]。

近隣結合法や最大節約法により構築された系統樹か、あるいはランダム系統樹を初期系統樹とする。初期系統樹の枝長と進化モデルのパラメータも設定し、初期系統樹の尤度を求める。
網羅的探索により新たな系統樹を作成し、枝長と進化モデルのパラメータにも変更を加え、新たな系統樹の尤度を求める。
新旧系統樹の尤度を比較して、新系統樹の尤度が大である場合に、新系統樹を採用する。新系統樹の尤度が小であるならば低い確率で新系統樹を採用するが、多くの場合は棄却し、別の新たな系統樹を作成する。
系統樹とその樹形およびパラメータを記録し、2へ戻る。このサイクルを延々と繰り返す。

手順を繰り返すうちに系統樹は定常状態に達する。定常状態に達するまでの記録は無視し、定常状態に達している記録から一定の回数ごとに標本を抽出すると、その標本は系統樹の分布に従うものになっているため、標本系統樹群から上式の分母を近似的に計算できる。こうして事後確率分布を求められる^[2]。また、ここでの樹形の出現頻度が系統樹の事後確率になる^[3]。

その後は、事後確率が最大となる単一の系統樹を選択するか、事後確率の高い順に複数の系統樹を選択して合意樹を形成する^[2]。

MrBayes 編集

ベイズ法は1996年頃からYangにより系統推定に導入され、2001年にはベイズ法を利用した系統推定ソフトウェアMrBayesが登場した^[2]。MrBayesはベイズ法を用いる系統推定ソフトウウェアの中では最も広く使用されているものである^[1]。MrBayesの登場により、より効率的なアルゴリズムや現実的な進化モデルが実装されたこともあり、ベイズ法は広く一般に普及した^[2]。

MrBayesでは、事後確率分布がある程度高い場所（局所的な最適解）でマルコフ連鎖が定常状態に達しないよう、MCMCを改良したMetropolis Coupled MCMC（MCMCMC）が採用されている。MCMCMCでは複数本のMCMCを走らせており、そのうち1本をcold chain、残りをhot chainとする。cold chainは元々のMCMCであり、局所的な最適解を脱出しにくい一方で、膨大な時間をかければ正しい事後確率分布に収束する。hot chain では目標分布が平坦化されており、系統樹が撹乱を受けるため、正しい事後確率分布への収束の保証を破棄する一方で局所的な最適解からの脱出率を高めている。また、一定回数ごとに異なるchain同士の変数を交換し、脱出を容易にしつつ収束の効率を高めてもいる^[2]^[3]。

特徴編集

ベイズ法は複雑な進化モデルを仮定しても最尤法よりも計算時間を必要としないという長所がある^[1]。ただし、近隣結合法や最大節約法と比較すれば時間を要する。また、事後確率が過大評価される点も懸念されている^[4]。

出典編集

^ ^a ^b ^c 三中信宏「分子系統学：最近の進歩と今後の展望」『植物防疫』第63巻第3号、日本植物防疫協会、2009年、192-196頁。
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k 松井求「分子系統解析の最前線」『JSBi Bioinformatics Review』第2巻第1号、2021年、30-57頁、doi:10.11234/jsbibr.2021.7。
^ ^a ^b 仲田崇志 (2006年6月4日). “Bayes 法（ベイズ法）の原理”. 2021年10月29日閲覧。
^ 飯野隆夫、伊藤隆「微生物の系統樹，どう描くの？」『生物工学会誌』第91巻第10号、日本生物工学会、2013年、576-581頁。

外部リンク編集

Bayes 法（ベイズ法）の原理 - 仲田崇志

[三中2009-1] 三中信宏「分子系統学：最近の進歩と今後の展望」『植物防疫』第63巻第3号、日本植物防疫協会、2009年、192-196頁。

[松井2021-2] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k 松井求「分子系統解析の最前線」『JSBi Bioinformatics Review』第2巻第1号、2021年、30-57頁、doi:10.11234/jsbibr.2021.7。

[仲田2006-3] 仲田崇志 (2006年6月4日). “Bayes 法（ベイズ法）の原理”. 2021年10月29日閲覧。

[4] 飯野隆夫、伊藤隆「微生物の系統樹，どう描くの？」『生物工学会誌』第91巻第10号、日本生物工学会、2013年、576-581頁。

[1]

[2]

[3]

[4]

ベイズ法

目次

理論編集

基本的理論編集

アルゴリズム編集

MrBayes 編集

特徴編集

出典編集

関連項目編集

外部リンク編集

ベイズ法

理論 編集

基本的理論 編集

アルゴリズム 編集

MrBayes 編集

特徴 編集

出典 編集

関連項目 編集

外部リンク 編集

理論編集

基本的理論編集

アルゴリズム編集

特徴編集

出典編集

関連項目編集

外部リンク編集