ボンフェローニ補正

統計学において、ボンフェローニ補正（ボンフェローニほせい、英: Bonferroni correction）は、多重比較問題に対抗するために使われるいくつかの手法のうちの1つである。

背景

本手法の名称はボンフェローニの不等式^[1]を使用することにちなむ。本手法の信頼区間への拡張はオリーブ・ジーン・ダン（英語版）によって提唱された^[2]。

統計的仮説検定は、観察されたデータの帰無仮説の下での尤度が低ければ帰無仮説を棄却することに基づく。複数の仮説が検定されるとすると、稀な事象を観察する可能性が高まり、その結果として、帰無仮説を誤って棄却する（すなわち第一種過誤を犯す）可能性が高まる^[3]。

ボンフェローニ補正は、有意水準 $\alpha /m$ （ $\alpha$ は望ましい全体としてのα水準、 $m$ は仮説の数）で個々の仮説を検証することによって第一種過誤を犯す可能性の高まりを補償する^[4]。例えば、1回の試行が $m=20$ 個の仮説を望む $\alpha =0.05$ の水準で検定しているとすると、ボンフェローニ補正は個別の仮説を $\alpha =0.05/20=0.0025$ の水準で検定する。同じように、複数の信頼区間を構築する時、同じ現象が表われる。

定義

$H_{1},\ldots ,H_{m}$ を仮説の族（ファミリー）、 $p_{1},\ldots ,p_{m}$ をそれらの対応するp値とする。 $m$ を帰無仮説の総数、 $m_{0}$ を真である帰無仮説の数とする。ファミリーワイズエラー率（FWER）は少くとも1つの真である $H_{i}$ を棄却する確率、すなわち少くとも1つの第一種過誤を犯す確率である。ボンフェローニ補正は $p_{i}\leq {\frac {\alpha }{m}}$ で帰無仮説を棄却することで、FWERを水準 $\leq \alpha$ で制御する。この制御の証明は以下のようにブールの不等式から得られる。

{\text{FWER}}=P\left\{\bigcup _{i=1}^{m_{0}}\left(p_{i}\leq {\frac {\alpha }{m}}\right)\right\}\leq \sum _{i=1}^{m_{0}}\left\{P\left(p_{i}\leq {\frac {\alpha }{m}}\right)\right\}=m_{0}{\frac {\alpha }{m}}\leq m{\frac {\alpha }{m}}=\alpha

この制御はp値間の依存性またはいくつの帰無仮説が真であるかに関していかなる仮定も必要としない^[5]。

拡張

一般化

個々の検定の水準がデータを見るよりも前に決定されるという条件で、 $\alpha /m$ 水準で個々の仮説を検証するよりむしろ、仮説は合計 $\alpha$ となる水準のどの組合せでも検定してもよい^[6]。例えば、2つの仮説検定について、1つの検定を0.04、もう一方の検定を0.01の水準で実行することによって全体として0.05の $\alpha$ を維持することができる。

信頼区間

ダンによって提唱された手順^[2]（順位ベースの分散力についてのダンの手順^[7]と混同してはならない）は信頼区間を調整するために使うことができる。 $m$ 個の信頼区間を定め、全体の信頼水準を $1-\alpha$ にしたいと望むとすると、個々の信頼区間は $1-{\frac {\alpha }{m}}$ の水準に調整することができる^[2]。

連続問題

連続パラメータ空間における信号を探索する時も、多重比較の問題（どこでも効果）が存在しうる。例えば、ある物理学者が幅広い範囲の質量を考慮することによって未知の質量の粒子を発見したいと見ているとする。これはノーベル賞を受賞したヒッグス粒子の検出の際に当て嵌る。こういった場合、試行の有効数 $m$ と事前–事後体積比を関連付けるベイズロジックを利用することによって連続パラメータに対して一般化されたボンフェローニ補正を適用することができる^[8]。

代替手法

→詳細は「ファミリーワイズエラー率 § 制御手順」を参照

ファミリーワイズエラー率を制御するためには複数の代替手法が存在する。例えば、ホルム＝ボンフェローニ法とシダック補正はボンフェローニ補正よりも普遍的に強力な手順である。これは常に少くとも強力であることを意味する。ボンフェローニの手順とは異なり、これらの手法は族毎の第一種過誤の期待数（族毎の第一種過誤の確率）を制御しない^[9]。

批判

FWER制御に関して、数多くの検定が存在する時と検定統計量が正に相関している時の両方またはどちらか一方の場合、ボンフェローニ補正は保守的であるかもしれない^[10]。

ボンフェローニ補正は偽陰性を生む確率を増大させる、すなわち検出力を低下させる犠牲を払う^[11]^[10]。全ての場合において仮説族をどのように定義するかについて決定的な意見の一致は存在しないが、調整された検定結果は仮説の族に含められた検定数に依存して変動するかもしれない^[要出典]。こういった批判は一般にFWER制御に向けられ、ボンフェローニ補正の特有のものではない。

出典

^ Bonferroni, C. E. (1936). Teoria statistica delle classi e calcolo delle probabilità (Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commerciali di Firenze). Libreria internazionale Seeber. ASIN B001A8JCMS
^ ^a ^b ^c Dunn, Olive Jean (1961). “Multiple Comparisons Among Means”. Journal of the American Statistical Association 56 (293): 52–64. doi:10.1080/01621459.1961.10482090.
^ Mittelhammer, Ron C.; Judge, George G.; Miller, Douglas J. (2000). Econometric Foundations. Cambridge University Press. pp. 73–74. ISBN 978-0-521-62394-0
^ Miller, Rupert G. (1966). Simultaneous Statistical Inference. Springer. ISBN 9781461381228
^ Goeman, Jelle J.; Solari, Aldo (2014). “Multiple Hypothesis Testing in Genomics”. Statistics in Medicine 33 (11): 1946–1978. doi:10.1002/sim.6082. PMID 24399688.
^ Neuwald, AF; Green, P (1994). “Detecting patterns in protein sequences”. J. Mol. Biol. 239 (5): 698–712. doi:10.1006/jmbi.1994.1407. PMID 8014990.
^ Dunn, O. J. (1964). “Multiple Comparisons Using Rank Sums”. Technometrics 6 (3): 242–252. doi:10.1080/00401706.1964.10490181.
^ Bayer, Adrian E.; Seljak, Uroš (2020). “The look-elsewhere effect from a unified Bayesian and frequentist perspective”. Journal of Cosmology and Astroparticle Physics 2020 (10): 009-009. arXiv:2007.13821. doi:10.1088/1475-7516/2020/10/009.
^ Frane, Andrew (2015). “Are per-family Type I error rates relevant in social and behavioral science?”. Journal of Modern Applied Statistical Methods 14 (1): 12–23. doi:10.22237/jmasm/1430453040.
^ ^a ^b Moran, Matthew (2003). “Arguments for rejecting the sequential Bonferroni in ecological studies”. Oikos 100 (2): 403–405. doi:10.1034/j.1600-0706.2003.12010.x.
^ Nakagawa, Shinichi (2004). “A farewell to Bonferroni: the problems of low statistical power and publication bias”. Behavioral Ecology 15 (6): 1044–1045. doi:10.1093/beheco/arh107.

参考文献

Dunnett, C. W. (1955). “A multiple comparisons procedure for comparing several treatments with a control”. Journal of the American Statistical Association 50 (272): 1096–1121. doi:10.1080/01621459.1955.10501294.
Dunnett, C. W. (1964). “New tables for multiple comparisons with a control”. Biometrics 20 (3): 482–491. doi:10.2307/2528490. JSTOR 2528490.
Shaffer, J. P. (1995). “Multiple Hypothesis Testing”. Annual Review of Psychology 46: 561–584. doi:10.1146/annurev.ps.46.020195.003021. hdl:10338.dmlcz/142950.
Strassburger, K.; Bretz, Frank (2008). “Compatible simultaneous lower confidence bounds for the Holm procedure and other Bonferroni-based closed tests”. Statistics in Medicine 27 (24): 4914–4927. doi:10.1002/sim.3338. PMID 18618415.
Šidák, Z. (1967). “Rectangular confidence regions for the means of multivariate normal distributions”. Journal of the American Statistical Association 62 (318): 626–633. doi:10.1080/01621459.1967.10482935.
Hochberg, Yosef (1988). “A Sharper Bonferroni Procedure for Multiple Tests of Significance”. Biometrika 75 (4): 800–802. doi:10.1093/biomet/75.4.800.

外部リンク

[1] Bonferroni, C. E. (1936). Teoria statistica delle classi e calcolo delle probabilità (Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commerciali di Firenze). Libreria internazionale Seeber. ASIN B001A8JCMS

[Dunn1961-2] Dunn, Olive Jean (1961). “Multiple Comparisons Among Means”. Journal of the American Statistical Association 56 (293): 52–64. doi:10.1080/01621459.1961.10482090.

[3] Mittelhammer, Ron C.; Judge, George G.; Miller, Douglas J. (2000). Econometric Foundations. Cambridge University Press. pp. 73–74. ISBN 978-0-521-62394-0

[4] Miller, Rupert G. (1966). Simultaneous Statistical Inference. Springer. ISBN 9781461381228

[5] Goeman, Jelle J.; Solari, Aldo (2014). “Multiple Hypothesis Testing in Genomics”. Statistics in Medicine 33 (11): 1946–1978. doi:10.1002/sim.6082. PMID 24399688.

[pmid8014990-6] Neuwald, AF; Green, P (1994). “Detecting patterns in protein sequences”. J. Mol. Biol. 239 (5): 698–712. doi:10.1006/jmbi.1994.1407. PMID 8014990.

[7] Dunn, O. J. (1964). “Multiple Comparisons Using Rank Sums”. Technometrics 6 (3): 242–252. doi:10.1080/00401706.1964.10490181.

[Bayer2020-8] Bayer, Adrian E.; Seljak, Uroš (2020). “The look-elsewhere effect from a unified Bayesian and frequentist perspective”. Journal of Cosmology and Astroparticle Physics 2020 (10): 009-009. arXiv:2007.13821. doi:10.1088/1475-7516/2020/10/009.

[9] Frane, Andrew (2015). “Are per-family Type I error rates relevant in social and behavioral science?”. Journal of Modern Applied Statistical Methods 14 (1): 12–23. doi:10.22237/jmasm/1430453040.

[Moran2003-10] Moran, Matthew (2003). “Arguments for rejecting the sequential Bonferroni in ecological studies”. Oikos 100 (2): 403–405. doi:10.1034/j.1600-0706.2003.12010.x.

[Nakagawa2004-11] Nakagawa, Shinichi (2004). “A farewell to Bonferroni: the problems of low statistical power and publication bias”. Behavioral Ecology 15 (6): 1044–1045. doi:10.1093/beheco/arh107.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]