ANOVA君/多重比較の方法 の履歴(No.1)
- 履歴一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- ANOVA君/多重比較の方法 へ行く。
- 1 (2023-01-06 (金) 16:17:34)
Bonferroniの方法とその改良版の方法†
多重比較には様々な方法がありますが,その中でも,Bonferroniの方法とその改良版の方法は特に適用範囲が広いことで知られています。
しかし,検出力を改善した改良版の方法について触れた日本語の文献は少なく,あまり知られていないのが現状ではないかと思います。
ここでは,Bonferroniの方法とその改良版の方法について(特に,後者について)簡単に説明します。
ANOVA君では,これらの改良版の方法を採用しています。
なお,ここで述べる方法は,入戸野(2004)でも紹介されています。
また,永田・吉田(1997)では,くわしい解説とともに,計算例を使っての具体的な手順が説明されています。
さらなる詳細については,これらの文献を参照してください。
Bonferroniの方法†
ここで紹介する多重比較の方法の中では,最も有名なものであると思います。
Bonferroniの方法では,有意水準を比較する仮説の数で割ることによって,ファミリーワイズの(多重比較全体での)タイプⅠエラー率を設定した値以下に抑えます。
比較したい平均値の数をmとし,すべての組み合わせについて検討する場合,仮説の数(k)は,m×(m-1)/2個になります。
例えば,比較したい平均値の数が3個(m=3)なら仮説の数は3個,平均値が4個(m=4)なら仮説の数は6個になります。
この仮説の数で有意水準を割ります(α/k;有意水準を5%に設定したい場合,m=3なら,α=0.05/3;m=4なら,α=0.05/6)。
この調整後の有意水準を適用することで,ファミリーワイズのタイプⅠエラー率は設定した値以下に抑えることができます。
ただし,よく知られている通り,この方法では検出力がかなり低くなります。
そこで,この欠点を改善したのが以下の方法です。
(ちなみに,ANOVA君では,Bonferroniの方法による多重比較は行いません。)
Holmの方法†
Bonferroniの方法をステップダウン方式にすることで,検出力を高めた方法です。
この方法は,SRB(Sequentially Rejective Bonferroni)法とも呼ばれます。
手順は,以下の通りです。
- すべての比較について検定統計量(tなど)を計算し,p値を得る。
- p値の低い順に仮説を並べる(以下,カッコ内はm=4の場合の例)。
- p値の最も小さい比較において,Bonferroniと同じ基準で検定を行う(α=0.05/6)。
- 3.の検定が有意であった場合,検定する仮説の数が1つ減ったので,有意水準を調整する際の分母を1つ減らす(α=0.05/5)。この新たな調整値を使って,2番目に小さいp値の比較について検討する。この比較が有意でなければ,検定は終了。有意であれば,次に小さいp値に進む。
- 以下,同様にp値の小さい順に進み,1つずつ分母を減らして検定を行う。有意でない比較があれば,その時点で検定終了(それ以降の仮説については,たとえそのステップでの有意水準より低いp値があっても,すべて結論を保留する;差があるとは結論しない)。
この方法を用いると,検出力はかなり向上します。
しかも,ファミリーワイズのタイプⅠエラー率は,やはり設定した値以下に抑えることができます(なぜそうなるのかを説明するのはむずかしいです;広津, 2003や永田・吉田, 1997,分散分析のノートを参考にしてください)。
しかし,次の方法を用いることで,さらに検出力を上げることができます。
Shafferの方法†
Shafferの方法は,Holmの方法をさらに改良したもので,MSRB(Modified Sequentially Rejective Bonferroni)法とも呼ばれます。
手順は,Holmの方法とほとんど同じですが,調整に用いる分母が違います。
Holmの方法では,ステップが進むにつれて1つずつ仮説の数を減らしていきました。
しかし,仮定の置きかたによっては,仮説の数はステップにつれて1つずつ減るとは限りません。
例えば,m=4で,各平均をμ1,μ2,μ3,μ4と表すとします。
6個の帰無仮説は,μ1=μ2,μ1=μ3,μ1=μ4,μ2=μ3,μ2=μ4,μ3=μ4になります。
この中で,まず,μ3=μ4という仮説が棄却されたとします(μ3≠μ4)。
このとき,単純に見れば残りの仮説は5つです。
しかし,μ3≠μ4が成り立っているとしたら,論理的には,この後は,例えば,μ2=μ3とμ2=μ4の2つの仮説が同時に成り立つことはないはずです。
そうすると,論理的に同時に成り立ちうる仮説の数はもっと少なくなります。
Shafferの方法は,このような論理に基づいて,論理的に真でありうる残りの帰無仮説の数(調整に用いる分母)をHolmの方法よりもさらに減らしています。
このため,Holmの方法よりも検出力が高くなります。
ただし,この残りの仮説の数を正確に計算する方法は,複雑で手間がかかります(Donoghue, 2004; Rasmussen, 1993がアルゴリズムを提案しています)。
そこで,Holland & Copenhaver(1987)は,各ステップごとの残りの仮説の数の最大数を表にしてまとめています(永田・吉田, 1997はこの表を再録しています)。
この表を使えば,簡単にShafferの方法を行うことができます。
表によった場合,若干検出力は下がりますが(任意のパターンにおける最大数を用いるので),それでもHolmの方法よりも検出力が高く,ファミリーワイズのタイプⅠエラー率も設定した値を超えることはありません。
(ANOVA君(version 3.2.0以降)は,Rasmussen(1993)のアルゴリズムとDonoghue(2004)のアルゴリズムに基づいています。これらのアルゴリズムの特徴については,Shafferの方法のバリエーションを参照ください。)
ただし,Holmの方法と違い,仮説間の論理的関係性を仮定しているので,データにこのような関係性を仮定できない場合にはShafferの方法は使用できません。
Holland-Copenhaverの方法†
Holland-Copenhaverの方法は,論文名には“An improved sequentially rejective Bonferroni test procedure”とあり,名前にBonferroniと入っていますが,Bonferroniの不等式ではなく,Sidakの不等式に基づいています。
(ややこしいので,ANOVA君の出力では,この方法を使ったときには,「Improved Sequentially Rejective Sidak Procedure」と表示するようにしました。)
この方法では,有意水準を調整するときの式をα/kではなく,1-(1-α)^(1/k)とします。
kの部分は,Shafferの方法と同じ,論理的関係の見地から見た各ステップでの残りの仮説数を使います。
この方法は,Sidakの不等式に基づいているため,反復測定データ(被験者内要因のデータ)に適用することはできないとされています。
永田・吉田(1997)は,以下のように述べています。
「各群のデータが独立である通常の1元配置デザインにおいてテューキーの方法やダネットの方法を用いる場合にはシダックの不等式が成り立つ。しかし,各水準間に相関のある場合などはシダックの不等式は必ずしも成り立たない(ボンフェローニの不等式は成り立つ)。したがって,相関がある場合には,ボンフェローニの不等式に基づく方法(ボンフェローニの方法,ホルムの方法,シェイファーの方法)を用いることはできるけれども,ホランド・コペンハーバーの方法を用いることはできない。」(p. 102)
さらに,この少し後の文章では,次のように述べています。
「一方,各群のデータが相関をもっているような場合については,うえに述べたようにホランド・コペンハーバーの方法を用いることはできない。また,このようなデータに対しては,本章以外で述べた対比較の方法を用いることもできない。」(p. 102)
反復測定データは,各群に相関があると想定されるデータです。
また,ここでいう章とは,「第6章 ボンフェローニ法と関連する方法-ボンフェローニの方法およびその改良版-」で,この章で紹介されている方法とは上に挙げた4つの方法です。
したがって,永田・吉田(1997)にしたがうならば,反復測定データについては,Bonferroni,Holm,Shafferの方法を用いるのがよいと考えられます。
Bonferroniと改良版の方法のまとめ†
上の4つの方法のm=4の場合の各ステップの有意水準を並べてみました。
ステップ数 | Bonferroni | Holm | Shaffer | Holland-Copenhaver |
1 | 0.00833 | 0.00833 | 0.00833 | 0.00851 |
2 | 0.00833 | 0.01000 | 0.01667 | 0.01695 |
3 | 0.00833 | 0.01250 | 0.01667 | 0.01695 |
4 | 0.00833 | 0.01667 | 0.01667 | 0.01695 |
5 | 0.00833 | 0.02500 | 0.02500 | 0.02532 |
6 | 0.00833 | 0.05000 | 0.05000 | 0.05000 |
BonferroniからHolm,Shafferと進むにつれて有意水準の値が全般的に高くなっていくのがわかるかと思います。
ただし,ShafferとHolland-Copenhaverの間までくると,有意水準の変化はかなり小さくなっています。
ちなみに,ステップ数(=考慮する仮説の数)が多くなるほど,どの方法も基準が厳しくなり,方法の間の違いは小さくなります。
(ANOVA君では,「criteria」オプションを選択すると,各ステップでの有意水準が表示されます。このとき,Holmの方法かShafferの方法の最も厳しい基準(ステップ1での基準)をすべてのステップの比較に適用して解釈すれば,Bonferroniの方法による多重比較を行うことができます。)
また,Shafferの方法は,実はさらに検出力を高めることができます。
分散分析で主効果(または,単純主効果)が有意であった場合にのみ多重比較を行うことにすると,論理的な見地から見た残りの仮説数は,上で述べたよりもさらに減ることになります。
つまり,主効果が有意であったからには,論理的には,仮説間の少なくともどれか1つは棄却されるはずです。
このことから,分散分析での有意性を条件とした場合には,Shafferの方法におけるステップ1の有意水準をステップ2の有意水準に置き換えて検定することが認められます(入戸野, 2004; Shaffer, 1986)。
例えば,上の表では,ステップ1の「0.00833」をステップ2の「0.01667」に置き換えて検定することができます(ステップ2とそれ以降の有意水準はもとのまま)。
ただし,主効果(単純主効果)が有意な場合にのみ多重比較を行うという前提を満たした状態でなければ,この方法は使えません。
(ANOVA君では,「fs1」オプションを指定することで,この方法を使うことができます。)
この修正版のShafferの方法を用いると,面白いことに気づきます。
m=3の場合,もともと,Shafferの方法における残りの仮説の最大数は,ステップ1~3までで,それぞれ,3,1,1となっています。
このとき,くだんの方法を用いると,ステップ1の基準をステップ2の基準に置き換えることができるので,仮説数=分母は1,1,1となります。
すると,m=3の場合,修正版のShafferの方法による有意水準は,すべてのステップでα/1,つまり,もとの有意水準と同じになってしまうのです(α=0.05なら,3つすべての比較でα=0.05!)。
したがって,実質的にLSD法を行っているのとほぼ同じことになります。
これでタイプⅠエラー率がコントロールできているというのは不思議に思えます。
おそらく,この場合には,LSD法を3水準の比較のときに主効果が有意であることを前提としてのみ行うならば,ファミリーワイズのタイプⅠエラー率が設定した値を超えないのと同じことが起こっているものと思われます(永田・吉田, 1997;また,広津, 2003, p. 97も参照)。
そのように考えると,この修正版のShafferの方法は,本当にぎりぎりまで検出力を高めてあるということなのかもしれません(しかも,任意の棄却パターンの最大数を使うのでなく厳密に残りの仮説数を計算すれば,m>3の場合には,さらに検出力を上げられるはずです;ANOVA君では,「fs2r」または「fs2d」オプションによってこの方法を指定できます)。
なお,このページで述べた手続きは,いずれも「すべての平均値の間の差を調べたい場合」を想定したものです。
Bonferroniの方法(と改良版の方法)の使用は,このような場合に限定されるものではありません。
最初から検討したい仮説が決まっていれば,その数が比較したい仮説の数になります。
例えば,μ1,μ2,μ3があるのに対して,検討したい帰無仮説は,μ1=μ3,μ2=μ3のみであるとすれば,仮説数は2になります(したがって,Bonferroniの方法の場合の分母は2)。
Bonferroni及び関連する方法は,どちらかといえば,このように検討すべき仮説を限定した状況で使用することが勧められているのではないかと思います。
(ANOVA君は,検討している要因に含まれるすべての水準間の差を調べたい場合を想定した結果のみを出力します。)
Donoghue, J. R. (2004). Implementing Shaffer's multiple comparison procedure for a large number of groups. Recent Developments in Multiple Comparison Procedures (Institute of Mathematical Statistics Lecture Notes-Monograph Series, No. 47) pp. 1-23. [Link to PROJECT Euclid]
広津千尋 (2003). 多重比較法と多重決定方式. 竹内啓・広津千尋・公文雅之・甘利俊一 統計科学のフロンティア2-統計学の基礎Ⅱ-. 岩波書店 pp. 55-112.
Holland, B. S., & Copenhaver, M. D. (1987). An improved sequentially rejective Bonferroni test procedure. Biometrics, 43, 417-423.
永田靖・吉田道弘 (1997). 統計的多重比較法の基礎. サイエンティスト社
入戸野宏 (2004). 心理生理学データの分散分析. 生理心理学と精神生理学, 22, 275-290. [Link to J-STAGE]
Rasmussen, J. L. (1993). Algorithm for Shaffer's multiple comparison tests. Educational and Psychological Measurement, 53, 329-335.
Shaffer, J. P. (1986). Modified sequentially rejective multiple test procedures. Journal of American Statistical Association, 81, 826-831.