#author("2023-01-04T15:11:24+09:00","default:riseki","riseki")
SPSSで分散分析を行う際にオプションで「主効果の比較」を選ぶと,Bonferroniの方法による多重比較を行うことができます(他に,LSD法とSidak法も選べます)。
出力結果には「有意確率」としてp値が表示されます。
しかし,この出力を見て不思議に思っていることがありました。
まず,なぜp値が1になるのだろう,ということです。
SPSSのこのオプションでは,ときどき,「1.00」というp値が現れることがあるのです。
p値が1ということは,帰無仮説が常に棄却されないということでしょうか?
たぶん,そういう意味ではありません。
この値が得られる理由は簡単で,SPSSのBonferroniの出力では,通常のp値に帰無仮説の数をかけた値を表示しているためです。
すべての水準の組み合わせを比較するとすれば,比較の数(k)は水準数×(水準数-1)/2です。
例えば,3水準の比較の場合には仮説数は3,4水準の比較の場合には,仮説数は6です。
そこで,それぞれ,p値に3または6をかけるとSPSSと同じ出力が得られます。
実際,SPSSのBonferroniの出力は,同じデータでLSDのオプションを選択した場合のp値に比較数をかけたものに一致します。
定義的には,Bonferroniの方法による多重比較は,有意水準を比較数で割ったものなので(p=α/k),逆にp値に水準数をかけても同じ結果が得られるわけです(pk=α)。
例えば,k=3で,もとのp値がp1=0.01,p2=0.03,p3=0.42だとします。
5%の有意水準でBonferroniの調整を行うと,α/k=0.05/3=0.0167なので,p1のみが有意になります。
有意水準を比較数で割る代わりにp値に比較数をかけると,p1'=0.03,p2'=0.09,p3'=1.26となります。
5%を有意水準として解釈すると,pn'の中で0.05よりも小さい値はp1'だけなので,この帰無仮説のみが棄却されることになります。
確率としての通常のp値は0~1の範囲を取るはずなので,p値が1を越えた場合は1に直して表示することにすれば,SPSSの出力と同じになるはずです。
このように,どちらの方法を使っても確かに同じ検定結果が得られます。
しかし,多重比較法としては,αを割らなくてはならないのではないでしょうか。
というのは,ほとんどの多重比較では,まず有意水準を決めた後に,検定全体での危険率がその値を超えないような手続きを行うことになっているからです。
しかし,このかけ算による方法にもきちんと裏づけがあることを最近知りました。
それは,&color(darkorchid){''調整済みp値(adjusted p-value)''};という概念です。
Wright(1992)は,この調整済みp値による表記を推奨し,Bonferroniその他の方法におけるその算出方法を述べています。
Bonferroniの方法については,調整済みp値の算出は簡単です。
既に上で述べたとおりで,比較数をかけ,1.0以上の値は1にすればいいようです。
以下は,水準数4の場合の例です。
|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:ステップ|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:オリジナルのp値|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:帰無仮説の数をかけた値|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:Bonferroniの調整済みp値|
|CENTER:1|CENTER:0.0003|CENTER:0.0018|CENTER:0.0018|
|CENTER:2|CENTER:0.0040|CENTER:0.0240|CENTER:0.0240|
|CENTER:3|CENTER:0.0074|CENTER:0.0444|CENTER:0.0444|
|CENTER:4|CENTER:0.2733|CENTER:1.6398|CENTER:1.0000|
|CENTER:5|CENTER:0.2924|CENTER:1.7544|CENTER:1.0000|
|CENTER:6|CENTER:0.7976|CENTER:4.7856|CENTER:1.0000|
Holmの方法の場合にも,同様の方法で調整済みp値を算出することができます。
この方法では,p値を小さい順に並べ,kの値をステップごとに1つずつ減らして検定を行います。
つまり,4水準(k=6)の場合は,ステップ1ではα/6,ステップ2ではα/5を有意水準とし,途中で1つでも有意でない比較に出会ったら検定を終了します。
この場合も,調整済みp値を算出するには分母の数をもとのp値にかけることになります。
ただし,有意でない比較に出会ったら検定をやめる,という性質を反映させる工夫が必要になります。
このために,帰無仮説の数をかけた後のp値が前のステップのp値よりも小さくなった場合は,以前のp値をそのまま使うことになっています。
例えば,以下の例では,ステップ5のかけ算後の値はステップ4のそれよりも小さくなっています。
そこで,ステップ4の値を調整済みp値とします。
このようにすれば,「前のステップの帰無仮説が棄却されない限りは次のステップの帰無仮説を棄却してはならない」という決まりにしたがうことができます。
ステップ6についても同様にする必要があります。
|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:ステップ|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:オリジナルのp値|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:帰無仮説の数をかけた値|COLOR(NAVY):BGCOLOR(LIGHTBLUE):CENTER:Holmの調整済みp値|
|CENTER:1|CENTER:0.0003|CENTER:0.0018|CENTER:0.0018|
|CENTER:2|CENTER:0.0040|CENTER:0.0200|CENTER:0.0200|
|CENTER:3|CENTER:0.0074|CENTER:0.0296|CENTER:0.0296|
|CENTER:4|CENTER:0.2733|CENTER:0.8199|CENTER:0.8199|
|CENTER:5|CENTER:0.2924|CENTER:0.5848|CENTER:0.8199|
|CENTER:6|CENTER:0.7976|CENTER:0.7976|CENTER:0.8199|
さて,それでは,このような調整済みp値にはどのような利点があるのでしょうか。
Wright(1992)が述べるところでは,
+どのくらい有意か(論文には“how significant”とあります)を知ることができる
+特定の有意水準を想定しなくてもすむ
という2点があります。
確かにp値が有意になりそうかどうか知りたいこともありますし,有意水準を予め想定しなくても検定できるというのはその通りです。
例えば,上の表を見ると,Bonferroniの方法のときには,α≦.04でステップ1~3の帰無仮説が棄却できることがわかります。
同様に,Holmの方法のときには,α<.03で同じ3つの仮説が棄却されます。
通常のBonferroniやHolmの方法の場合には,このような見方はできず,予め何%の有意水準か決めてから検定を行う必要があります。
SPSSもこのような利点を鑑みて,調整済みp値による表示を採用しているのではないでしょうか。
SPSSにはBonferroni等の際に有意水準の指定がありませんが,この表記法であればそれが必要でないことになります(それでも,5%未満のときは*をつけるといった配慮はあるようですが)。
また,Rにも同様に調整済みp値を算出する関数があります(p.adjust)。
こうしてみると,統計ソフトウェアの仕様としては,調整済みp値は,事前の有意水準の設定を省略できるという意味で支持を得ているのかもしれません。
一方で,この表記法は誤解を招きそうな気もします。
例えば,上のHolmの方法の表を見ていると,ステップ1の比較はp=0.0018で有意,ステップ3の比較はp=0.0296で有意といったように解釈してしまいそうになります。
しかし,これまでの議論を考えると,そのような解釈は間違いであると思われます。
調整済みp値で解釈する場合,ファミリー内のすべての比較について同一の有意水準を用いなければならないはずです。
そうでなければ,もともとのα/kというBonferroniの不等式による調整が成り立たなくなるのではないでしょうか。
ステップによって恣意的に分母を変えてしまっては,ファミリーワイズのエラー率がコントロールできなくなるはずです(Holmなどのステップワイズの方法では,p値の小さい順に決められた調整値を割り当て,途中で有意でなくなったら終了というやり方を守らなくてはなりません)。
そこで,より適切には,α<.01ならステップ1の比較のみ有意,α<.03ならステップ1~3までの比較が有意,といった解釈になると思われます。
ただ,なんだかんだいっても,最終的には,5%水準か1%水準で有意かどうかを判定することになるわけです。
そう考えると,調整済みp値で個別の比較の有意性を知ったり,任意の有意水準で有意かどうかを調べたりすることの利点は,どのくらいあるといえるのでしょうか(データをくわしく検討するのはよいことだとは思いますが)。
上のような可能性を考えると,従来通りの既定の有意水準との比較の方が誤解の余地が少ないかもしれません。
もちろん,きちんと原理を理解していれば間違うはずがない,という意見ももっともなのですが。
----
Wright, S. P. (1992). Adjusted p-values for simultaneous inference. '''Biometrics''', ''48'', 1005-1013.
RIGHT:(2007-12-04)
&tag(統計);