ANOVA君/Shafferの方法のバリエーション - 井関龍太のページ

ホーム   編集 凍結 差分 バックアップ 添付 コピー 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS

ANOVA君/Shafferの方法のバリエーション

Last-modified: 2013年09月28日 (土) 22:23:18 (1875d)
Top > ANOVA君 > Shafferの方法のバリエーション

Shafferの方法による多重比較の拡張

検出力の違い

ANOVA君では,version 3.0.0から,Rasmussen(1993)のアルゴリズムに基づいて,Shafferの方法のための論理的に同時に成立しうる帰無仮説の数を計算するようになりました。
このことにより,多重比較における検出力がどのように変わったのかを見てみたいと思います。

以下は,永田・吉田(1997)の第6章で取り上げられているデータの例をANOVA君で分析したものです(素データについては,永田・吉田, 1997を参照ください)。
まず,Holmの方法で分析すると,以下のような結果が得られます。

< MULTIPLE COMPARISON for FACTOR A >

== Holm's Sequentially Rejective Bonferroni Procedure ==
== The factor < A > is analysed as independent means. == 
== Alpha level is 0.05. == 
 
--------------------------------------------
   A     N        Mean            S.D.  
--------------------------------------------
  a1     7         9.4429          0.9467       
  a2     7         7.7000          1.3166       
  a3     7         7.9571          1.3113       
  a4     7         6.3143          0.9703       
--------------------------------------------

---------------------------------------------------------------------------
  Pair    Interval       t-value          df      p     criteria
---------------------------------------------------------------------------
 a1-a4      3.1286        5.0894          24    0.0000  0.0083  a1 > a4 *       
 a1-a2      1.7429        2.8352          24    0.0091  0.0100  a1 > a2 *       
 a3-a4      1.6429        2.6725          24    0.0133  0.0125  a3 = a4         
 a1-a3      1.4857        2.4169          24    0.0236  0.0167  a1 = a3         
 a2-a4      1.3857        2.2542          24    0.0336  0.0250  a2 = a4         
 a2-a3     -0.2571        0.4183          24    0.6794  0.0500  a2 = a3            
---------------------------------------------------------------------------

※調整の仕方の違いがわかりやすくなるように,調整済みp値ではなく,調整済みの有意水準を表示しています(criteriaオプション)。

この場合,2つの帰無仮説が棄却されます。
同じデータを各ステップでの残りの仮説の最大数を用いたShafferの方法(Shaffer1)で分析すると以下のようになります(永田・吉田, 1997で用いられているのもこちらの方法です)。

< MULTIPLE COMPARISON for FACTOR A >

== Shaffer's Modified Sequentially Rejective Bonferroni Procedure ==
== The factor < A > is analysed as independent means. == 
== Alpha level is 0.05. == 
 
--------------------------------------------
   A     N        Mean            S.D.  
--------------------------------------------
  a1     7         9.4429          0.9467       
  a2     7         7.7000          1.3166       
  a3     7         7.9571          1.3113       
  a4     7         6.3143          0.9703       
--------------------------------------------

---------------------------------------------------------------------------
  Pair    Interval       t-value          df      p     criteria
---------------------------------------------------------------------------
 a1-a4      3.1286        5.0894          24    0.0000  0.0083  a1 > a4 *       
 a1-a2      1.7429        2.8352          24    0.0091  0.0167  a1 > a2 *       
 a3-a4      1.6429        2.6725          24    0.0133  0.0167  a3 > a4 *       
 a1-a3      1.4857        2.4169          24    0.0236  0.0167  a1 = a3         
 a2-a4      1.3857        2.2542          24    0.0336  0.0250  a2 = a4         
 a2-a3     -0.2571        0.4183          24    0.6794  0.0500  a2 = a3        
---------------------------------------------------------------------------

3つの帰無仮説が棄却されているのがわかります。
このデータ例は,もともとHolmの方法とShafferの方法で結果が変わる,という絶妙な例なのですが,各ステップでの具体的な棄却のパターンを反映させたShafferの方法(Shaffer2)を適用してみると,以下のような結果が得られます。

< MULTIPLE COMPARISON for FACTOR A >

== Shaffer's Modified Sequentially Rejective Bonferroni Procedure [SPECIFIC] ==
== The factor < A > is analysed as independent means. == 
== Alpha level is 0.05. == 
 
--------------------------------------------
   A     N        Mean            S.D.  
--------------------------------------------
  a1     7         9.4429          0.9467       
  a2     7         7.7000          1.3166       
  a3     7         7.9571          1.3113       
  a4     7         6.3143          0.9703       
--------------------------------------------

---------------------------------------------------------------------------
  Pair    Interval       t-value          df      p     criteria
---------------------------------------------------------------------------
 a1-a4      3.1286        5.0894          24    0.0000  0.0083  a1 > a4 *       
 a1-a2      1.7429        2.8352          24    0.0091  0.0167  a1 > a2 *       
 a3-a4      1.6429        2.6725          24    0.0133  0.0167  a3 > a4 *       
 a1-a3      1.4857        2.4169          24    0.0236  0.0250  a1 > a3 *       
 a2-a4      1.3857        2.2542          24    0.0336  0.0500  a2 > a4 *       
 a2-a3     -0.2571        0.4183          24    0.6794  0.0500  a2 = a3        
---------------------------------------------------------------------------

この場合,さらに2つの帰無仮説が棄却され,合計で6つのうち5つの比較が有意であるという結果になります。
このデータにShaffer2の方法を用いるとこのような結果が得られることは,永田・吉田(1997)でも指摘されています(p. 101)。

このデータ自体がうまくできている例なので,上記の方法の間で常にこれほど極端な違いが見られるわけではありません。
Holm,Shaffer1,Shaffer2の方法の間で分析結果に違いが見られないこともままあります。
ただし,その定式化から,Bonferroni系の多重比較法の間には以下の関係が成り立ちます。

Bonferroni ≦ Holm ≦ Shaffer1 ≦ Shaffer2

この図式は,「Bonferroniの方法で棄却される仮説は常にHolmの方法でも棄却され,一部の場合には,Holmの方法はより多くの仮説を棄却する」「Holmの方法で棄却される仮説は常にShaffer1の方法でも棄却され,……」といった関係性を表しています。
つまり,右にある方法は左にある方法の検出力を必ず上回ることになります。
ただし,水準数が3の場合には,Shaffer1とShaffer2の結果は常にまったく同じになります。

ちなみに,Shaffer1,Shaffer2という呼称は,後の研究者らがそれぞれの方法をS1,S2と呼んでいることにちなんだものです(Donoghue, 2004; Holland & Copenhaver, 1988; Hommel & Bernhard, 1999; Rasmussen, 1993)。
Shaffer(1986)は論文の中でMSRB法の複数のバリエーションを提示しており,それらの名称を特に区別していなかったために,後から他の研究者が便宜的に呼び分けたもののようです。

適切な使用のための前提条件

Shaffer1はHolmの方法よりも検出力が高い代わりに,仮説間の論理的な関係性を前提する必要があります(μ1≠μ2ならμ1=μ3とμ2=μ3の両方が同時に成り立つことはないと想定できるなど)。
同様に,Sahffer2も,適切に使用するには,Shaffer1よりもさらに厳しく論理的関係性を仮定する必要があるかもしれません。
Donoghue(2004)の指摘によれば,Rasmussen(1993)のアルゴリズムによるShaffer2の方法は,各水準の平均値の間に強い順序性を仮定しています。
例えば,平均値がμ1,μ2,μ3の順に大きな値を取る場合に,μ1=μ2が先に棄却された場合(すなわち,μ1<μ2が示唆された場合),その後の検定においてμ1=μ3も棄却される(μ1<μ3となる)ことを想定しています。
実際に,このようなケースでは,Rasmussenのアルゴリズムは,有意水準の制限をかなり大きく緩めているように思います。
水準間でデータの分散が大きく異なる場合には,この仮定には危ういところがあるかもしれません。
(そもそも分散分析は等分散性の仮定のもとに行われる,という話もありますが。)

Donoghue(2004)は,ずっと複雑ですが,順序性についての強い仮定を必要としないShaffer2のアルゴリズムを提案しています。
Westfall(1997)は,より一般的な別のアルゴリズムを提示しており,また,Westfall & Tobias(2007)は,Shaffer2よりもさらに検出力を高めた方法を述べています(Extended Shaffer-Royen Method)。
こうしてみると,Shaffer2の方法は,理論的には既に認められているものの,それを実現するためのアルゴリズムについてはまだ発展中なのかもしれません。
そういう意味で,Shaffer2による分析結果を公表する際には,どのアルゴリズムを用いたのかを明示した方がよいかもしれません。
ANOVA君では,最もシンプルなRasmussenのアルゴリズムとDonoghueをベースにしたアルゴリズムを利用できます(version 3.2.0)。

一方,Shaffer1の方法については,このような議論の余地はないと思います。
調整のための確定した値がHolland & Copenhaver(1987)や永田・吉田(1997)などに掲載されていますし,RasmussenのアルゴリズムによってShaffer1の調整値を計算した場合も(少なくとも,表に掲載されている10水準までについては)表とまったく同じ値が得られます。

実際の分析において,仮説間の関係性に確信が持てない場合は,Holmの方法を用いるのが安全です。
Holmの方法は,上のような論理的関係性に依存しません(そのぶん検出力は低くなります)。

RasmussenとDonoghueのアルゴリズムの違い

上にも述べたように,Rasmussen(1993)のアルゴリズムは,平均値間に強い順序性を仮定しています。
ここでは順序性と訳していますが,原語はtransivityといい,論理学における特定の論理的関係を指しています。
transivityは,例えば,次のような関係性を言います。
「AくんはBくんよりも背が高い」という命題が真であり,かつ,「BくんはCくんよりも背が高い」という命題も真であるとしたら,「AくんはCくんよりも背が高い」という命題も真であると結論できる,といった関係です。
これは初等論理学ではふつうに前提とされる関係性です。
また,この関係性を論理的に妥当なものであると仮定することはそれほど不自然ではないでしょう。

Shafferの方法は,もともと,検定の際に考慮すべき仮説の数を論理的に同時に成立しうる仮説のみに制約することを主眼としたものです。
仮説を制約する際には,「A≠B」を前提とするなら,「A=C」と「B=C」は同時には成立しないはずだ,といった論理を用いることを想定しています(矛盾律)。
論理的な妥当性という観点からすれば,これに加えて,通常の論理学でも用いられるtransivityの仮定を利用することも不当ではないかもしれません。

しかし,推測統計の文脈で考えた場合,平均値間に厳密なtransivityは成立するのでしょうか。
この場合,ある水準の平均値が他の水準の平均値よりも大きいか小さいかが問題になります。
平均値という対象は,「Aくんの身長」と「Bくんの身長」のように,大きいか小さいか等しいかであると想定してよいのでしょうか。
ある特定の平均値だけを考えるのならよいのかもしれませんが,推測統計では,分散や信頼区間も考えた上で母集団についての推論を行っているのではなかったでしょうか。
そう考えていくと少々わからなくなってきます。

とりあえず,一般論としては,よくわからない仮定,無用な仮定は少ない方が好ましいということはいえると思います。

一方,Donoghue(2004)のアルゴリズムは,上のような問題を避けるため,transivityを利用していません。
具体的には,各水準の平均値の情報なしに,p値の大きさと論理的関係の型のみから帰無仮説の数を判断します。
このため,一部のケースではRasmussenよりも検出力が低くなります。

ここで注意を促しておくと,ANOVA君では,Donoghueのアルゴリズムをそのまま実装しているわけではありません。
このアルゴリズムはかなり複雑で,想定されている使用法もANOVA君のそれとはやや異なります。
作成者のプログラミング技術の問題もあり,オリジナルのアルゴリズムそのままではなく,ANOVA君ではアレンジを加えた上での実装を行っています。
そのため,完全に妥当な結果を算出できるかについてはやや不安な面があります。
また,ANOVA君で実装したDonoghueのアルゴリズムに基づく計算は,Rasmussenのアルゴリズムよりも計算に時間がかかります(水準数が多くなるほどその差は顕著になります)。

これまでに確認したところでは,ANOVA君のRasmussenとDonoghueのアルゴリズムに基づく計算結果は,多くのケースで一致するようです(それぞれ,「s2r」,「s2d」オプションによって指定できます)。
結果が異なることが想定されるのは,平均値間の差とp値の大きさの間の一貫性が崩れているときです。
つまり,理想的には,各水準間の差の分散が等しければ,各比較を平均値の差の絶対値の順に並べると,p値は小さい順に並んでいるはずです。
しかし,実際のデータでは必ずしもそうならないことがあります(反復測定要因のときなど)。
このようなとき,Rasmussenのアルゴリズムの計算では,残りの仮説の数をかなり少なく計算することがあります(棄却のパターンによってはそうならないこともあります)。
そこで,上記以外のケースでRasmussenとDonoghueの結果が違っていたり,Donoghueの方が調整が緩くなっていたりした場合には,いずれかのオプションによる計算が間違っていると考えられます。
このようなケースが見つかった場合には,作成者までお知らせいただけるとありがたいです。

Shafferの方法のバリエーション

多重比較の方法でも紹介したように,Shafferの方法は,主効果(単純主効果)が有意であるという情報を利用して,さらに検出力を高めることができます。
ANOVA君では,残りの帰無仮説の数を計算する方法と組み合わせて,全部で4パターンのShafferの方法を用いることができます。
この4つのパターンを以下の表にまとめました。

ステップごとの最大数棄却パターンに応じた最大数
連携なしShaffer1Shaffer2
分散分析との連携F-Shaffer1F-Shaffer2

F-Shafferの方法は,ステップ1の調整に用いる分母をステップ2のそれと置き換えたものです。
したがって,F-Shaffer1とF-Shaffer2は,Shaffer1とShaffer2よりもそれぞれ少しだけ検出力が高くなります。
ちなみに,F-Shafferの方法という呼称は,分散分析の結果を反映していることを示すために,便宜的に呼び分けたものです(一般的な呼称ではありません)。

動作上の注意点

現行バージョンのANOVA君(version 3.2.0)におけるRasmussenのアルゴリズムによる調整値の計算は,(私の環境では)水準数が14を超えたあたりから動作が極端に遅くなります。
この点は,選択したオプションがShaffer1であってもShaffer2であっても同様です。
Donoghueのアルゴリズムはさらに負担が大きく,10水準くらいでかなりの時間を要するようになります。
負荷が高すぎて計算しきれない場合には,Holmの方法を用いることをお勧めします。
こちらではそれほどの負荷はかからないはずです。

文献

Donoghue, J. R. (2004). Implementing Shaffer's multiple comparison procedure for a large number of groups. Recent Developments in Multiple Comparison Procedures (Institute of Mathematical Statistics Lecture Notes-Monograph Series, No. 47) pp. 1-23. [Link to PROJECT Euclid]
Holland, B. S., & Copenhaver, M. D. (1987). An improved sequentially rejective Bonferroni test procedure. Biometrics, 43, 417-423.
Holland, B. S., & Copenhaver, M. D., (1988). Improved Bonferroni-type multiple testing procedure. Psychological Bulletin, 104, 145-149.
Hommel, G., & Bernhard, G. (1999). Bonferroni procedures for logically related hypotheses. Journal of Statistical Planning and Inference, 82, 119-128.
永田靖・吉田道弘 (1997). 統計的多重比較法の基礎. サイエンティスト社
Rasmussen, J. L. (1993). Algorithm for Shaffer's multiple comparison tests. Educational and Psychological Measurement, 53, 329-335.
Shaffer, J. P. (1986). Modified sequentially rejective multiple test procedures. Journal of American Statistical Association, 81, 826-831.
Westfall, P. H. (1997). Multiple testing of general contrasts using logical constraints and correlations. Journal of the American Statistical Association, 92, 299-306.
Westfall, P. H., & Tobias, R. D. (2007). Multiple testing of general contrasts: Truncated closure and the extended Shaffer-Royen method. Journal of the American Statistical Association, 102, 487-494.

TrackBack(0) | 外部リンク元 | このエントリーをはてなブックマークに追加