ANOVA君/多標本球面性への対応
各種球面性検定の違い†
分散分析における球面性検定といえば,Mauchlyの球面性検定が有名です。
しかし,球面性検定はMauchlyの球面性検定に限られるわけではなく,様々なバリエーションがあります(くわしくは,千野, 1994を参照)。
ANOVA君(anovakun 4.0.0以降)では,以下の球面性検定を行うことができます。
Mauchlyの球面性検定†
分散分析における球面性の仮定を検討する手段として最も一般的に用いられている検定です。ただし,この検定は,複数の独立の群を含むデータ(混合要因計画)には対応していません。群間を通してプールした共分散行列から検定を行うことはできますが,この手法は群間での共分散行列の等質性の検定を含みません。多標本球面性の仮定を検討するには,Mauchlyの球面性検定に加えて等質性の検定を行うか(2段階多標本球面性検定),以下の1段階多標本球面性検定を行う必要があります。
Mendozaの多標本球面性検定†
多標本球面性の仮定を検討するための尤度比検定です(Mendoza, 1980)。通常の球面性の仮定に加えて,群間の共分散行列が等質であるかどうかの検定を含みます(1段階多標本球面性検定)。群が1つしかないとき(被験者内計画のとき)には,近似カイ二乗の値がMauchlyの球面性検定のそれと一致します。
Mauchlyの検定の多標本球面性への拡張版に当たります。
Harrisの多標本球面性検定†
多標本球面性の仮定を検討するための効率得点検定(efficient scores test)です(Harris, 1984)。この検定もMendozaの多標本球面性検定と同じく,球面性の仮定と群間での共分散行列の等質性の検定を同時に行います(1段階多標本球面性検定)。この検定は,群が1つしかないとき(被験者内計画のとき)も,Mauchlyの球面性検定とは必ずしも結果が一致しません(John-Sugiura-Nagaoの検定に一致します)。
どの球面性検定を使うか†
ANOVA君は,デフォルトでは,Mendozaの多標本球面性検定を行います(anovakun 4.0.0以降)。
このように設定した理由としては,Mendozaの検定は混合要因計画にも被験者内計画にも対応しているということがあります。
また,Mendozaの検定は,被験者内計画に適用したときにMauchlyの球面性検定との整合性が高い(検定結果が一致する)という特徴があります。
ただし,Mendozaの検定は,計算途中の中間結果が極めて大きい(または小さい)値となることがあります。
このことには計算途中で値を対数に変換することで対応していますが,値が極端に小さすぎたり負になったりしたときは対数への変換が行えず,計算不能に陥ることがあります。
計算不能になった場合には,ANOVA君は“NA”と出力します。
このような場合には,他の球面性検定を用いると解が得られることがあります。
その際,被験者内計画のデータであればMauchlyの球面性検定,混合要因計画であればHarrisの多標本球面性検定を用いるのがよいと思われます(オプションで指定できます)。
また,被験者内計画でも,統計量としてMendozaのλ*ではなく,MauchlyのWを知りたい場合には,Mauchlyの球面性検定を指定する必要があります。
被験者内のデータの場合,2つの検定の間で近似カイ二乗値は一致しますが,Mendozaのλ*とMauchlyのWの値は一致しません。
一般に,λ*はWよりもずっと小さい値を取る傾向があるようです。
Harrisのh_hatは,もともと,誤差項の自由度の修正値として考案された統計量なので,球面性が成り立っているときは各効果の誤差項の自由度に一致し,(多標本)球面性が破綻しているほどもとの自由度よりも小さな値になるようです。
Cornell et al.(1992)は,Mauchlyの検定を含む8種類の球面性検定を比較した結果,John-Sugiura-Nagaoの局所最良不変検定(locally best invariant test)がサンプルサイズにかかわらず検出力が高く,有用であるとしています。
Harrisの検定はこのJohn-Sugiura-Nagaoの検定の多標本球面性への拡張版に相当します。
Kirk(2013)は,Cornell et al.(1992)の結果に基づいてHarrisの検定を勧めています。
多標本球面性の仮定が成り立たないとき†
被験者内計画で球面性の仮定が成り立たないときは,Greenhouse-GeisserかHuynh-Feldtのεによって自由度を調整することで近似的に適切なF検定を行うことができます。
では,混合要因計画で多標本球面性の仮定が成り立たないときは,どのようにすればタイプⅠエラー率を抑えることができるのでしょうか?
対処法は,分析しようとしているデータが釣り合い型計画であるか,非釣り合い型計画であるかによって異なります。
釣り合い型計画の場合は,群ごとの共分散行列をプールした行列をもとに,被験者内計画の場合と同じようにεを計算し,このεを使って自由度を調整すればタイプⅠエラー率を適切にコントロールできるとされています。
ANOVA君でεによる調整を指定した場合には(gg,hf,autoオプション),この方法で計算したεが適用されます。
しかし,非釣り合い型計画の場合には,この方法を使ってもタイプⅠエラー率の増大を抑えることはできないことが指摘されています(Keselman & Keselman, 1990; Keselman et al., 1995)。
Keselman et al.(2001)は,このような場合のための4つの対処法を紹介しています。
具体的には,(1)Huynhの近似F検定,(2)混合モデル,(3)Welch-Jamesの方法を用いたMANOVA,(4)経験的ベイズアプローチの4つです。
これら4つの方法にはそれぞれ一長一短があり,どれを使えばよいのか迷ってしまうところです(各手法の特徴はKeselman et al., 2001の表にまとめられています)。
しかし,同様の主旨で,より紙幅の少ないKeselman(1998)では,このうちの2つのみ,(1)Huynhの近似F検定と(3)Welch-James検定を薦めています。
フィフティ・フィフティで,選択肢は2つになりました。
Keselmanはどちらを推奨しているのでしょうか。
Huynhの改良版一般近似検定†
Huynhの近似F検定,改良版一般近似検定(improved general approximation test: IGA test)は,通常の分散分析に修正を加えることで,多標本球面性の仮定の崩れに対応することができます。
この方法では,まず,検定の際の自由度として,データから推定した自由度の期待値(h,h',h' ')を用います。
εによる調整ではもとの自由度にεをかけ算していましたが,IGAではまるごと値を置き換えます。
さらに,F値にも調整を行います(εによる調整では,F値自体は調整なしのときと同じでした)。
この場合は,調整値(b^,c^;それぞれ,主効果と交互作用のための調整値)をもとのF値にかけます。
以上の手続きで多標本球面性への対策としては十分なのですが,欠点としては,検出力が低いことが挙げられます。
IGAによる自由度の調整は,自由度を低くすることで多標本球面性からの逸脱によるタイプⅠエラーのインフレーションを抑えるものです。
そのため,データが多標本球面性の仮定から外れているほど自由度は低く修正されます。
例えば,あるデータでは,もとの自由度(3, 81)を調整すると,(1.3, 14.4)になります。
81もあった誤差項の自由度が14.4になってしまっています。
このように,IGAを使うとがっかりするほど検出力が低くなることがあります。
Welch-James法†
一方,Welch-James法ですが,こちらはMANOVAを基本として,水準別誤差項の考えを適用したものです。
その特徴はMANOVAのそれと同じです。
すなわち,適切にタイプⅠエラーを制御するために,そもそも球面性を仮定する必要がありません。
理論的にはMANOVAの方がANOVAよりも優れている(球面性を仮定する必要がない)ことは他の多くの統計家も指摘するところです。
ただし,MANOVAは,ANOVAに比べると,標本数を多く必要とします。
最低でもすべての要因の水準数の積の値だけの標本数がなければ適切な計算を行えません。
また,上の条件を満たしていたとしても,経験的には,20程度の標本がなければ十分な検出力が得られないと言われています。
Welch-James法もこれらの特徴を引き継いでいます。
手法の評価†
Keselman(1998)は,検出力の観点から見て,IGAよりもWelch-James法の方が優れていることを指摘しています。
十分な標本数があれば,Welch-James法はIGAに比べて60%以上も検出力で優ると主張しています。
ただ,これはWelch-James法の検出力が高いからというよりは,比較対象であるIGAの検出力が極端に低いからという気もしますが……。
Welch-James法自体は通常のMANOVAと同じかそれに少し劣るくらいの検出力なのでは?と思います(ただし,真偽は不明です)。
ANOVA君の仕様†
以上のようなあれこれがあるのですが,結局のところ,ANOVA君には,IGAとその改良版であるCIGAをオプションとして搭載しました(iga,cigaオプション)。
IGAは通常の球面性の仮定が破れた場合のεによる修正のアプローチに近いこと,多重比較などの下位検定との連携がしやすい(慣例的にどのように適用されているかがわかる)ことが主な理由です。
MANOVAについては,単純主効果の検定,多重比較との連携の仕方について作成者が把握していないこと,また,関数が“ANOVA君”であるということもあり,現在のところ扱わない方向で考えています。
ちなみに,Rで(通常の)MANOVAを行いたい場合には,manova関数やcarパッケージのAnova関数を利用することができます。
IGA(とCIGA)は検出力は低いですが,多標本球面性の仮定が破れた条件のもとでタイプⅠエラー率を制御するためには妥当な方法であると見られています(e.g., Kelselman, 1998)。
(タイプⅡエラー率は高いかもしれませんが……。)
なお,IGAはHuynh-Feldtのイプシロンとの連続性が高い手法で,LecoutreがHuynh-Feldtのイプシロンに対して指摘したのと同様の問題があります(Huynh-Feldtのイプシロンの計算式)。
これを修正したのがAlgina-LecoutreのCIGAです。
つまり,修正前のHuynh-Feldtのイプシロンに対応するのがIGA,修正後のHuynh-Feldt-Lecoutreに対応するのがCIGAというわけです。
そこで,非釣り合い型計画のデータで多変量球面性からの逸脱に対処するためにはCIGAのほうを使うことをお勧めします。
文献†
千野直仁 (1994). 反復測度デザイン概説-その2-球形検定とその周辺についての批判的レビュー-. 愛知学院大学文学部紀要, 24, 103-119. [Link to Cinii]
Cornell, J. E., Young, D. M., Seaman, S. L., & Kirk, R. E. (1992). Power comparisons of eight tests for sphericity in repeated measures designs. Journal of Educational Statistics, 17, 233-249.
Harris, P. (1984). An alternative test for multisample sphericity. Psychometrika, 49, 273-275.
Huynh, H. (1978). Some approximate tests for repeated measurement designs. Psychometrika, 43, 161-175.
Keselman. H. J. (1998). Testing treatment effects in repeated measures designs: An update for psychophysiological researchers. Psychophysiology, 35, 470-478. [Link to PDF]
Keselman, H. J., Algina, J., & Kowalchuk, R. K. (2001). The analysis of repeated measures desings: A review. British Journal of Mathematical and Statistical Psychology, 54, 1-20. [Link to Journal]
Keselman, H. J., Keselman, J. C., & Lix, L. M. (1995). The analysis of repeated measurements: Univariate tests, multivariate tests, or both? British Journal of Mathematical and Statistical Psychology, 48, 319-338.
Keselman, J. C., & Keselman, H. J. (1990). Analysing unbalanced repeated measures designs. British Journal of Mathematical and Statistical Psychology, 43, 265-282.
Kirk, R. E. (2013). Experimental design: Procedures for the behavioral sciences (4th edition). Los Angeles: SAGE Publications.
Mendoza, J. L. (1980). A significance test for multisample sphericity. Psychometrika, 45, 495-498.