ANOVA君/平方和のタイプ - 井関龍太のページ

ホーム   編集 凍結 差分 バックアップ 添付 コピー 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS

ANOVA君/平方和のタイプ

Last-modified: 2013年09月29日 (日) 16:16:40 (1875d)
Top > ANOVA君 > 平方和のタイプ

平方和のタイプ

分散分析をしようとするとき,思わぬ問題が生じることがあります。
要因計画の各セル内のデータ数が等しいとき(釣り合い型計画のとき)は何の問題もないのですが,何らかの偏りがあるとき(非釣り合い型計画のとき)にはこの問題が生じます。

通常の分散分析の方法で非釣り合い型計画のデータを分析しようとすると,データの投入順序によって計算結果(厳密には,平方和の値)が変わってしまうのです。
この問題に対処するため,平方和についての複数の推定法が考えられてきました。
一般に,タイプⅠ~Ⅳまでの推定法が普及しています。

この中でよく用いられるのは,タイプⅡとタイプⅢの平方和です。
タイプⅠはもともとの古典的な計算法に相当するもので,結果が投入順序に依存するため,非釣り合い型データの分析には適していません。
タイプⅣは欠損セルがあるときに用いられる特殊な方法で,一般にはあまり使われないようです。
さらには,現在では,タイプⅤやタイプⅥの平方和もあるそうですが,これらについてはよくわかりません(STATISTICAで使えるそうです)。

そこで,ここでは,タイプⅡとタイプⅢのどちらを選ぶかという問題を主に考えてみます。
Langsrud(2003)は,様々な統計ソフトウェアがどのタイプの平方和をデフォルトとしているのかを表にまとめています(Langsrud, 2003, Table 1)。
その表を見ると,タイプⅢをデフォルトとしているソフトが最も多く,次いでタイプⅠをデフォルトとしているソフトが複数あります。
タイプⅡをデフォルトとしているソフトは,何と1つもありませんでした。

意外に思われるかもしれませんが,LangsrudはタイプⅡ支持派です。
タイプⅡはタイプⅢに比べてこんなに優れているのに,ソフトウェアがデフォルトにしないとは何事か!というわけです。
しかし,著者の意図とは裏腹に,この表は,タイプⅢはこんなに支持されているんだ,という印象を与えてしまっているような気がします。

それでは,タイプⅡとタイプⅢは,具体的には,どのような点で違っているのでしょうか。
主な違いを表にまとめてみました。

タイプⅡタイプⅢ
モデルタイプⅠとほぼ同じ(推定順序,投入項を入れ替えたものに相当)特定の仮定を必要とする(各要因内のダミー変数を足すと0になるように計画行列を作る)
効果の統制自身を下位の項として含まない効果の影響のみ統制他のすべての効果を統制
データ数の反映セル内のデータ数を反映データ数の少ないセルも平等に扱う

これらの特徴から,平方和の選択に関しては,以下のような指摘がなされています。

  • タイプⅢは分析の目的にとって本質的でない,特定のパラメータ制約に依存するが,タイプⅡは依存しない(Langsrud, 2003)
  • セルの間で繰り返し数が極端に違う場合は,タイプⅡの方がよい(高橋他, 1989)
  • タイプⅡの仮説検定はセル頻度に依存するので,タイプⅢの方がよい(Langsrud, 2003:ただし,著者に対立する見解として言及されている)
  • 主効果や下位の効果については,タイプⅡの方がやや検出力が高い(Langsrud, 2003; Macnaughton, 1998)

ここで取り上げた指摘では,タイプⅡ支持が多いようです。
比較的最近の文献を見てみると,一方の平方和を支持する議論をしているのは,タイプⅡ支持派ばかりのようでした。
このことは,実際にタイプⅡの方が理論的,実用的に優れているということを反映しているのかもしれません。
しかし,上で述べたように,タイプⅢは既に圧倒的な支持を得ているので(タイプⅢを使いましょうと勧める統計テキストも少なくありません),今更これを支持する議論を行う必要がないということなのかもしれません。
一般には,タイプⅡとタイプⅢのどちらが優れているのかについては,様々な議論がなされてきましたが,とりあえず決着はついておらず,どちらにもそれなりの妥当性があるということになっているようです(他に,このページも参考になります)。

そのようなわけで,ANOVA君のデフォルトの平方和を何に設定したらよいかについては少々迷いました。
タイプⅡ,タイプⅢの平方和は,釣り合い型データを分析するときには,タイプⅠ平方和の結果と一致するように作られています(したがって,釣り合い型データでは,これら3タイプすべての結果が一致します)。
そこで,通常の使用にはタイプⅠは必要でなく,タイプⅡかタイプⅢがあれば,釣り合い型計画にも非釣り合い型計画にも対応できることになります。

検出力の高さ,最近の理論的支持を考えると,タイプⅡもわるくありません。
一方,伝統的な支持の高さ,その普及度からすると,タイプⅢの方が安心かもしれません。
ここは判官びいきでタイプⅡ,としてもよかったのですが,計算時間を見て考えが変わってしまいました。
実は,現在のANOVA君のアルゴリズムでは,タイプⅢの方が必要な計算回数を少なくできるのです。
まったく同じ分析を行った場合には,タイプⅢの方が常にタイプⅡよりも少し速く解に到達するはずです。
そこで,ANOVA君(3.0.0以降)では,タイプⅢをデフォルトに決めました。

ちなみに,このような明確な計算時間の違いが生じるのは,現在のANOVA君のアルゴリズムの場合に限定していえることです。
平方和の計算法にはいろいろなものがあるので,他のアルゴリズムであれば,違いを生じなくなったり,逆にタイプⅡを速くしたりできるかもしれません。

平方和のタイプの違いについては,計算手順の違いを説明した方が具体的でわかりやすいかもしれません。
興味をお持ち方は,以下のコンテンツをご覧ください。

タイプⅠ平方和の計算法
タイプⅡ平方和の計算法
タイプⅢ平方和の計算法


Langsrud, Ø. (2003). ANOVA for unbalanced data:Use Type II instead of Type III sums of squares. Statistics and Computing, 13, 163-167.
Macnaughton, D. B. (1998). Which sums of squares are best in unbalanced analysis of variance? http://www.matstat.com/ss/easleaao.pdf
高橋行雄・大橋靖雄・芳賀敏郎 (1989). SASによる実験データの解析. 東京大学出版会

TrackBack(0) | 外部リンク元 | このエントリーをはてなブックマークに追加