ANOVA君/反復測定デザインにおける効果量 - 井関龍太のページ

ホーム   編集 凍結 差分 バックアップ 添付 コピー 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS

ANOVA君/反復測定デザインにおける効果量

Last-modified: 2015年10月17日 (土) 09:56:30 (1067d)
Top > ANOVA君 > 反復測定デザインにおける効果量

一般化効果量

このところ,論文を投稿する際には“効果量を記載するように”という声を聞くことが多くなったように思います。
一般的によく用いられる分散分析の効果量の指標としては,ηp2(偏イータ二乗)とωp2(偏オメガ二乗)があります。
しかし,他の多くの統計手法がそうであるように,これらの指標もまた反復測定デザインには適切に対応していないのです。

そもそも,ηp2やωp2は,η2とω2を反復測定デザインでも使えるように,効果量を知りたい効果に関わる平方和のみを使って計算する指標だったはずです。
η2とω2の計算式は以下のようなものです。
(ただし,ここでのω2の式は,被験者間計画のみに対応した式です。)

η2=SSEffect/(SSTotal

ω2=(SSEffect-dfEffect×MSerror)/(SSTotal+MSerror

ここで,“error”はそれぞれの“Effect”に対応する誤差項の平方和や平均平方であることを表します。

これに対して,ηp2とωp2の計算式は以下のようになります。

ηp2=SSEffect/(SSEffect+SSerror

ωp2=(SSEffect-dfEffect×MSerror)/(SSEffect+(N-dfEffect)×MSerror

ここで,Nは効果を推定するのに用いたデータの総数になります。
η2とω2は全体平方和(“Total”)に占める効果の割合を計算していたのに対して,ηp2とωp2では,被験者の個人差による変動(SSs)や交互作用を除いた平方和に占める効果の割合を計算していることがわかるかと思います。
このように被験者による変動を除いているのだから,ηp2とωp2で十分なのではないかと考えたいところです。

しかし,ηp2やωp2では困る事情があるのです。
これらの指標を用いた場合には,被験者間計画で得られた効果と反復測定要因を含む計画(被験者内計画と混合要因計画)で得られた効果の大きさを適切に比較できないのです。
反復測定要因を含む計画で計算したηp2とωp2の推定値は,被験者間計画でのそれらに比べて(不当に)大きくなります。
そのため,これらの指標を使った場合には,同じ現象を扱った研究でも,その現象を被験者間要因として測定した研究と被験者内要因として測定した研究とでは,効果の大きさを公平に比べることができなくなります。

この問題をクリアするため,Olejnik & Algina(2003)は,新たな効果量の指標として,一般化イータ二乗(generalized eta squared; ηG2一般化オメガ二乗(generalized omega squared; ωG2を提案しています。
これらの新たな指標は,特定の効果の推定に関わるすべての個人差による変動を効果量計算の分母に取り入れることによって,効果量の指標と実験計画の型の交絡を避けることを目指しています。

これらの一般化効果量の計算式は,少々ややこしいのですが,およそ以下のようなものになります。

ηG2=SSEffect/(δ×SSEffect+∑SSMeas+∑SSk

ωG2=(SSEffect-dfEffect×MSerror)/(δ×(SSEffect-dfEffect×MSerror)+∑(SSMeas-dfMeas×MSMeas)+N×MSs/Cells

ここで,kは分析に含まれるすべての誤差項の数,Measは分析に含まれるすべての測定要因,s/Cellは分析に含まれるすべての誤差項を合成したものを表します。
δはEffectが測定要因である場合には0,そうでない場合には1になります。
ここで,測定要因という耳慣れない用語を説明抜きに使っていますが,一般化効果量を使用する際には操作要因と測定要因という概念が重要になってきます。
しかし,まずは操作要因と測定要因の違いは置いておいて,偏効果量との違いを明確にするために反復測定計画における偏効果量と一般化効果量の違いから説明したいと思います。

反復測定デザインにおける違い

ここでは,より計算法が簡単なηの場合を例に挙げます。
1要因の被験者内計画の場合に,例えば,以下のような分散分析表が得られたとします。

------------------------------------------------------------------------------------
     Source              SS          df            MS     F-ratio        p-value 
------------------------------------------------------------------------------------
          s             0.3813       8          0.0477                          
------------------------------------------------------------------------------------
          A             0.7517       3          0.2506    3.6200        0.0275  *       
        sxA             1.6612      24          0.0692                          
------------------------------------------------------------------------------------
      Total             2.7942      35  +p < .10, *p < .05, **p < .01, ***p < .001      

この場合,要因Aについてのηp2は,以下のようになります。

ηp2=SSA/(SSA+SSsxA

= 0.7517/(0.7517+1.6612)

= 0.3115

一方,要因AについてのηG2は,以下の式で計算できます。
先ほどの一般式とは違い,1要因の被験者内計画に特化した式を用いています。

ηG2=SSA/(SSA+SSs+SSsxA

= 0.7517/(0.7517+0.3813+1.6612)

= 0.2690

SSsが加わっていることからわかるように,ηp2よりも小さい値になっています。
このように,被験者内計画では,ηG2は,すべての誤差平方和を分母に加えることになります。
2要因の被験者内計画の場合,要因Aについての効果量を得ようとすると,計算式は以下のようになります。

ηG2=SSA/(SSA+SSs+SSsxA+SSsxB+SSsxAxB

このため,ηG2は,一般に,ηp2よりも小さく,η2よりも大きい値を生じることになります。
このように,被験者によるすべての誤差変動を分母とすることで,一般化効果量は被験者内要因と被験者間要因の効果の大きさを均等に比較できるように配慮されています。

操作要因(manipulated factor)と測定要因(measured factor)の区別

一般化効果量の立場からすると,ある研究におけるデータは2つの分散のソースから生じると考えられます。
その2つとは,研究において操作した要因(操作要因)と個人差です。
個人差には,被験者の安定した特性・一時的な特性に加え,実験環境の制御不可能な特性なども含まれます。
それらの中で,実験者によって操作はできないが,測定することによって要因に含めることができたものを測定要因と呼びます。

例えば,ある単語を視覚提示するか聴覚提示するかは操作可能なので,操作要因です。
しかし,ある被験者の性別が男性か女性かということは,実験者には操作できないので測定要因になります。
また,測定要因と他の要因(操作要因を含む)の交互作用項はすべて測定要因と見なされます。
このように,ある要因が操作要因であるか測定要因であるかということは,統計学的に区別のつく事柄ではなく,実際に扱っている要因の性質(操作・条件割りつけの内容)に基づいて研究者が判断しなければなりません。

計算上の扱いとしては,測定要因及び測定要因を含む交互作用の平方和は,すべて分母に含めます(Meas)。
Measの中に効果の大きさを知ろうとしている効果自体が含まれる場合には,計算式の分母の中に同じ平方和が2回現れることになるので,一方を削除します(δ=0)。
したがって,測定要因は一般化効果量の分母を大きくし,結果的に効果量の値を小さくする働きがあります。
このことは,測定要因が個人差による変動を含むことを反映しているものと思われます。

ANOVA君(version 4.2.0以降)での実装においても,ηG2とωG2のオプションでは,測定要因を指定することができます。
ちなみに,反復測定要因は定義からいって常に操作要因となります。
そのため,ANOVA君で反復測定要因を測定要因に指定しても(指定することはできますが)適切な結果は得られません。

これらの効果量のさらなる詳細については,引用文献を参照ください。
Olejnik & Algina(2003)には,様々な要因計画の場合のより具体的な計算式の例が記載されています。
また,ηG2については,Bakeman(2005)も,反復測定計画での適用を中心にくわしく紹介しています。

使用上の注意

最後に,これらの効果量を用いる際の注意すべき点として2つを挙げておきます。
1つは,ηG2やωG2を用いたとしても,もともと母集団の性質が異なる場合の効果を適切に比較することはできないということです。
例えば,3~7歳児で得られた効果の大きさを8~11歳児を扱った別の研究で得られた効果と適切に比較できるという意味ではないと説明されています(Bakeman, 2005, p. 380r)。
一般化効果量は,あくまでデザインの異なる研究で得られた効果の大きさを適切に比較するためのもので,母集団の違いを乗り越えて比較できることを保証するものではないということです。

2つめとして,これらの効果量は,釣り合い型計画を前提としています。
非釣り合い型計画には対応していません。
この点については,一般化効果量だけでなく,上に挙がっているどのη2とω2の指標を用いたとしても同じです。
ただし,Yatesの非加重平均分析を用いれば非釣り合い型計画のための代わりの測度を開発することは可能であろう,とOlejnik & Algina(2003)は述べています(p. 437r)。

以上の一般化効果量の利用と解釈における一般的な注意点とは別に,ANOVA君における実装上の注意点についても述べておきます(かなり細かいところの話です)。
ANOVA君では,測定要因を含む被験者間計画における下位検定での一般化効果量の計算方法が適切かどうかは明確ではありません。
具体的には,例えば,ABsデザインでB要因が測定要因に当たるとします。
この状況下で下位検定でB at a1の単純主効果の効果量を計算する場合,3通りの式が考えられます。
1つは,基本的にこれまでの計算式に則って,SSEffectの部分のみを単純主効果の平方和に置き換えたものです。

ηG2=SSB at a1/(SSB at a1+SSB+SSAxB+SSError)  (1)

しかし,この式の分母をよく見ると,SSB at a1とSSBの両方が含まれていることに気づきます。
SSB at a1は,理屈の上ではSSBの一部のはずですから,ここに両方の平方和が含まれているのはおかしなことかもしれません(計算の上では,SSB at a1がSSBよりも大きくなったりすることもあるようですが)。

そこで,SSBを削除した式も考えられます。

ηG2=SSB at a1/(SSB at a1+SSAxB+SSError)  (2)

しかし,一般化効果量ではB要因の効果に関連するすべての平方和を分母に持ってこようとしているわけですから,勝手にB要因の平方和だけ部分的なB at a1に差し替えてしまうのは適切でないかもしれません。
そこで,SSB at a1の方を削除した式も考えられます。

ηG2=SSB at a1/(SSB+SSAxB+SSError)  (3)

しかし,この式はこれまでの式とは違って,効果の大きさを知ろうとしている効果(B at a1)自体の平方和が分母に直接含まれていないという点で問題があるかもしれません。

おそらく,どの方法が最も適切かについての公式見解は今のところは表明されていないのではないでしょうか。
ANOVA君では,現在のところ(2)の式を採用しています(version 4.7.0)。
これは,単純に,平方和のうち特定の効果によって説明される割合を算出しようとしているのだから,分子にも分母にも同じ成分についての平方和が入っていたほうがよいという考えに基づくものです。
ただし,この方針には今述べた以上の根拠はありませんし,効果量の専門家が提示した見解でもありませんので,その点,ご注意ください。

version 4.6.2までは(3)の式を採用していましたが,このやり方ではまれに一般化イータ二乗が1を超えることが起こりえます。version 4.7.0以降は,(2)の方針に変更しました。

なお,被験者内計画や混合要因計画の場合は,ANOVA君では水準別の誤差項を使用しているので,この問題は生じません。
被験者間計画でも,測定要因を含まない場合はこのことは問題にはなりません(計算結果は偏平方和と一致します)。


Bakeman, R. (2005). Recommended effect size statistics for repeated measures designs. Behavior Research Methods, 37, 379-384.
Olejnik, S., & Algina, J. (2003). Generalized eta and omega squared statistics: Measures of effect size for some common research designs. Psychological Methods, 8, 434-447.

その他の効果量関連の記事

オメガ二乗の複雑な事情
標準化効果量の信頼区間

TrackBack(0) | 外部リンク元 | このエントリーをはてなブックマークに追加