ANOVA君/反復測定デザインにおける信頼区間 - 井関龍太のページ

ホーム   編集 凍結 差分 バックアップ 添付 コピー 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS

ANOVA君/反復測定デザインにおける信頼区間

Last-modified: 2014年11月24日 (月) 12:50:15 (1454d)
Top > ANOVA君 > 反復測定デザインにおける信頼区間

反復測定の信頼区間の算出法

最近の“新しい統計学”(Cumming, 2014)の潮流においては,効果量とともに信頼区間を表記することが勧められています。
しかし,この信頼区間の算出についても,反復測定デザインにおいてはいろいろと困難があるのです。

まず,独立測定の場合の単一の平均値の信頼区間は以下の式に基づいて計算できます。

\[ \hat{\mu} \pm t_{n-1, 1-\frac{a}{2}} \times \hat{\sigma}_\hat{\mu} \tag{1} \]

ここで,μは標本平均,tはt分布の臨界値,nはサンプルサイズ,σは標準誤差です。

平均値がひとつだけのときは上の式を使って計算すれば何の問題もないのですが,2つの平均値があるときには2通りのやり方があります。
ひとつは上の式(1)を使って,それぞれの平均値について信頼区間を計算するというやり方です(A)。
そして,もうひとつは,以下の式を使って平均の差についての信頼区間を計算するというやり方です(B)。

\[ \hat{\mu}_1 - \hat{\mu}_2 \pm t_{n_1+n_2-2, 1-\frac{a}{2}} \times \hat{\sigma}_{\hat{\mu}_1 - \hat{\mu}_2} \tag{2} \]

この式におけるσは平均値の差の標準誤差になっています。
この標準誤差はプールした誤差項に相当し,2つの群の母分散が等しいことを仮定しています。
仮に母分散が等しかったとしても,AとBの方法の信頼区間は必ずしも一致しません。
Aの方法で2つの平均の信頼区間を計算し比較する場合,標準誤差はσ1+σ2に相当します。
一方,Bの方法で差分の信頼区間を計算した場合には,標準誤差はsqrt(σ12+σ22)です。
そこで,これらの値は常に以下の比の分だけずれることになります。

\[ \frac{\hat{\sigma}_{\hat{\mu}_1}+\hat{\sigma}_{\hat{\mu}_2}}{\sqrt{\hat{\sigma}^2_{\hat{\mu}_1}+\hat{\sigma}^2_{\hat{\mu}_2}}} \]

このように,2つ以上の平均値を比較する目的で信頼区間を計算する際には,そもそも基本的に困難があることがわかります。

反復測定デザインの場合,条件間の誤差は独立であるとは仮定できないので(同一の参加者に基づいているので相関がある),さらなる問題が生じることになります。
相関が正の場合は標準誤差が小さくなり,負の場合には標準誤差が大きくなるため,単純に上記の式を使ったのでは適切な信頼区間を得ることはできません。
以下では,Baguley(2012)とFranz & Loftus(2012)をもとに,反復測定デザインのための信頼区間の算出法を紹介したいと思います(Baguley, 2012には,計算例のデータセットとRのコードもついています)。

Loftus-Massonの方法

このような問題への対処として考えられたのがLoftus & Masson(1994)の方法です。
これは,通常の標準誤差の代わりに,分散分析における誤差項のMSeを用いて信頼区間を計算するというやり方です。
以下は,式(1)のσ(標準誤差)に当たる部分のみを示したものです。

\[ \hat{\sigma}_\hat{\mu} = \sqrt{\frac{MSe}{n}} = \sqrt{\frac{1}{n(n-1)}\sum_{i=1}^n{(y_{ij} - \bar{y}_{.j}})^2} \tag{3} \]

ここで,MSeは分散分析における誤差の平均平方,nはこの効果の推定に関わる参加者の総数,ⅰは参加者数の添え字,jはこの要因の水準数の添え字です。
この方法を用いることで,分散分析に対応した統計量に基づく信頼区間を得ることができます。
また,反復測定デザインでは,誤差項のMSeからは被験者の効果(個人差の効果)の影響が除かれているため,分散分析における相対的な検出力の高さを信頼区間にも反映させることができます。

Loftus-Massonの方法は,反復測定デザインのための信頼区間の方法として広く用いられてきましたが,さまざまに批判もなされています(Baguley, 2012; Blouin & Riopelle, 2005; Cousineau, 2005)。

そのひとつとして,条件を通してプールしたMSeを用いていることが挙げられます。
この結果何が起こるかというと,Loftus-Massonの方法では,すべての条件で信頼区間の幅(エラーバーの長さ)が同じになります。
この状況は,被験者×条件の交互作用が0であると仮定することに等しいと指摘されています(O'Brien & Cousineau, 2014)。
つまり,どの参加者にもすべての条件で同じだけの要因効果があると仮定しているわけですが,これは現実的には成り立つとは限らない条件でしょう。

また別の問題として,(3)の式は,一要因の被験者内計画の場合には特に議論の余地がないものと思われますが,二要因以上の計画の場合には誤差項の扱いについていくつかの選択肢が生まれてきます。
というのは,二要因以上の反復測定要因を含む計画では,反復測定要因の誤差項は複数存在するからです。
一般によく用いられているやり方にしたがうなら,複数の反復測定要因の誤差項をプールして用いることになります。
これはストレートな方法ですが,この方法を使った場合,通常よく用いられる反復測定分散分析とは異なるモデルに対応する誤差項を使って信頼区間を計算していることになります。
具体的には,大局的球面性が成り立つ場合の加算モデルに相当するものを使っていることになりますが,これはほとんどのソフトウェアでデフォルトでは出力されることのないモデルです。

そこで,複数の要因の誤差項をプールしない代案も考えられます。
いずれか特定の要因のみを選び,その部分の誤差項を選ぶのです。
たとえば,交互作用に関心のある研究なので,A×Bの交互作用の誤差項のみを用いるなどです。
のちの研究者(Hollands & Jarmasz, 2010; Jarmasz & Hollands, 2009)は,この方法の発展形として,以下のような式を提示しています。

\[ \sqrt{\frac{MSe_{R \times s}}{\frac{n \times L}{r}}} \]

ここで,Rはその効果の信頼区間を評価しようとしている反復測定要因を示し,R×sはこの要因に対応するMSeであることを示しています。
Lは分析しようとしているデザインの含むすべての反復測定要因の水準数の積,rはR要因の水準数(R要因が交互作用の場合には,この交互作用に関わる要因の水準数の積)です。
このようにすることで,効果の推定に関わるデータの数(観測数)を結果に反映させることができます。

この方法の場合,例えば,A要因の効果について信頼区間を評価しようとしているのであればRとしてA要因のみを考慮し,B要因について評価するのであればRはB要因になります。
A×Bの交互作用について考えるのであれば,RはA×Bになります。

特定の誤差項を選ぶ方法を用いた場合,どの効果を選ぶのが適切かという問題は残ることになります。
また,上のいずれのバリエーションを用いたにしても,球面性の仮定の問題が残ります。
球面性の仮定が成り立っているとすれば,水準や要因を通してプールした誤差項を用いて信頼区間を計算することに問題はありませんが,一般には球面性はそれほど広くは成り立たないとみられています(Baguley, 2012)。
この点に関しては,Loftus & Masson(1994)は,εによる修正を信頼区間の計算に反映させる方法を提案しています。
ただし,複数の要因をプールした場合には,εによる修正はできなくなります。

Cousineau-Moreyの方法

Loftus-Massonの方法に対して挙げられる批判はさまざまにありますが,それらは全般的に分散分析とその前提条件から生じているように思われます。
そこで,Cousineau(2005)は,分散分析モデルにこだわらず,データに正規化(normalization)を施すことで個人差を除く方法を提案しました。
ここでいう正規化とは,ローデータ(素点)から各参加者の平均値を引く操作のことを指します。
これにより個人差の影響を減らすわけですが,これだけだと平均値そのものが変わってしまうので,さらに大平均(grand mean)を足すことによって平均が変化しないようにします。
式で表現すると以下のようになります。

\[ w_{ij}=y_{ij}-(\bar{y}_{i.}-\bar{y}_{..}) \]

ここで,yはローデータで,wは正規化後の得点です。
iは参加者の素点,jは水準の素点,..がついているのは大平均です。
この得点wを(1)に投入することで信頼区間を計算します。
単一の水準のみに基づいて標準誤差を計算することで,誤差項のプールは行わずにすみます。
一方で,個人差の効果は相殺されて条件の効果が強調されるようになっています。

ただし,正規化したデータには正の共分散が生じますが,信頼区間の計算では相関がないものとして扱っているために過少推定のバイアスが起こることが知られています。
Morey(2008)は,この関係性を導出して修正のための係数を提案しています。
この係数を加えた式が以下のものです。

\[ \hat{\mu} \pm t_{n-1, 1-\frac{a}{2}} \times \sqrt{\frac{L}{L-1}} \times \hat{\sigma}_\hat{\mu} \tag{4} \]

ここで,Lはデザインに含まれるすべての反復測定要因の水準数の積です。
先ほどの得点wをこの式(4)に投入して得られたものはCousineau-Moreyの信頼区間と呼べるでしょう。
Cousineau-Moreyの方法では,Loftus-Massonとは異なり,条件ごとに幅(エラーバーの長さ)が異なる信頼区間が得られます。

マルチレベルモデルに基づく方法

Blouin & Riopelle(2005)によれば,Loftus-Massonの方法による反復測定要因の信頼区間は,通常の分散分析とは異なるモデルに基づいています。
通常の分散分析では,要因効果は固定効果,被験者効果は変量効果とするモデルを用いています。
これに対して,Loftus-Massonによる反復測定要因の信頼区間は,被験者効果を固定効果として扱うモデルから導出したものになっているそうなのです。
もしこの議論の通りだとすれば,Loftus-Massonの方法による信頼区間からは,参加者を超えて結論を一般化できないことになります。
(ただし,Franz & Loftus, 2012は,この議論はLoftus & Masson, 1994を誤解していることに基づくものであるとしています。)

Blouin & Riopelle(2005)は,要因効果を固定効果,被験者効果を変量効果とみなすマルチレベルモデル(混合モデル)を用いて信頼区間を推定することを勧めています。
制限付き最尤推定法(REML法)を用いた場合,反復測度間に複合対称性を仮定するマルチレベルモデルと反復測定分散分析モデルは等価になるとの理由からです。
さらに,マルチレベルモデルを使う場合,球面性を仮定しない形でモデルを組み,信頼区間を推定することも可能です。
このようにすれば,要因効果を固定効果,被験者効果を変量効果としたモデルに基づいて,しかも,球面性からの逸脱も問題にならない形で信頼区間を算出できるというわけです。

Cousineau-Moreyの方法が分散分析モデルにこだわらないことで無理な統計的仮定を避けようとしたのに対して,Blouin-Riopelleのアプローチでは,逆に,より高度なモデルを使うことによって解決を図ろうとしているようで興味深いところです。

Goldstein-Healyプロット

ここまでは,信頼区間の算出法を直接的に扱ってきましたが,Goldstein & Healy(1995)は,少し違ったアプローチからの提案をしています。
信頼区間をグラフに表示して解釈する場合,平均値の信頼区間に0が含まれる場合は平均値は0と有意に異なるとは言えず,重なりがない場合には0とは有意に異なると判定できるといった説明がなされることがあります。
しかし,このことは2つの平均値を比較する場合には当てはまりません(つまり,この議論は式(1)の場合には当てはまるが式(2)の場合には該当しないということです)。
そして,当然ながら分散分析の場合にも当てはまらないことになります。
これでは信頼区間を図示することによって統計的推論を補助するという目的には不便です。
そこで,Goldstein & Healy(1995)は,2つの独立の平均の信頼区間に重なりがあるか否かと有意性検定の結果を対応させて解釈できるようにするための乗数を提案しました。
Afshartous & Preston(2010)は,この方法を反復測定要因の場合に拡張しています。

Franz-Loftusの方法

Franz & Loftus(2012)は,Cousineau-Moreyの方法の提案を受けて,正規化に基づく方法を使ったとしても評価しきれない球面性の逸脱があることを指摘しています。
正規化は,ある水準間の大きな差を他の水準間に分散させてしまうので,必ずしも適当でないというのがそのひとつの具体例です(Franz & Loftus, 2012, Figure 2の例)。
そこで,球面性に配慮し,Loftus & Masson(1994)のアプローチに一致する方向の反復測定要因の信頼区間として,ペアワイズの信頼区間を計算することを提案しています。
具体的には,反復測定要因のすべての水準から可能なペアを作り,それぞれのローデータの差を計算します。
この差分得点を式(3)に投入すれば,ペアワイズの信頼区間が計算できます。

球面性の逸脱の問題に対処するためにペアワイズで統計量を計算するという方法は,多重比較においても用いられており(水準別誤差項),その意味ではFranz-Loftusのアプローチには球面性への対処法として一般性があると言えるかもしれません。
ただし,直感的にはやや理解しにくいプロットが得られる可能性があります。
a1,a2,a3の3つの水準を持つ反復測定要因の場合,Franz-Loftusの方法に基づく信頼区間は,a1-a2,a2-a3,a3-a1の3つの差分について計算されることになります。
このプロットについては,単純に3つの条件の平均値を比較するのとは違った見方が要求されるでしょう。

また,組み合わせ数が多くなりやすいという問題もあります。
例えば,4水準の反復測定要因ならペアワイズの信頼区間は6つになります。
2要因以上の反復測定要因を含む計画の場合には,反復測定要因に含まれる水準の可能なすべてのペアワイズの組み合わせを計算します。
例えば,3×5の被験者内計画であれば,15水準の一要因被験者内計画のように扱うことになります(Franz & Loftus, 2012)。
この場合,組み合わせ数は105個になると思います。

一方で,Franz-Loftusの方法は,ペアワイズの多重比較と一致したアプローチになります。
信頼区間を算出する際にt分布の臨界値を修正すれば,Bonferroni系の方法を用いた場合の結果に一致させることができます。
これは上で紹介した他の方法では対応できない性質です(上記の他の方法は多重比較には対応していません)。
逆に,Franz-Loftusの方法は主効果や交互作用の評価には対応していないので,目的による使い分けが必要になると思われます。

どの方法を用いるか

反復測定要因の信頼区間を算出するための様々な方法を紹介してきました。
それでは,実際にはどの方法を使えばよいのでしょうか。

球面性の仮定の問題を考えれば,Loftus-Massonの方法をそのまま用いることには何らかの配慮が必要になると思われます(球面性が仮定できるのであれば,Loftus-Massonはなお妥当な方法であるとBaguley, 2012は述べています)。
Cousineau-Moreyの方法は,比較的簡単な計算方法によって,誤差項のプールを行わずに複数の条件間の比較ができる信頼区間を算出します。
マルチレベルモデルは,より柔軟にモデルを組むことができるという点において,理論的には最も優れたアプローチでしょう。
一方,分散分析を用いるときには,平均値の間に有意な差があるかどうかに関心があることが多いと思われます。
Goldstein-Healyプロットはこのような推論を容易にする点で有用です。

これらのことを鑑みて,Baguley(2012)は,以下の方式を進めています。
それは,Cousineau-Moreyの方法にGoldstein-Healyプロットの性質を付け加えるという方法です。
具体的には,Cousineau-Moreyの信頼区間を差分についての信頼区間に一致させるための係数をかけて計算します。

\[ \hat{\mu'} \pm \frac{\sqrt{2}}{2} \times t_{n-1, 1-\frac{a}{2}} \times \sqrt{\frac{L}{L-1}} \times \hat{\sigma'}_\hat{\mu'} \tag{5} \]

ここで,μ'とσ'は,Cousineau-Moreyの方法と同様に正規化を行った後のデータに基づく値であることを示しています。
平均値の差について解釈できるように調整されているので,このような形の信頼区間は差分調整型(difference-adjusted)の信頼区間と呼ばれています。

ANOVA君(version 4.5.0以降)では,このBaguleyの提案した信頼区間をオプション指定により出力します(cindオプション;CI-Normalized-Difference-Adjusted)。また,平均値間の差ではなく,単一の平均値の推定の正確さに関心がある場合には差分調整をしないほうがよいかもしれません。そのような場合には,差分調整を行っていない,Cousineau-Moreyの方法に基づく信頼区間も指定できます(cinオプション;CI-Normalized)。

また,version 4.5.1以降では,反復測定デザインにおける信頼区間の基本的な指標として,Loftus-Massonの信頼区間も出力できるようになりました(cilmオプション;CI-Loftus-Masson)。こちらについても差分調整型を指定することができます(cilmdオプション;CI-Loftus-Masson-Difference-Adjusted)。

ただし,この正規化に基づく方法によっても球面性の逸脱の問題を完全に避けることはできません。
Cousineau & O'Brien(2014)は,正規化に基づく信頼区間とともに球面性の指標も報告したほうがよいと述べています。
また,この信頼区間を妥当に用いるためのひとつの目安としてHuynh-Feldtのεが0.70以上はあることが望ましいとしています。
球面性の仮定が成立しないと思われる場合には,マルチレベルモデルに基づく信頼区間か,Franz-Loftusのペアワイズ信頼区間を使ったほうがよいでしょう。

さて,Baguley(2012)の推奨にはさらに発展版があります。
それは,Cousineau-Moreyの信頼区間に差分調整を行ったもの(ANOVA君では,区別のために,Cousineau-Morey-Bagyleyの信頼区間として出力します)に加えて,マルチレベルモデルに基づいて算出した信頼区間(差分調整なし)を”同時に”図示するというものです。
この“二段プロット”により,ひとつの図について2通りの解釈をすることができます。
内側のエラーバー(Cousineau-Morey-Bagyleyの信頼区間)からは,互いに重なりがあるかどうかを見ることで,有意性検定の結果をおよそのところ読み取ることができます。
外側のエラーバー(マルチレベルモデルによる信頼区間)からは,それぞれの平均値の推定の正確さの程度を知ることができます。
もちろん,目的に応じてどちらか一方でもよいわけですが,両方を提示しておけばどちらの要望にも答えられるわけです。

ただ,マルチレベルモデルに基づく信頼区間は理論的にも優れており,正規化に基づく信頼区間と併用する価値もあるのですが,実際の計算がなお難しいことに問題があります。
推定のアルゴリズムによって計算結果が変わってきたり,分散分析モデルを作る際の自由度を算出する方法も複数提案されており,なかなか“正解”を決められない状況であるように思います。
Blouin & Riopelle(2005)は,SASのPROC MIXEDのLSMEANS関数を用いる方法を紹介しています。

ANOVA君(version 4.5.1以降)では,マルチレベルモデルに基づく信頼区間をオプション指定により出力します(cimlオプション;CI-MultiLevel)。このオプションでは,データに複合対称性を仮定するモデルに基づく信頼区間を計算します。計算には,lmerTestパッケージ(とこのパッケージの利用に必要な他のパッケージ)を必要とします。REML推定はlmer関数によるもので,信頼区間の算出にはlsmeans関数を用いており,自由度の推定にはKenward-Roger法を指定しています。完全に同じモデルを指定した場合には,SASの出力とおよそ一致するようです。ただし,現状では,球面性を仮定しないモデルによる結果は出力できません。

最後に,Franz-Loftusの方法には,正規化に基づく方法やマルチレベルモデルに基づく方法とは違った価値があるように思います。
直感的な理解のしにくさや組み合わせ数の増えやすさから考えると常用には向かないかもしれませんが,水準別誤差項のアプローチに近く,多重比較の解釈に対応できる点は他の方法にはないところです。
多重比較に主な関心のある場合には,Franz-Loftusの信頼区間が役立つのではないでしょうか。

ANOVA君(version 4.5.1以降)では,Franz-Loftusの方法によるペアワイズの信頼区間をオプション指定により出力します(cipairオプション:CI-Pairwise)。図示での利用向けに差分調整型の値も指定できます(cipairdオプション;CI-Pairwise-Difference-Adjusted)。これらのオプションは,被験者間計画のデータに対しては有効ではありません。

4種類の信頼区間の特徴について簡単にまとめてみました。

種類長所短所
Loftus-MassonのMSe信頼区間分散分析のMSeに基づいている各種の統計的仮定への依存度が高い
Cousineau-Moreyの正規化信頼区間素点を変換するだけの簡単な手続き分散分析との対応を意図しない
マルチレベルモデル信頼区間統計モデルとの対応という点で優れている運用面・評価面に若干の不安がある
Franz-Loftusのペアワイズ信頼区間二変数間の信頼区間としては最も適切主効果・交互作用は評価しない

なお,信頼区間を図示する際にはどの方法に基づく信頼区間を記したのかを明記することが重要です。
一般に,エラーバーには,標準誤差,標準偏差,信頼区間のいずれを記すこともあり,見た目だけでは何を表示しているのか区別がつきません(Cumming & Finch, 2005)。
いずれの指標を示しているのか,また,反復測定要因を含むデザインにおける信頼区間の場合には,どのような方法に基づいて計算したのかを報告することが必要になると思われます。

文献

Afshartous, D., & Preston, R. A. (2010). Confidence intervals for dependent data: Equating non-overlap with statistical significance. Computational Statistics & Data Analysis, 54, 2296-2305.
Baguley, T. (2012). Calculating and graphing within-subject confidence intervals for ANOVA. Behavior Research Methods, 44, 158-175. [Link to Journal]
Blouin, D. C., & Riopelle, A. J. (2005). On confidence intervals for within-subjects designs. Psychological Methods, 10, 397-412.
Cousineau, D. (2005). Confidence intervals in within-subject designs: A simpler solution to Loftus and Masson’s method. Tutorials in Quantitative Methods for Psychology, 1, 42-45.
Cousineau, D., & O'Brien, F. (2014). Error bars in within-subject designs: A comment on Baguley (2012). Behavior Research Methods, 46, 1149-1151.
Cumming, G. (2014). The new statistics: Why and how. Psychological Science, 25, 7-29. [Link to Journal]
Cumming, G., & Finch, S. (2005). Inference by eye: Confidence intervals and how to read pictures of data. American Psychologist, 60, 170-180.
Franz, V. H., & Loftus, G. R. (2012). Standard errors and confidence intervals in within-subjects designs: Generalizing Loftus and Masson (1994) and avoiding the biases of alternative accounts. Psychonomic Bulletin & Review, 19, 395-404. [Link to Journal]
Goldstein, H., & Healy, M. J. R. (1995). The graphical presentation of a collection of means. Journal of the Royal Statistical Society. Series A (Statistics in Society), 158, 175-177.
Hollands, J. G., & Jarmasz, J. (2010). Revisiting confidence intervals for repeated measures designs. Psychonomic Bulletin & Review, 17, 135-138.
Jarmasz, J., & Hollands, J. G. (2009). Confidence intervals in repeated measures designs: The number of observations principle. Canadian Journal of Experimental Psychology, 63, 124-138.
Loftus, G. R., & Masson, M. E. J. (1994). Using confidence intervals in within-subject designs. Psychonomic Bulletin & Review, 1, 476-490.
Morey, R. D. (2008). Confidence intervals from normalized data: A correction to Cousineau (2005). Tutorials in Quantitative Methods for Psychology, 4, 61-64.
O'Brien, F., & Cousineau, D. (2014). Representing error bars in within-subject designs in typical software packages. Tutorials in Quantitative Methods for Psychology, 10, 56-67.

TrackBack(0) | 外部リンク元 | このエントリーをはてなブックマークに追加