認知的断想/コミュニケーションのツールとしての仮説検定 - 井関龍太のページ

ホーム   編集 凍結 差分 バックアップ 添付 コピー 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS

認知的断想/コミュニケーションのツールとしての仮説検定

Last-modified: 2013年10月05日 (土) 22:25:52 (1864d)
Top > 認知的断想 > コミュニケーションのツールとしての仮説検定

心理学や行動科学の統計解析で最もよく用いられる分析法のひとつが分散分析ではないかと思います。
この分散分析を考案したのが統計学者のロナルド・フィッシャーです。
今回,『R. A. フィッシャーの統計理論-推測統計学の形成とその社会的背景-』(芝村, 2004)という本を読んでいろいろと勉強になるところがあったので,そのおおまかな紹介と考えたことなどを簡単に述べたいと思います。

この本は,フィッシャーの統計理論を単純に紹介するのではなく,理論が作られた社会的背景との関係から論じようとする,いわば歴史的な研究になっています。
フィッシャーの分散分析がもともと農事試験の評価を行うために開発されたものであることは有名だと思います。
フィッシャーは各種の肥料や品種を使うことが作物の収穫量にどのくらい確実に影響を及ぼすかを明らかにしようとしていました(この背景には産業革命の進行と都市への人口集中がありました)。
しかし,この評価は化学などにおける試験とは違って容易ではありませんでした。
というのは,以下のような事情があったからです。

…(中略)…統計的方法の適用対象としての農事試験は,基本的には,①本質的に比較を目的とするが,②種々の要因が結果に影響するために,③実験は繰り返し実施して結果を判定する必要があるという性格をもつと考えられる。(芝村, 2004, p. 36)

こうした,雑多な要因の影響の中で統制条件との比較から結論を導きたいという動機づけが,のちに実験計画法・分散分析といった手法を行動科学に応用することをを可能にしたものと思われます。
また,農事試験では(品種にもよると思いますが)一年に一回から数回しか収穫できない,圃場(田畑)の大きさに限りがあるため同時に多数の品種を育てることが難しい,したがって,評価のために多数のデータを得ることが難しいことから,少数の標本に基づいて確かな結論を導くことのできる方法が求められていました。
このデータ収集の問題も,行動科学におけるデータ収集の問題と類似しており,これらの手法が転用されることの布石になったのではないでしょうか。

さて,フィッシャーの実験計画法及び分散分析がそれまでの農事試験の評価法とどこが違っていたかといえば,それは“誤差の管理”というアプローチにあります。
フィッシャー以前の農事試験では,試験(実験)における誤差を極力減らそうとしていました。
実験にとって誤差は大敵です。
農事試験でも,同じ作物を同じように育てたとしても,その年ごとの気候や土地の状態,害虫の存在などのために同じ収穫量が見込めるとは限りません。
そこで,極力,環境を同じにして誤差を最小限にしようとするのは当然の発想に思えます。

しかし,フィッシャーの考え方は少し違っていました。
誤差を減らそうとするのではなく,誤差の程度を正確に推定しようとしました。
そして,この正確な推定という目的のためには,誤差を減らそうとするよりも,むしろ,比較する区画の間で誤差が均等になることを理想としていました。
測定には誤差は常につきまとうもので,結局,これをなくすことはできません。
だったら,減らすのではなく,どの程度の誤差が生じたのかを正確に推定できれば真の値もわかる,とフィッシャーは考えたのです。

そのような管理された実験条件を作るための方法論が実験計画法というわけです。
これを実現するための3つの工程が,局所管理(local control),確率化(randomization),繰り返し(replication)であり,フィッシャーの三原則と呼ばれています。
例えば,圃場全体の肥沃度を均一にすることが難しい場合は,まず圃場をいくつかのブロックに区切ります。
そして,このブロック内では肥沃度が均一になるようにします(局所管理)。
こうすれば,比較するブロック内の誤差は均質ですから,各ブロックに条件を無作為配置すれば(確率化)誤差の効果を条件の効果と分離して推定できます(乱塊法)。
このように,実験計画法は一種の誤差管理術であったことがわかります。

より妥当な誤差の推定値が得られたなら,条件(処遇)による変動と誤差による変動の大きさを比較して,条件(処遇)による変動の方が十分に大きいなら,この条件(処遇)には意味がある=有意である,と判断すればよいわけです。
ところで,統計的検定そのものは,フィッシャー以前にも既に提唱されていました(t検定,χ2検定など)。
しかし,フィッシャーとそれ以前とでは,検定に対する考え方も違っています。
フィッシャー以前では,誤差は観測の失敗と捉えられ,標本を大規模にすることによってこれを減らそうとしていました。
そのため,検定というものを観測精度のよさの指標として用いていました。

例えば,フィッシャー以前にも,K. ピアソンのχ2適合度検定というものがありました。
ただし,ピアソンはこれを帰無仮説の棄却を目的として行ってはいませんでした。
そうではなく,標本分布と理論分布の乖離が小さい,これらの分布が十分に一致しているということを示すために使っていたのです。
χ2値が高い場合には「偏っている」,小さい場合には「適合度は極めてよい」といった具合です(芝村, 2004, p. 97)。
芝村はこれを以下のように評しています。

有意水準という一定の判定基準を有しないことが,適合度の査定に場当たり的な性格を付与しているとはいえ,その結果として,K. ピアソンが適合度検定から結論を導く姿勢に消極的な印象を与えている。またK. ピアソンのχ2適合度検定の目的が,有意性検定の目的である帰無仮説の棄却には置かれていないことも明白な相違点である。(芝村, 2004, p. 100)

フィッシャーは標本分布と理論分布の乖離の程度から条件(処遇)間に意味のある差があるかどうかを問題にしましたが,ピアソンは標本分布と理論分布の近さ=適合度を問題にしていたようです。
乖離がどのくらい小さいか,つまり,データがどのくらいフィットするかということに主眼があり,差を見出そうとはしていませんでした。
また,そのためか,判定基準というものもなく,帰無仮説の設定というものもありませんでした。
ちなみに,差がある方ではなく,ない方に注目するという点では,現在,構造方程式モデリングでよく用いられている適合度の検定の方がこのもともとのχ2の使い方に近いのかもしれません。
χ2検定の名で現在一般にイメージされるような分割表の検定の方が実は応用的な拡張に当たるようです(芝村, 2004, p. 113, 脚注11)。

それでは,フィッシャーの方は,どうして帰無仮説を立ててこれを棄却するといった検定の使い方をするようになったのでしょうか。
著者は,フィッシャーの有意性検定の意義を,農事試験の専門家と農業従事者の間のコミュニケーションの道具として機能したことに求めています。

フィッシャー以前は,農事試験の成果は,専門家の経験に基づいて判定されてきました。
ここでいう専門家とは,農業に携わって生計を立てる人ではなく,農事試験を行う実験家,つまり,研究者のことです。
この専門家の人々は,農事試験の結果に基づいて,新たな肥料や品種の利点を非専門家,すなわち,一般の農業従事者の人々にアピールすることになります。
一般の農業従事者からすれば,自分たちの実感から離れた環境で,特殊な問題を目的として行われた試験の結果を,新しい肥料やら品種やらを売ろうとしている会社側の人間が説明している形になるわけです。
自分たちにわからない基準で“専門家”が判定した結果を信じなさいと言われても,簡単にはいかないことでしょう。

そこで,誰にでも納得のいく,客観的な判定の基準がほしいところです。
この基準こそが“有意水準”であり,例の5%とか1%の数値になるわけです。
フィッシャーは,実験計画法を考案しただけでなく,この判定を行うための具体的な基準(そして,その背景となる理論枠組み)をも与えたのです。
有意水準や帰無仮説といった概念,そして,有意性検定は,その後,爆発的に普及することになりました。

しかし,有意性検定は,本当に著者の言うように「実験結果の解釈をめぐるコミュニケーションの規則」(芝村, 2004, p. 87)として有効に機能したから普及したのでしょうか。
本書でも紹介されていますが,有意性検定の普及の背後には,専門用語をなるべく言い換えたり,農業従事者向けの資料を特別に作ったりして“伝道”に努めた人々の地道な努力がありました。
現代の日本の大学でも,心理学等の専攻では統計の授業が必修になっていると思いますが,これがなかなか身につかず,卒論生になってからあわてるということがよくあるのではないでしょうか。
そこから推しても,当時の“伝道者”の人たちの努力は並々ならぬものだったことでしょう。
この努力は,サイエンス・コミュニケーションの観点から評価しても興味深いように思います。

当時は,このように,ある意味理想的な形で有意性検定というものが生み出され,広まっていったものと思われます。
しかし,有意性検定を利用している現代の科学者の多くは“非専門家との有効なコミュニケーションのツール”だから使っているのではなく,単に“簡便な意思決定のツール”だから使っているのではないかという気がしています。
5%の基準に頼っていれば,効果に意味があるのかどうかいちいち考えなくてすむ,数字が答えを教えてくれるというわけです。
あるいは,“専門家と非専門家の”ではなく,“専門家の間での有効なコミュニケーションのツール”として利用されているのかもしれません。
つまり,“5%”で有意だったんだから文句ないだろう,という相手の反論を押さえ込む便利な道具として使われているのではないか,ということです。

フィッシャーは,この点をどのように考えていたのでしょうか。
実は,フィッシャーの考案した有意性検定とは別に統計的仮説検定というものがあります。
後者は,フィッシャーの有意性検定に影響を受けて,ネイマンとE. S. ピアソンが拡張して作り上げたものなのです。
その違いについて,著者は以下のようにまとめています。

…(中略)…フィッシャーの有意性検定とネイマン-ピアソンの統計的仮説検定との相違点としては,①標本の大きさの事前決定,②有意水準の事前決定,③対立仮説の設定,④検定力・第Ⅱ種の過誤の有無が挙げられる。(芝村, 2004, p. 124)

ここで,②有意水準の事前決定という項目を見て驚かれる方もおられるかもしれません。
そう,フィッシャーは有意水準という概念を考え出したのですが,事前の有意水準というものは定めていなかったようなのです。
どうしてこういうことになるかについては,少し長くなりますが,以下の引用がその答えになっていると思います。

フィッシャーの有意性検定では,標本特性値と帰無仮説にもとづいた理論分布との乖離の度合をみることが目的であって,帰無仮説や有意水準は,そのためにフィッシャーによって導入された概念であった(芝村 2000a)。これに対して,ネイマン-ピアソンの統計的仮説検定では,標本特性値の有意性を解釈するのではなく,同様の検定を繰り返すなかで仮説の選択を誤る確率を長期的に一定の大きさまで抑えながら,標本特性値が検定仮説の理論分布と対立仮説の理論分布とのどちらにより適合するかを行動の規則にしたがって判定していくことになり,両検定論ではその目的・手続きともに大きく異なっている。(芝村, 2004, p. 125)

つまり,フィッシャーは有意水準に照らしての判定という枠組みを導入したものの,それを機械的な判定の基準とはみなしていなかったようなのです。
むしろ,帰無仮説からどの程度離れているのかという乖離の“度合い”をみて,各人が有意性を判定するための指標として捉えていたようです。
この考え方は,現代における効果量による評価とか,区間推定に基づく評価に近いように思います(ただし,信頼区間という概念を提示したのはネイマンの方ですが)。

一方で,ネイマン-ピアソンは効果の大きさを推定することを目的としたのではなく,0か1か,帰無仮説か対立仮説かの,2つに1つを採った場合に間違いを犯す確率というものに興味がありました。
だから,検定が機械的な意思決定のもとになってしまうのではないかという,この問題に関係する一連の概念と枠組みを導入したのは,フィッシャーではなく,ネイマン-ピアソンなのです。

…(中略)…ネイマン-ピアソン理論の核心は,対立仮説(alternative hypothesis),第Ⅰ種・第Ⅱ種の過誤(error of the first kind and the second kind),および検定力(power)を概念化し,検定仮説の棄却または採択を決定する際に生じる過誤確率が長期的・平均的に最小化される検手続きを定式化したことにある。(芝村, 2004, pp. 117-118)

この違いは,フィッシャーとネイマン-ピアソンでは,その研究の社会的背景が異なることからくると論じられています。
フィッシャーは,先に述べたように,特定の肥料や品種の効果を比較する農事試験に動機づけられてその理論を構築してきました。
これに対して,ネイマン-ピアソンの研究の背景には,工場の品質検査における抜取検査方式の正当化という問題がありました。

この抜取検査が問題となる具体例として,例えば,弾薬検査がありました。
弾薬は時間がたつと劣化するので,使用可能な状態かどうかを適宜検査する必要があります。
しかし,これは破壊検査なので(検査した弾薬は使えなくなってしまう)すべての弾薬を検査すること(全数調査)は不可能です。
そこで,信頼性の高い抜取検査の方式を導入することが強く求められたのでした(アメリカが既に大量生産方式を導入していたこと,また,第二次大戦下にあり,軍部が経済の主導を握っていたこともこれを後押ししました)。

さて,抜取検査では,無作為に抽出した標本をもとにロット全体の品質が合格か不合格かを判定します。
ロットの一部である標本に基づいてロット全体の品質を推測するので,本当は適正な,合格のロットを誤って不合格と判定してしまうことも起こりえます。
この場合,適正な,出荷して問題のないロットを間違って差し止めてしまうことになるので,生産者側の損になります。
そこで,この誤りは生産者のリスクといえます。
一方,本当は質の悪い,不合格のロットを誤って合格と判定するエラーも起こりえます。
こちら側は,買ってしまった消費者が損をするので,消費者のリスクと呼ぶことができます。
ここで,生産者のリスクが第Ⅰ種の過誤,消費者のリスクが第Ⅱ種の過誤という概念に対応することがわかるかと思います。

抜取検査では,これら2つのリスクをともに低く抑えることが望まれます。
生産者のリスクが大きすぎると商売が成り立ちませんし,消費者のリスクが大きすぎるようでは誰も製品を買ってくれず,結局はうまくいかなくなります。
最小限の検査費用で(生産者のリスク低),一定の品質の製品を生産する(消費者のリスク低)ことが理想です。
ネイマン-ピアソンは,これらのリスクを確率として実際に計算する方法とその理論的根拠を提供したわけです。
生産者のリスクが有意水準(α)で,消費者のリスク(β)を1から引いたものが検定力(1-β)になります。

特定の肥料や品種が“どの程度の確かさで”収穫量に変化をもたらすかということに主な関心があった農事試験の場合と違って,工場製品の抜取検査では,各ロットが合格か不合格かということが問題になります。
不合格のロットから問題のない弾薬だけを選ぶ方法はないと思われるので,2つに1つでどちらかに決める他ないでしょう。
こうした発想が帰無仮説(品質に差がない=合格)か対立仮説(品質に差がある=不合格)かのいずれかを採択するという方針のもとにあったのではないでしょうか。

また,ロットはひとつだけでなく,無数にあるのがふつうです。
それに,工場ですから同じラインを使って何度も製品を生産するはずです。
そこで,検査はよく似た環境の中で何度も繰り返されることになります。
これが一定の有意水準のもとで,できる限り検定力を高めるという考えにつながっているのではないでしょうか。
この点も,収穫のタイミングが多くはない,農事試験とは異なるところです。
このようにみると,ネイマン-ピアソンの理論は最初からメタ分析的な性質を含んでおり,小標本による精度の高い誤差の推定というフィッシャーの発想とは一致しないところがあるようです(ネイマン-ピアソンは,検出力を増やすという課題には標本を増やすことによって対応しています)。

現在の一般的な統計学の授業では,フィッシャーの理論とネイマン-ピアソンの理論は特に区別して教えられていないと思います。
しかし,上記のような背景にある思想や社会的要請の違いをある程度知っておいた方が,これらの道具立ての違いはよく理解できるかもしれません。
個人的に長らく気になっているのは,“有意水準”と“有意確率”を同時に並べて,その違いをきちんと説明している授業やテキストが多くないように思えることです(少なくとも,私は見たことがありません)。
t検定や分散分析の手計算まで扱うタイプの授業やテキストの場合,たいていは,事前に定めた有意水準(α)を超える臨界値を求め,統計検定量がそれを超えるかどうかを評価せよ,となっているのではないかと思います。
このやり方だと,受講者は有意確率というものを直接扱うことはありません(手計算するつごうはありますが)。

ところが,統計ソフトを使うとp値(有意確率)という謎の値が出てきて,これがαより小さいかどうかを評価せよ,という話になります。
これでは,受講生が混乱しても仕方のないところがあるのではないでしょうか。
その反動か,ソフトウェアの使い方だけ教えればいいというタイプの授業やテキストでは,今度は,p値だけ見なさいという話になっているように思います。
この場合,基準として5%という値を使うことは習っているはずですが,どうもこの系統の学習をした人はp値だけに注目していて有意水準に対する認識が怪しいような印象を受けます(多重比較でp値を要求するなど。もっとも,これには調整済みp値を“p値”として出力する統計ソフトの存在が一役買っているのかもしれませんが)。

それでは,検定結果を評価するときには,有意水準や有意確率にどのように注目すればいいのでしょうか。
ここまでの議論から考えると,フィッシャー流に考えるなら“有意確率”を評価して,帰無仮説からの乖離の確からしさをみることになるのに対して,ネイマン-ピアソン流に考えるなら“有意水準”との比較でいずれの仮説を採択するかを判定する,というスタイルになるのではないでしょうか。
おそらく,古典的な授業やテキストはネイマン-ピアソン流に構成されているのに対して,統計ソフトの方はコンピュータの性能が上がったことや近年のより正確な推定を求める風潮を受けて,フィッシャー流に近い仕様になっているのではないかと思われます。
それから,検定の結果に基づき帰無仮説と対立仮説のいずれかを採択するという枠組みだけで考えていると,棄却されなかった場合は帰無仮説を採択するという発想になっておかしくありませんし,効果量や信頼区間を取り上げる意義もわかりづらくなるような気がします。
少なくとも,フィッシャーとネイマン-ピアソンという2つの違った系統の考え方があることを知っておくと,知るべき内容は増えることになりますが,どう位置づけてよいかわからなかった一部の概念が理解しやすくなるかもしれません。

最後に,ネイマン-ピアソンの統計的仮説検定理論についても,それが普及したのは生産者と消費者の間のコミュニケーションのためであったことを述べておきます。
ただし,ここでいう生産者とは軍部に製品を納入する業者であり,消費者とは軍の検査官になります。
これら二者の間には深刻な相互不信があると考えられていました。
業者は検査官のチェックを厳しすぎるとみて信じない,あるいは,甘いとみて粗悪品を流す可能性があります。
一方で,検査官は業者が粗悪品を流すのではないかと疑ったり,正当な根拠なく信頼できると判断したりするかもしれません。
そこで,立場を超えて,さらには,個人の判断を超えて適正な判断を下す方法論が有用であると考えられたのでした。

しかし,著者も述べていますが,この統計的仮説検定理論がどれほどスムーズに受け入れられたのかは定かでありません。
当時のアメリカの軍事生産局は,統計的品質管理の集中講義を何度も行なって,企業の役員や検査主任,陸軍将校に受講させています。
この集中講義への参加資格は,当初は「以前に統計学を学んだ経験があることが望ましいが,経験は必ずしも必要ではない」といったものだったのが,テキストやカリキュラムは変わらないまま,「大学で1年以上自然科学,数学,工学を学んだ経験があり,代数の知識があって優れた数学の能力を持つ者」に変更されています(芝村, 2004, pp. 148-149)。
この理由については不明とのことですが,著者は集中講義の内容が消化不足だったためではないかとの推測を述べています。
そうすると,統計的仮説検定もまたコミュニケーションのツールであったことは確かだとしても,それは軍部という特殊な消費者による剛腕という形で振るわれたのかもしれません。

ともあれ,分散分析や実験計画法,仮説検定の論理の社会的背景,開発と受容の歴史的な過程を知ることは,それ自体,これらの方法についてよりよく知るための優れたコミュニケーションの手段となっていると思います。
また,いつの時代も,統計的分析について理解してもらうのは容易なことではなく,そのために多くの努力が傾けられてきたという事実も教えてくれています。
いろいろな方向から多くのものを受け取ることのできる本です。


芝村良 (2004). R. A. フィッシャーの統計理論:推測統計学の形成とその社会的背景 九州大学出版会

(2012-02-02)
Tag: 統計
TrackBack(0) | 外部リンク元 | このエントリーをはてなブックマークに追加