統計用語の基礎知識

実験計画法 design of experiments
 心理学の実験は、一般に心理現象の成立の仕組みや法則を明らかにするために行われる。そのために研究者は、心理現象の成立に関与していると思われる要因を組織的に変化させ、その上で被験者の反応(行動)を観察・測定して、前者の後者におよぼす効果を吟味する。
 実験計画法とは、設定した仮説をどのように検証するのかを検討するものであり、仮説を検証するために変数をどう組み合わせるのか(要因配置の側面)と結果をどう処理するのか(統計的解析の側面)という2つの部分から構成されるものである。

独立変数と従属変数 independent variable / dependent variable
 仮説を検証する上で、説明する方の変数を独立変数、説明される方の変数を従属変数と呼ぶ。すなわち原因となる条件が独立変数で、結果としての事柄が従属変数となる。

尺度水準
 実験や調査などによって得た測定値は、その数的な特性によって4つの水準に分類される。数的な特性の低いものから順にまとめると以下のようになる。尺度水準の持つ数学的特性によって、利用可能な統計手法が異なる。
@名義尺度
 対象の質的な違いに対して数値を割り振ったもの ex)男→1、女→2
A順序尺度
 対象の順序・順位に従い数値を割り振るもの
B間隔尺度
 数値の割り振り方が等間隔になっている尺度。ただし、「0」という値が絶対的な無を表さない点が比率尺度と異なる ex)温度(摂氏)
C比率尺度(比例尺度)
 絶対的な原点と等間隔な単位を持った尺度 ex)身長、体重

統計的検定 statistical test
 検定は標本から母集団の特性を推定しようとするものであるが、実際の研究においては、ある仮説の正しさを確率的に判断するために使われているといってよい。検定は通常、
@帰無仮説の設定:母集団についてある仮説(帰無仮説)を立てる
A統計量の算出:その仮説のもとではある標本統計量がどのような分布になるかを理論的に算出する
B棄却域と採択域の設定:その分布の上で、統計量が極端な値をとる領域(棄却域)を設定する
C帰無仮説の判断:実際の標本から得られた統計量が棄却域の中に入っていたら、仮説を棄却する。そうでなければ仮説を採択する
という手続きを踏む。
 帰無仮説は、「条件間(群間)に差がない」「ある処理の効果がない」というように、研究仮説とはむしろ逆の仮説であることが多い。その帰無仮説を棄却することによって、「差がある」とか「効果がある」ということを主張するのである。棄却して「無に帰するための仮説」である 。

有意水準 level of significance
 統計的有意性の検定を行う手続きでは、帰無仮説H0をたて、H0のもとで資料が生起しうる確率分布はどうであるか決めておく。H0を棄却するため、あらかじめ決められた確率水準を有意水準と呼び、普通5%または1%の値が使われる。

検定における過誤
 統計的検定はあくまでも確率的な判断であるから、「仮説を棄却した」というときでも誤っている場合がある。それには以下の2通りがある。
@第一種の過誤(type T error):帰無仮説が真であるときにそれを棄却してしまう誤り
A第二種の過誤(type U error):帰無仮説が偽であるときにそれを棄却しそこなう(採択してしまう)誤り

代表値 average : measure of central tendency
 得られたデータを1つの数値によって表そうとするとき、この値のことを代表値という。尺度水準や分布の様子によって用いる代表値が決定される。
@平均値 mean
 個々の素点の総和をデータ個数で割ったもの
A中央値(メディアン) median
 測定値を大きさの順に並べたときに、ちょうど中央に位置する値のこと
B最頻値(モード) mode
 最も頻度(度数)の高い測定値のこと

散布度 分散と標準偏差 variance / standard deviation
 データの散らばりの程度や広がり具合を示す指標を散布度と呼ぶ。最もよく塚wれるのが、分散および、その平方根である標準偏差である。この2つは間隔尺度異常の尺度から得られたデータに用いることができる
 分散は、データの値xiと平均Xの差(偏差)の2乗したものの和を、データ数Nで割ったものである。分散の単位は元の変数の単位の平方であり、バラツキが大きい場合は分散の値が大きくなりすぎて醜い場合があるので、元の変数の単位と同じである標準偏差(分散の平方根)が使われることが多い。

標準化 standardization
 変数の尺度(原点および単位)を変換して、平均値や標準偏差が特定の値になるようにすることを標準化といい、その新しい尺度上での各測定値の得点を標準得点という
 データの標準化は、一般に平均値が0、標準偏差が1になるように行われる。その際の各測定値の得点(標準得点)はz得点とも呼ばれる。

偏差値 deviation score
 z得点の算出法の考え方に基づいて、平均値を50、標準偏差を10になるように設定した標準得点のことをT得点と呼ぶが、これが一般的に偏差値と呼ばれるものである。

正規分布 normal distribution
 分布とはデータの散らばりのことで、これをグラフに表したものが分布図である。正規分布とは左右対称の釣鐘型で、なだらかな曲線を描く分布であり、全ての統計の基礎となるものである。心理的事象においては、この分布を仮定し、統計処理することが多い。

標準正規分布 standard normal distribution
 データから経験的に得られる分布は、多くのものがこの正規分布になるといわれているが、統計学には理論的に設定された確率分布と呼ばれる分布がある。特にN(0,1)と表記する分布、すなわち、平均を0、分散を1と設定した正規分布を標準正規分布と呼んでいる。

相関係数 correlation coefficient
 2つの変数の間に比例や反比例のような共変関係が見られたとき、相関があるという。相関は2つの変数の関わり度合いである「関連性」や変数間の「共変」関係を示すが、どちらが原因でどちらが結果であるという「因果性」は意味していない。
 相関関係の強さを示す指標が相関係数である。相関係数にはさまざまなものがあるが、変数の尺度に応じてふさわしいものを用いる必要がある。一般には、ピアソンの積率相関係数を指すことが多い。

ピアソンの積率相関係数 Pearson's product-moment correlation coefficient
 2変数間の関係を考えるときに、最も基本的な方法は、一方が増えると他方がそれに従って増える、あるいは減るといった関係がそこにあるかどうかを検討することである。そのような直線的関係が、どのくらいあるかを示す指標がピアソンの積率相関係数である。2変数がともに量的尺度(間隔尺度・比率尺度)で、比例や反比例などの直線的関係にあるときに用いられる。

F検定 F-test
 F検定は、間隔あるいは比率尺度から得られた「量的なデータ」において、2つの標本分散間相違が簿分散間においても相違として認められるのかについて推測する方法である。

t検定 t-test
 t検定は、間隔あるいは比率尺度から得られた「量的なデータ」において、2つの標本平均間の相違が母平均間においても相違として認められるのかについて推測する方法である。
 t検定では、@尺度水準:測定値が間隔尺度もしくは比率尺度であること、A分布の正規性:分布が正規分布に従うこと、B等分散性:2つの群の分散が等しいこと(すなわち共通の母集団が考えられること。従って、両群の等分散性を検定前に検討する必要がある。)、が前提となる。ただし、Bは方法を変えることで算出することができる。
 t検定を用いる場合には、データに対応があるか否か、母分散が等質であるか否か(対応がない2つの分散の差の検定はF検定による)に応じて適切な式を選び、その式によってt値を算出する。そして、t分布によって、設定した有意水準における当該の自由度のtの臨界値を求める。もし、算出したt値があらかじめ設定した有意水準の臨界値以上であれば、帰無仮説を棄却し、対立仮説を採択する。

x2検定 chi-square test
  x2検定は、名義尺度から得られた「質的なデータ」において、標本で得られた相違が母集団においても相違として認められるのかについて推測する方法である。
 x2検定は、データで得られた各カテゴリーにおける態度(観測度数)と理論的に期待される頻度(理論的度数)との際に注目して検定していく方法である。
 x2検定を最も用いるのは、クロス表を用いた2×2のx2検定である。クロス表の各セルの値が理論度数に比して逸脱しているかどうかを検定する。
 この検定法は、名義尺度から得られるデータを分析するという意味から、ノンパラメトリック検定法として説明されていることもある。

ノンパラメトリック検定 nonparametric test
 心理学においては、設定した仮説によって間隔・比率尺度のレベルを保証できない名義・順序尺度からのデータしか収集できない場合、間隔尺度のレベルであっても母集団の分布で不明である場合、また、収集したデータが非常に少ない場合などであるが、これらはパラメトリック検定での検定はできない。このような場合に有効なのが、ノンパラメトリック検定である。

分散分析 analysis of variance : ANOVA
 2つの平均値の差を検討するにはt検定を用いるが、3つ以上の平均値の相違を検討しようとする場合には、分散分析を用いる。
 その基本的考え方は、ある要因の効果を調べるために要因を質的・量的に何段階かの水準にわけ、それぞれにいくつかの観測値を得たとき、観測値全体のバラツキ(全変動)を、要因の効果によって生じたバラツキ(要因間変動)と同一水準内の偶然によって生じたバラツキ(誤差変動)とに分割して、要因の効果によるバラツキが偶然によるバラツキより統計的に有意であるかをF検定によって判定する方法である。
 分散分析では、帰無仮説を設定し、分散分析表を作成して主効果や交互作用に優位差があるのかを検定する。ここで有意差が認められたら、下位検定である多重比較を行い書く水準のどの部分に相違があるのかを検定する。

多変量解析 maltivariate analysis
 複数の変数の相互関連について分析するための解析法の総称。多くの側面や要素を含んだ対象を、全体的にまた同時に分析するために考えられた方法といえる。「3つ以上の変数を同時に取り扱う統計解析の総称である」と定義されている。その中で代表的なのが、重回帰分析と因子分析である。

重回帰分析 multiple regression analysis
 得られた結果をその原因と思われる複数の変数から説明しようとしたり、いくつかの原因からその結果を予測しようとするときに用いられる。つまり、「ひとつの結果変数(基準変数)を、複数の原因変数(説明変数)から予測・説明」する際に用いられる運積手法のひとつで、この場合、基準変数・説明変数ともに量的データであることが前提となる。

因子分析 factor analysis
 「複数の変数間の関係性を探る」という場合に用いる分析手法のひとつで、そこで扱われる変数は全ての量的データである。因子分析は、複数の変数間に潜むいくつかの「因子」を見つけ出す手法である。従って、変数A、B・・・と個々の変数を単位で表示していた結果を、因子1、因子2といった因子を単位(因子得点)に集約して結果を示すことができるようになる。
 このようにいくつかの変数がより少ない因子に集約できるのであるが、それぞれの因子がどのような意味を持つのかの解釈については、分析者自身が行わなければならない。

信頼性と妥当性

信頼性
 テストがあることを測定しようとする際に、どれだけ正確で安定したものさしであり得るかということを意味する。

1.内的整合性を用いる方法
 複数の項目から合計得点を算出するタイプの尺度でよく用いられる。よく用いられるのは折半法、クローンバックのα係数である。
@折半法
 1回の検査だけで信頼性係数を推定する方法。ひとつのテストをほぼ等質の部分に2等分し、各部分ごとに算出された得点間の相関係数から信頼性係数を推定する方法。
Aクローンバックのα係数
 尺度を構成している項目のいずれもが、その尺度をねらいとしている機能を、相互に矛盾することなく果たしているかの程度を見る方法。

2.平行検査法
測定の目的、質問の難易度、形式が同じで、得点の平均値、分布、標準偏差等も等しくなるように作成された2つのテスト(平行検査)を、同一の被験者に実施したときに、両テストで得られた得点の間の相関で示されるものである。

3.再検査法
同一のテストをある程度時期を置いて繰り返し実施し、両者の相関係数をみて信頼性係数を推定する方法。

妥当性
検査項目の内容が、どれだけ検査目的の領域をよく反映しているかを表す概念。テストの妥当性を調べる一連の手順は妥当化(validation)と呼ばれるが、どのようにして妥当化を行うかによって妥当性をいくつかの種類に分類することができる。アメリカ心理学会の「教育・心理テストとその手引きの規範 Standards for Education and Psychological Tests and Manual」(1974年版)では、妥当性を内容的妥当性・基準関連妥当性・構成概念妥当性の3つに分類している。

1.内容的妥当性 content validity
 検査の項目の内容が、どれだけ検査目的の領域をよく反映しているかを表す概念。つまり検査の項目が検査しようとしている能力や特性からみて、どのくらい適切に抽出されているか、すなわち標本としてみなしうるかという、サンプリングの適切性をいう概念である。
 内容的妥当性は表面的妥当性(face validity)と区別されなければならない。表面的妥当性とは、テストが実際に何を測定しているかではなく、何を測定しているように見えるかを表す概念である。
 
2.基準関連妥当性 criterion-related validity
 検査目的の達成度が分かるような客観的な基準が確定しているとき、その基準との相関で表す。
 基準関連妥当性には予測妥当性と併存的妥当性があるが、これらの差異が時間間隔のみのため、基準と検査の相関を考えるということで同一とされ、今は合わせて基準関連妥当性と呼ばれる。
  予測的妥当性 predictive validity テストと基準変数との間に時間間隔があるもの
  併存的妥当性 concurrent validity テストと基準変数との間に時間間隔がないもの

3.構成概念妥当性 construct validity
 心理学的諸特性の概念(知能、社会性など)は、多くが経験や多面的な心理学の研究成果により抽出された概念(構成概念)である。構成概念妥当性とは、検査がどのくらいこれらの心理学的特性を測定することができているか、を吟味することにより評価される概念である。
 構成概念が検査を真に関連し得ることを示すためには、理論上の仮説を立てた上での実際的な検証が必要である。この意味では、理論から推論された結果との対比が重視されるなど、検査のみならず理論をも含めて検証しようとするものであり、妥当性の諸概念の中では最も本質的なものである。
 キャンベルとフィクスは、構成概念妥当性を検証するための方法として、多特性・多方法の行列による方法を考えている。
 心理学的な諸変数の関係を説明する探索的なモデルである因子分析やコンピュータの発達は、これらに大きく貢献している。
 
 テストの信頼性が高いからといって妥当性も高いとは限らない。妥当性は信頼性の十分条件となっているが、信頼性は妥当性の必要条件に過ぎない。

Back  Home