[連載] フリーソフトによるデータ解析・マイニング 第11回

Rと推定

1.母集団と標本

  国勢調査のような調査対象に対して漏れなく行う調査を全数調査と言い、アンケート調査、テレビの視聴率調査のような調査対象の集団から一部を抽出して行う調査を標本調査と言う。このとき、調査対象全体を母集団、全体から一部を取り出した部分を標本、あるいはサンプルと呼び、取り出した個数を標本の大きさ、あるいは標本サイズと呼ぶ。
 標本調査の場合は、標本のデータが母集団の性質をなるべく忠実に反映するように標本を抽出しなければならない。そのため、標本抽出には、母集団を構成する要素が偏りなく均一の確率で抽出されるような抽出方法を用いる。このような抽出方法を無作為抽出法と呼ぶ。
 標本調査では、しばしば標本データの統計量 (比率、平均、分散など) を用いて母集団の特性値 (比率、平均、分散など) を推測する。母集団の特性値比率、平均、分散などを母数 (母比率、母平均、母分散など) と呼ぶ。標本データの統計量を用いた母数の推定は確率分布に基づいて行う。

2.確率変数と確率

 確率変数をX とし、1つの値 X = b が与えられた場合、確率 を下側確率と呼ぶ。連続型確率変数を例として図で表すと図1のような確率密度曲線と横軸との間に囲まれたb までの面積が確率 である。

図1 連続型確率変数の下側確率

 Rには下側確率の値を求める関数が用意されている。正規分布の下側確率を求める関数は pnorm である。例えば、標準正規分布の2の下側確率は次のように求める。

> pnorm(2,mean=0,sd=1)
[1] 0.9772499

 標準正規分布の場合は、引数 mean=0、sd=1 を省略してもよい。mean は平均、sd は標準偏差である。下側確率 に対応する を上側確率と呼ぶ。上側確率は全体から下側確率を引くことで求めることができる。
 

 図2に標準正規分布の下側確率 と上側確率 を示す。

図2 標準正規分布の

 確率分布の曲線が原点を中心とした対称分布である場合、確率 を両側確率と言う。区間 [ a,b ] の確率 は図3のような区間 内の密度曲線と横軸との間に囲まれた面積で、次のように求める。  


図3 確率

 例えば、標準正規分布の [‐2,2] の確率は次のように求める。

> pnorm(2)- pnorm(-2)
[1] 0.9544997

 標準正規分布の [-2,2] の確率は約0.96である。これは‐2から2までの面積は全体の約96%を占めることを意味する。
  図3のような分布では、確率密度曲線の峰(中心) の近隣部分は試行を繰り返し行う際に、観測の結果が現れる確率が高く、峰から両側に離れるほど確率が低い。データを分析する際には、確率が非常に低いものはしばしば無視する。問題は、確率が低いか、それとも高いかは何を基準とするかである。その基準として確率 が用いられている。一般的には、確率 を0.9、0.95、0.99のように決めておき、それに対応する a,b を求め、a より小さく、かつ b より大きい確率変数の確率は低いと判断する。この a,b を分位点(quantile)と呼ぶ。正規分布の分位点は正規分布の分位点関数 qnorm を用いて求めることができる。分位点関数は下側確率関数の逆関数である。
 例えば、標準正規分布の0.975の分位点は次のように求める。

> qnorm(0.975)
[1] 1.959964

 図4に標準正規布の分位点、下側確率の対応関係を示す。

図4 標準正規分布の分位点と下側確率

 標準正規分布は X = 0 を中心とした左右対称分布である。X =0 を中心とした確率 が0.9、0.95、0.99の分位点 ab の対応関係を表1に示す。

表1 標準正規分布の分位点と下側確率
   a b
0.9
-1.64485
1.64485
0.95
-1.95996
1.95996
0.99
-2.57583
2.57583

3.推定

  アンケート調査や製品の検査などでは全数調査が不可能な場合がほとんどである。このような標本調査では標本データの統計量を用いて、その標本が属する母集団の母数を推測する。標本データの統計量を用いて母数を推測することを推定と言う。推定には点推定と区間推定がある。
 点推定とは、標本の統計量を母数と見なす推定方法である。これは、標本サイズが十分大きい場合は標本分布がその母集団の分布に近似するという考えに基づいている。しかし、標本サイズが十分大きくない場合は、同一の母集団から抽出した異なる標本の統計量はそれぞれ異なる。区間推定は、この異なる値が納められる範囲・区間を推定することである。区間推定には、いろいろな統計量について推定することが可能であるが本稿では母平均と母比率の区間推定のみについてシミュレーションを通じて説明する。

3.1 データの標準化

 まず一つのシミュレーションを行うことにする。平均が170で標準偏差が5である正規分布 N (170,52) の乱数を300個発生させる。これは平均が170cm、標準偏差が5である母集団から300人を無作為に抽出したと考えることもできる。

> X<-rnorm (300,170,5)

 発生させた乱数 X について、次に示した式の変換を行い、Z の平均と分散を求めて見よう。

> Z<-(X-mean(X))/sqrt(var(X))
> mean(Z)
[1] -1.436773e-15
> var(Z)
[1] 1

 上記の-1.436773e-15は-1.436773の小数点を左に15桁を移動した値に等しいので0であると見なしてもよい。この値は乱数データに基づいた計算結果であるので、読者が同じのコマンドを実行してもこれと同じの結果が得られないが、変換されたデータの平均は0、標準偏差は1に近似する点では一致する。

3.2 標本平均の性質

  前節のような同じの正規分布の乱数を繰り返し発生させ、毎回発生させた乱数の平均値の平均と分散を考察してみよう。
  平均が170、標準偏差が5である正規分布 N (170,52) から300の乱数を発せさせたデータを1つの標本とし、その平均値を求める。このような乱数を1000回発生させると1000個の平均値が得られる。この1000個の平均値の平均と分散(あるいは標準偏差)の規則性について注意して欲しい。
  次に標本サイズ300の乱数を1000回発生させた標本平均の平均と分散を求めるコマンドと結果を示す。

> kekka<-matrix(0,1000,300)
> for(i in 1:1000){kekka[i,]<-rnorm(300,170,5)}
> temp<-apply(kekka,1,mean)
> mean(temp)
[1] 169.9892
> var(temp)
[1] 0.08373682

 求めた標本平均の平均169.9892は母集団の平均170に近似し、標本平均の分散0.08373682は母集団の分散25を標本サイズ300で割った値25/300=0.083333335に近似している。これは次の定理のシミュレーションである。

定理:
 正規分布 N (μ,σ2) から抽出した標本サイズが n である標本の平均は正規分布 に従う。

 上記のシミュレーションでは N (170,52) の乱数を発生している。よって発生された乱数の平均は に従う。この結果と前節の標準化に関する結果を用いると、標本平均を標準化した Z は標準正規分布に従うことが導かれる。

   とき 

 表記の中「〜」は「従う」ことを意味する。ここでは母集団の平均と標準偏差を用いている。しかし、実際の問題では母集団の標準偏差が未知の場合が多い。標本のサイズが大きい場合は標本の不偏分散 V (標準偏差 )を母分散 σ2 の替りに用いることもできる。

   とき 

 式の中の記号「」は近似的に従うことを意味する。問題は、標本のサイズがどのぐらいであれば大きいといえるかである。経験則としては30以上であれば大標本といわれているので一つの目安となる。
  標本サイズが小さいときには標準化された確率変数は自由度 n - 1 の t 分布に従うことが知られている。

   とき 

3.3 区間推定

 確率変数Y の確率 が90%、95%、99%のように与えられたときそれに対応する区間[a , b]を信頼係数0.9=90%、0.95=95%、0.99=99%の信頼区間と呼ぶ。信頼区間を求めることを区間推定という。信頼係数0.95=95%で求めた信頼区間をイメージ的に説明すると、100回の試行を行った時、95回の結果は信頼区間内に納めるが、5回ぐらいの結果は信頼区間[a , b]内に納めることが期待できない。信頼係数は 1−α あるいは 100(1−α)% で表し、α を有意水準と呼ぶ。図5に標準正規分布における有意水準、信頼係数、信頼区間などの対応関係を示す。

図5 標準正規分布の信頼区間

3.3.1 母平均の信頼区間

 前節の に基づいて導出した母平均の信頼区間の関係式を次に示す。

 この式の中の次に示す不等式が与えている区間が有意水準α (あるいは信頼係数1−α) における母平均の信頼区間である。

 不等式の中の は有意水準 α が具体的に与えると正規分布の分位点関数 qnorm を用いて求めることができる。n、σ はそれぞれ標本の平均、サイズ、母集団の標準偏差である。よって、母集団の標準偏差が既知である場合は、母平均の信頼区間を簡単に求めることができる。母集団の標準偏差が未知であっても標本サイズが大きい場合は、標本の不偏分散を母分散の代わりに用いることが可能である。
 標本サイズが小さい場合は、母分散 σ2 の代わりに標本の不偏分散を用いると次の確率変数は自由度 n - 1 の t 分布に従うことが知られている。

 よって、標本サイズが小さい場合、標本の平均と分散を用いて母平均の信頼区間を求めるときには次の式を用いる。

  はRでは t 分布の分位点関数 qt を用いて求めることができる。例えば、有意水準 α = 0.05、標本サイズ n = 10の は次のように求める。

> qt(0.025,9)
[1] -2.262157

 このようにRで求めた には正負の符号がついているので、区間の端点を計算する際には、式

  左の端点:  

  右の端点:  

のなかの は絶対値を用いるべきである。

3.3.2 母比率の信頼区間

 試行、実験、調査などで、ある観測項目が現れるか、現れないかに関する結果は二項分布 B (n,p) に従う。確率変数 k が1、2、3、…、30をとる二項分布 B (50,0.3) のグラフを作成し、さらに同じの座標上で平均が15 = 50*0.3、分散が10.5 = 50*0.3*0.7である正規分布のグラフを作成するコマンドを次に示しその結果を図6に示す。

> x<-0:30
> plot(x,dbinom(x,50,prob=0.3),type="h")
> sd1<- sqrt(50*0.3*0.7)
> curve(dnorm(x,mean=0.3*50, sd=sd1),add=T)

図6 二項分布と正規分布

 図6から標本サイズが大きい場合 (ここでは50) 二項分布は正規分布に非常によく近似していることがわかる。つまり標本サイズが大きいときには二項分布 B (n,p) は平均 np、標準偏差 の正規分布に近似的に従い、さらにそれを標準化すると標準正規分布に近似的に従う。  

 この性質を用いると比率の推定区間は次の式を用いて求めることができる。

式の中の不等式を次のように整理することができる。式の中の P0 は母比率で、 は標本の比率 である。

 

 最近テレビや新聞では頻繁に政権の支持率等に関する調査データが用いられるようになった。そのような情報の受け取る際には正しい統計知識が必要である。
 例えば、1000人に対して調査を行った結果、現政権に対する支持率が45%だとする。有意水準5% (α = 0.05) の場合の母比率の信頼区間の計算結果を次に示す。

> z<- abs(qnorm(0.025))
> 0.45-z*sqrt(0.45*0.55/1000)
[1] 0.4191656
> 0.45+z*sqrt(0.45*0.55/1000)
[1] 0.4808344

 得られた結果を小数点4桁まで丸めると母比率の推定区間は となる。この推定区間は、今回の調査では支持率が45%という結果が得られているが、母集団の支持率はおおよそ42%〜48%であると推測されることを意味する。
 表1に頻繁に使用されている確率分布の下側確率と分位点を求めるRの関数を示す。

表1 Rにおける下側確率と分位点の関数
分布の名 下側確率 分位点
 一様(Uniform)分布  punif(q, min=0, max=1,・・・)  qunif(p, min=0, max=1,・・・)
 二項(Binomial)分布  pbinom(q, size, prob,・・・)  qbinom(p, size, prob,・・・)
 ポアソン(Poisson)分布  ppois(q, lambda,・・・)  qpois(p, lambda,・・・)
 正規(Normal)分布  pnorm(q, mean=0, sd=1,・・・)  qnorm(p, mean=0, sd=1,・・・)
 カイ2乗(Chi-square )分布  pchisq(q, df, ncp=0,・・・)  qchisq(p, df, ncp=0,・・・)
 t分布  pt(q, df,・・・)  qt(p, df,・・・)
 F分布  pf(q, df1, df2,・・・)  qf(p, df1, df2,・・・)
 ガンマ(Gamma)分布  pgamma(q, shape,・・・)  qgamma(p, shape,・・・)
 ベータ(Beta)分布  pbeta(q, shape1, shape2,・・・)  qbeta(p, shape1, shape2,・・・)
 対数正規(Lognormal)分布  plnorm(q, meanlog = 0, sdlog = 1,・・・)   qlnorm(p, meanlog = 0, sdlog = 1,・・・) 
 ロジスティック(Logistic)分布   plogis(q, ・・・)  qlogis(p,・・・ )
 指数(Exponential)分布  pexp(q, rate = 1, ・・・ )  qexp(p, rate = 1)
 負二項(Negbinomail)分布  pnbinom(q, size, prob, mu,・・・ )  qnbinom(p, size, prob, mu,・・・ )
 幾何(Geometric)分布  pgeom(q, prob, ・・・ )  qgeom(p, prob,・・・)
 超幾何(Hypergeometric)分布  phyper(q, m, n, k, ・・・ )  qhyper(p, m, n, k,・・・)
 コーシー(Cauchy)分布  pcauchy(q,location=0,scale= 1,・・・ )  qcauchy(p,location=0,scale = 1,・・・)
 ワイブル(Weibull)分布  pweibull(q,shape,scale=1,・・・ )  qweibull(p, shape, scale = 1,・・・)