数学に関するよみもの(8)統計処理①正規分布表

コラム

私が正規分布を学習した時、いろいろな参考書の解説を読んだ中で下記が一番印象に残っていますので引用させていただきます

■引用

・一石 賢 著 「道具としての統計解析」日本実業出版社より

1733年、ド・モアブルによって発見された、

という関数は、後にガウスらによって重要な意味を持つことがわかった。

それは誤差を研究する過程で判明したのだが、実現しようとしたい現象に近づけようとすることによって起こる誤差は、この関数によく従うという。つまり、多くの測定に関して、

  1. 同一の大きさの誤差は、正負同程度生じる
  2. 小さい誤差のほうが大きい誤差より発生しやすい
  3. 非常に大きな誤差は発生しにくいすべての誤差は絶対値の等しい正負量極限の間にある

という条件をうまく満たしているのが、この関数なのだ。

たとえば、ライフルで標的の中心を狙いながら弾丸が逸れるバラツキ、不良品の発生率、成績の分布や、自然の多くの現象、例えば、人の身長の分布など、この曲線(=ガウシアン、正規分布)が適用できる範囲は広い。

引用終わり

さて、引用の中で

という式が重要な意味を持つと解説されていますが、実際にこの曲線を確率密度関数として使うには、全体の面積が1(積分区間-∞から∞の積分値が1)にならなければなりません。

従って実際にはその係数を補正した

そして、このときXが正規分布N(m, σ^2)に従うといいます。(mは期待値E(X)、σは標準偏差)

ここでZ= (X-m)/σとおくと、

このことを標準化するといい、標準正規分布表を見ながら確率を計算することができます。

統計では必須の正規分布は当然MIDAC社FTIRのソフトウェアでも使われていて、濃度表の横に表示されるSECが標準偏差を表しています。ここで表示された濃度X、標準偏差をσとする実際の濃度がX±1σ内にある確率は約68.27%、X±2σ内にある確率は95.45%、X±3σにある確率は99.73%となります。

また、面積が0.95になる(片側0.475)になるZの値は1.96、σの確率は0.95、0.99になる(片側0.495) Zの値は2.58です。これらは推定の時にもよく使われます。

ちなみに二項分布B(n,p)

近似的に標準正規分布N(np,npq)に従うことが知られていますので、

標準正規分布表(Excel版)を利用できます。

標準正規分布表
normal_distribution_table_ver1.xls
Microsoft Excel 40.0 KB

ここで例題を1つ挙げて見ましょう。

「ある国では、その国民の血液型の割合はO型30%、A型35%、B型25%、AB型10%であるといわれている。

いま、無作為に400人を選ぶとき、AB型の人が37人以上49人以下となる確率を求めよ。

[旭川医大]

AB型の人の人数の期待値は二項分布の式よりE(X) = np = 400×0.1 = 40 (人) 標準偏差 σ=√npq =

したがってP(37≤X≤49)は標準化した P( (37-40)/6≤Z≤(49-40)/6)と等しく、P(-0.5≤Z≤1.5)になります。

正規分布曲線で、Z=1.5をみると0.4332となっています。これは はZ=1.5とZ=0の間の確率密度曲線の面積です。またZが-0.5の場合、Z=-0.5とZ=0の間の面積はZ=0.5とZ=0の間の面積と等しいので、P(0.5)=0.1915となり、面積の合計が確率となり、0.1915+0.4332=0.6247となります。

■参考文献

・一石 賢 著「道具としての統計解析」 日本実業出版社

・柳川 高明編 著 「チャート式数学C」 数研出版

FTIRを理解するための数学的知識
[ツール] 常用対数表
log_tables_ver1.xls
Microsoft Excel 38.0 KB

(8)統計処理①正規分布表

English Japanese