■特徴づけ

さて乱数集団の種類を判別するためには、
その集団の特徴を見つけなくてはなりませぬ。
乱数集団の特徴ってなんだよ、というと、大雑把に言って
平均値、標準偏差、そして分布の三つの要素です。
それぞれの特徴を説明しておくと、

■乱数集団の重心点(中心点)はどこか(=平均値)

■乱数集団のおおよその大きさはどの程度か(=標準偏差)

■乱数集団内の数値はどのような分布を見せてるか(=分布)


この3つが分かれば、ほぼその乱数の集団の特徴がわかります。
よって正規乱数を理解するには
まずは上の3つの条件を理解しなくてはなりませぬ。

まず平均値は、もはやおなじみの数値ですね。
これはその集団のすべての数値の重心(中心点)を求めるもので、
集団内の全ての数字を合計してから全体の個数で割り算したもの。
まあ、説明は不要と思いますが、以後の説明のため、
基本となる計算式だけは書いておきます。
こういうの書いとくと、何か頭良さそうに見えますしね(笑)。

集団内の数値の量=N 
集団内の数値=n1、n2、n3…nN
(N個の数の集団なのだからその最後の数をnNとする)

平均値=(n1+n2+n3…+nN)÷N

ですね。

お次は標準偏差。
「偏差」の「標準」なわけですから、まずは「偏差」とは何?という点から。

偏差は単純なもので、平均値から見た特定の数値nまでとの差(距離)です。
よって

偏差=n - 平均値

平均値が「5」の集団における「10」の偏差は10-5=5で「5」。
同じく「1」の偏差は1-5=-4となるので「-4」。
これは集団内の数値が、平均値からどれだけ離れてるかを求めた数字で、
引き算だけで、簡単に計算できます。ここまでは問題なし。

となると、この偏差の数値を見れば、その乱数集団が、
どの程度の広がり(最低&最大値)を持つかが分かります。
が、なにせ乱数ですから、最低と最大の値は、他の数値からとんでもない
距離を持つ数値になってる事があります。

例えば集団の99%以上の数値が-10〜10の間に入ってるのに、
最低値だけ-180とかの飛びぬけて特異な数字になってる乱数集団です。
この時、この集団の広がりを最低-180から最大10まで、としてしまうのは
さすがに無理があるので、ここでまた平均値、という考えが出てきます。

多少、特異な数字が一部にあっても、全体を平均化してしまえば、
大よそ集団の特徴に近い最大、最小の偏差の数字が得られるはずです。
が、発想は正しいのですが、実はこれが単純には計算できません。

その理由は、具体例で説明した方が速いでしょう。
最大と最小の偏差を求める場合、数列の並び順は意味が無いので
(平均値と最低、最大値だけがわかればいい)、
普通の数列を例にして考えてみると判りやすいです。

-3、-2、-1、0、1、2、3

という数列があった場合、当然、平均値は0ですから、
この場合、それぞれの数値の値がそのまま偏差の量となってます。
3なら、偏差もそのまま3です。

で、数字がそのまま偏差であるなら、全体の平均値=平均偏差ですから、
偏差の平均は0、集団としての広がりは無い事になってしまうのです。
当然、そんなわけはなく、この集団はプラス、マイナス両方向に対し、
3ずつの幅の偏差を持ちます。

このように単純に偏差の平均を取ると、
プラスマイナスの数字が打ち消し合ってしまい、
正確な偏差の幅が出てこないのです。
これはどんな数の集団でも同じようになります。

このため平均偏差、というものは存在できず(常に0になる)、
よって以下の数式で求める“標準偏差”を利用します。




 


偏差を2乗してるのは偏差のプラスマイナスをなくすためで、
それを集団の全個数で割って、平均値を出し、
2乗の効果を消すために、最後にルートを取ってます。
これによって、その集団の広がりが見て取れるようになるわけです。

この点も具体例で考えましょう。
もっとも単純な2つだけの数値の集団を考えます。
例えば1&9のコンビと6&4とのコンビでは、
どちらも重心点(中心)となる平均値は5ですが、
当然、1と9のコンビのほうが集団としての広がりは「大きい」のです。
実際、その標準偏差を計算してみれば、1&9コンビの標準偏差4に対し
6&4の標準偏差は1に過ぎません。
集団としての広がりに4倍の差があるわけです。



このように標準偏差を見る事で、その集団の広がりの大きさが分かります。
ちなみに標準偏差は平均値からプラスマイナス両方向に同じ量で存在するのにも注意してください。

ただし実際はたった二つの数の集団ではなく、
もっと多くの数の量を含む集団で見る事になるため、
上で見たような平均値から見た標準偏差=集団の広がり、という単純な話にはなりません。

必ず一定量が標準偏差の外に存在することになるのです。
そして、この標準偏差の範囲から外れてる数の量もまた、
その乱数集団の特徴の一つとなってゆきます。
これが正規分布の乱数の重要な点なのですが、それはまた後で。

最後は分布。
これは集団内の数値がどのあたりにどれだけ密集してるか、を見るもので、
これを手っ取り早く理解するには、グラフにしてしまえばいいのです。
こんな感じに。



乱数集団の分布を見るグラフでは、横軸が集団内に含まれるそれぞれの数値、
中央にある縦軸が、各数値が含まれてる量を示します。
縦軸を中心に置くのは、集団内の重心点、すなわち平均値の位置を示すためです。
平均値ですから、必ずこの軸線はグラフのど真ん中に来ます。

このように集団内の数値が、どの辺りに、どれだけあるか、
すなわち“分布”を見る事で、その乱数集団の特徴がつかめます。

一般に、“行儀の良い乱数集団”は上のような分布グラフとなり、
平均値付近に多くの数値の量が集中し、平均値から遠ざかるほど、
その量はどんどん減少して行きます。

そして、その最も“行儀の良い”乱数集団が、正規分布となるのです。
厳密には、その究極に行儀の良い乱数集団だけが、
純粋な数学による確率理論の対象となります。
逆に言えば、もし株価の乱数集団の分布が正規分布でないなら、
これを数学的に扱うことはできず、世の中の金融工学の多くは
その土台から崩壊する事になります。

では、次にその正規分布を示す乱数集団について見て行きましょう。



NEXT