■神様でもイカサマには勝てないんだよ、セニョリータ



ホールのケーキを8人で均等に切り分ける、と言うときに分数を知っていれば、
最初に4等分してさらに半分にすればいいだけだ、とわかるし、
円の角度を知っていれば360度を8等分するのだから45度ずつになり、
最初に中心点で交わる直角十文字に切ってさらにそれを半分にすればいい、と簡単にわかる。
逆に言えば、分数も円の角度も知らないと、ケーキを切り分けるにも一苦労となるのだ。
ここでは、そんな「ケーキを切り分けるための知識」をまず確認したい。
今回の原稿を理解してもらうのに、最低限知って欲しい予備知識を最初に書いてしまおう。


■1.乱数(ランダム)■

一言で言ってしまえば、デタラメな数の並びである。
が、乱数を正確に定義づけるのは意外に難しく、例えば暗号などで使われる人為的な擬似乱数との判別は困難だ。
今回の原稿では数学的な正確さを追求する必要はない(と思う)ので、以下の条件を乱数の性質と考えたい。
異議、疑問のある方は、メール又は掲示板にてご指摘ください(笑)。

●条件1 各数字は独立している

乱数表を見ればわかるように、その並びの前後の数字どうしは、なんの関連性もない。
さらに一つ先の数字を見ても、さらに先の先の数字をみても、なんら意味のある関係を見いだせない。
このように各数字が完全に独立していると考えることができる事、これは乱数の大きな特徴の一つだ。

現実世界に起きるランダムな現象について考える場合は、「無記憶性」という呼び方で独立性を示す。
サイコロを振る場合、前回出た目がなんであろうと、1が出る可能性は毎回1/6で、それは絶対に変わらない。
サイコロは毎回「独立して」ふられるのであり、その前後の結果からは何の影響も受けない。
つまり、既に10回連続で1が出ていようが100億回連続で1が出ていようが、次に1が出る可能性は常に1/6のままだ。
そもそも、前回の目から、次の目が推測できたらギャンブルにならない。
(ただし、最初から10回連続で1を出し続ける確率、となると話は異なる。
詳しくは、幾何分布のところで説明します)
このように、それぞれが「独立」していて「無記憶」な関係の数字の集合、
というのは乱数か否かの、一つの判断基準となると見ていい。

●条件2 各数字が出現する頻度は、確率の理論値と(ほぼ)一致する

例えば、1から4までの数字だけで乱数表を作った場合、1が出現する確率は単純に1/4となる。
もし、その出現率が1/2だったり、1/6だったりした場合、それはなんらかのバイアス(偏向)
がかかっていると考えられるので、乱数表であるとは言えない。

ただし、これを確認するには十分なサンプル数が必要となる。
1,1,2,4と、4つの数字だけ並べられて、これを乱数か否か判断しろ、と言われても
4と2は確率と一致しているが、1と3は異なっていて、判断のしようがない。
では実際には、どの程度のサンプル数が必要なのか、というと、これは多ければ多いほどいい、としか言えない。
もっとも、数学的な裏付けが不要なら、経験上、要素の100倍あれば十分だと思われる。
数字が4つの乱数の場合、400もあれば、ほぼ判断はつく。
ただし巧妙に作られた、暗号用などの人為的な乱数、擬似乱数はこのレベルでは判断が困難なのだが、
今回、その点は問題にならないと思われれるので、考えない(適当主義)。
また、実際には完全に理論値である1/4(0.25)になることはほとんどなく、0.24777といった、
「ほぼ予想確率通り」という数字となるのだが、これも今回は深く考えない(現実逃避)。


■2.ベルヌーイ試行■

コインをトスして裏が出るか表が出るか、あるいは適当に時計を見た瞬間、秒数表示は奇数か偶数か、
といった、AかBかどちらかの結果、必ず二つに一つの結果しかでないランダムな試行(賭け事と考えてもいい)を
ベルヌーイ試行(ベルヌーイ トライアル)と言う。

これはランダムな試行(トライ)なのだから、毎回、独立した行動(アクション)によって行われる必要がある。
例えば、気象現象、雨が降ったか降らなかったかなどは、前日、あるいは直前の大気現象と密接に関係しているのだから、
時間的な連続性があることになるので、これはベルヌーイ試行とは見なせない。
ベルヌーイ試行とは、あくまで毎回ランダムに結果の白黒が決まる現象を指す。

なんでこんなモノが出てくるか、というと、今回の話は、株価が「上がったか」「上がらなかったか」
のみに注目して、これをベルヌーイ試行と見なす、という所から話が始まるからだ。
ちなみに、ベルヌーイ試行の結果は、必ずしも五分五分、50%になるとは限らないのだが、
株価の上がる、下がるはそれぞれ1/2、五分五分の確率の話となってゆく。
ある意味特殊な例でもあるのだが、もっとも楽な話にもなる。まあ、詳しくは、本題に入ってから。




■3.幾何分布■

なんだか難しそうなタイトルだが、大丈夫、私でも理解できるほど単純な話さ、ベイビー。

ベルヌーイ試行を対象とする確率の考え方の一つで、
あるベルヌーイ試行の結果のうち、どちらかの結果が出るまでに、かかる回数を推測するものだ。
(その結果の「起こりやすさ」を示す)

つまり、1回ごとに裏表が出る確率は常に1/2なわけだが、幾何分布では、連続してn回出続ける、
あるいは全く出ない可能性を考えることになる。
1回ごとの試行の確率ではなく、連続して行われる試行を1セットとして、その確率を計算する、
と考えてもらえばいい。
まあ、こう書くとなんだか難しそうだが、実際に計算してみると、アホみたいに単純である。

ちなみにこの計算、7:3の比率でどちらかの現象が起こる、とかになるとちょっと考える必要があるのだが、
今回の株の話では1/2と1/2、同じ確立で二つの現象が起こる例を扱うので、非常に簡単な計算となる。

今後の話が進めやすいように、ここでは1/2と1/2の確立で裏表どちらかが出る、コイントスを例としよう。
最初に「表」が出るのは何回目のトスになるのかを推測したい、というのが幾何分布計算の目的となる。
が、ランダムな系(乱数系)を相手に、直接何回目に表が出ます!と予測するのは不可能なので、
ここでは、1回、2回、3回…と投げた回数ごとにその確率を計算して、
その「出やすさ」の判断基準とすることになる。
ちなみに、最初に書いた乱数の定義では、各回の試行は独立していて、
それぞれ常に同じ確率(コイントスなら1/2)となる、と説明したが、
幾何分布の場合は、連続してn回出る、というのを1回の試行と考える。
なので、9回連続して表が出た後に、もう一度表が出て10回連続になる確率(当然1/6)、ではなく、
0から初めて、これから10回連続で表を出すぜ、という考え方で、その確率を求めるのだ。

意味が分からん、と思うかもしれませんが、実はこれ、小学生の算数レベルの話になるんだニャー。

まず、各回ごとに「初めて」表が出てくる可能性を考える。一回目なら単純に1/2。当たり前でヤンス(笑)。
で、この後は、n回目に表が出る可能性を計算する必要がある。
n回目に「初めて」表が出た、ということはn-1回目までは裏が出続けていた、という事だから、
連続してn-1回分裏が出続ける可能性を乗算して出す。
裏の出る確率も1/2だから、(1/2)を(n-1)回だけべき乗してやればその確率は出るので、
そこに表の出る確率1/2を掛けてやれば、n回目に表の出る確率が計算できる。
例えば、3回目に初めて表の出る確率は1/2を(3-1)回、つまり2回べき乗し、そこに表の出る確率1/2を掛ければいい。
よって、1/2×1/2×1/2。
あれ?
いろいろ理屈を並べて来たが、その計算式はいたってシンプルになってしまうのだ。
3回目に「初めて」表が出る確率は、単純に1/2を3回掛け算すればよく、
2回目なら2回、4回目なら4回、すなわちn回目の確率を知りたければ1/2をn乗してやればいいいだけ。
ね、アホみたいに単純な話になったでやんしょ。
実は、表と裏、どちらの出る可能性も1/2なので、この計算で出てくる確率は、
n回目に表が出る確率であると同時に、裏がn回連続で出る可能性にもなっている。
なので、あの小学生レベルの確率計算式になってしまうのですな。
まあ、大助かりですけど(笑)。

こうして計算した場合、各回に「初めて」表の出る可能性は
1回目は1/2で50%、2回目で1/4で25%とだんだん減って行き、
10回目では、1/1024、0.09%にまで確率が下がる。
まあ逆に言えば10回連続で裏が出る確率なんだから、この程度の可能性が妥当だろう。
ついでに、20回目に至っては、1/1048576、0.000095%にまで下がってしまうことになる。
もっとも、この数字を1億2千万日本国民に当てはめた場合、
1144人ほどの人数になるので、決して少ない数ではないし、
NASAの安全基準である100万分の1以下確率やら
シックスシグマやらから見ると、まだちょっと大きい数字なので、
これをもってほとんどゼロ、というのはちょっと厳しい。
が、それでも現実的な可能性からして、ほとんどない、と言っていいレベルだろう。
ちなみに20回連側から先の数はエクセルの計算限界を超えてしまう(涙)。

現実的には、ベルヌーイ試行の結果で、どちらか一方の数字が連続して出続けるのは、
20回前後が理論的な限界…ってあたりを覚えて置いて欲しい。

が、言うまでもなくこれを求める式、
1/2のn乗
において、nの取る数字は無限に続くから、出てくる解は無限に小さくなって行くものの、
コインの表がどこまでも出続ける可能性は、決して0にはならない。
例えば、全銀河系からピグミーマーモットを100億匹集めて、
連中にコイントスを100億年続けさせれば、結構な回数、
1000回連続で表がでました、という結果が出るのではないか、と思われる。
未来永劫、表が出続ける可能性はゼロではない、というのも覚えておいて欲しいでヤンス。


■4.大数の法則■


確率統計の元祖ゴッド閣下ことベルヌーイさんが見つけた定理の一つ。

例えばサイコロをふって、6が出る確率は単純に1/6だ。6回に1回、という事である。
が、実際に6回サイコロをふって6が出る回数を見ると、2回出たり、1回も出なかったりして、
1/6の確率通り、すなわち1回だけ6が出る方が珍しいことに気づくだろう。
なーんだ、確率って全然意味ないじゃん、と思うことになる。

が、このサイコロを6回振るというのをワンセット、1回の試行と考えるとしよう。
そして、これを何セットも繰り返して試行(トライ)し、6の目が出た回数を記録して行く。
1回の時もあれば、0回の時もあるだろうし、6回全部、連続で出るという可能性も当然ある。
で、ある程度の回数トライしてから、その「6の目が出た回数」の平均値を出して見よう。
すると、話は違ってくるのだ。
平均してならされた数字は、確率1/6、すなわち「1回」にかなり近い数字となるのである。

この時、セット数(試行回数)が多いほど、6の目が出る回数の平均値は、
計算で求められた1/6の確率、「1」に近づいて行く。
10回くらいの試行では、まだ理論確率との差が大きいだろうが、50回、100回と試行回数を増やすと、
その平均回数は徐々に「1」に近づいて行き、100セットも繰り返せば、約0.9から1.1ぐらいの範囲に収まるだろう。
これが「大数の法則」である。
この法則は、サイコロやコイントスによる実際の試行で確かめられるほか、数学的にも証明がなされている。
「ある事象が現実に起きる回数は、サンプル数が多ければ多いほど、確率計算で求められた理論値に近づいてゆく」
ということである。


■5.平均への回帰■


本稿では数学的な意味ではなく、統計学的な意味での「平均への回帰」を採用する。
両者の違いは微妙だと思うが、数学的な意味での「回帰」に対する
私の理解は極めて浅いので、触れないことにするのが無難だと判断した(無知)。

さて、日本人男性の平均身長が170cmだとする。
この時、母親の身長とか、栄養学的な問題は無視して、結果だけに注目しよう。
まず、極端に背が高い方だと考えていい身長190cm以上の男性に注目する。
この男性たちにの息子はの身長は父親より低い可能性が高い(平均値へ近づいている)。
逆に身長150cmの男性の息子は、父親より背が高く生まれてくる可能性が高い(これも平均値へと近づく)。
そして170cmの男性の息子は、ほぼ父親と同じ背丈になりやすい。
なぜそうなるか、は問題にならない。というか、実はわからない(笑)。
とにかく結果だけに注目することにすると、
「平均値から大きくずれた数値結果が出た場合、次の試行結果での数値は平均からのズレが小さくなる」
のが、実際のデータから確認されている、ということだ。
そして、これは身長の問題に限らず、さまざまな統計データに同じ傾向が見られるのである。

ただし、あくまで「平均値に近づく」というだけで、最終的にすべてが平均値に戻るわけではない。
身長190cmの男性の息子は、平均値に近づいた、としても180cm以上はある可能性が高い。
少々乱暴な例えを出すなら、平均点が60点のテストで100点を取った生徒は、
次のテストの点数が100点よりも下がる可能性が高いが(それ以上は無いのだし)、
それでもよほど勉強をサボらなければ、80点以上の点数は取ってくるだろう。
要するに、極端に平均から外れた数値は、次回から原因不明の補正がかかるのだが、
それはあくまで「突出した部分が補正される」というレベルで、そう急激な変化がおきるわけではない。
「回帰」という言い方は、やや強すぎるだろう(例外的な強烈な回帰現象もあるらしいが)。
そして基本的に、これらはランダムな現象ではなく、時間的に連続した現象を対象とする。

また、逆に平均値から大きく外れる現象も、常に起こる。これはランダムな現象として発生すると考えていい。
平均への回帰、という現象は、このイレギュラーな数値異常を補正する働き、とも考えられるのだ。

余談だが、重要な話のような気もするのでここで脱線しておくでヤンス。
この「平均への回帰」を最初に発見したのはイギリスのフランシス・ゴルトン閣下だ。
この名に、ピンと来たでしょうか?
あのダーウィンの従兄であり「種の起源」から、いらんインスピレーションを受け、
優秀な人類を残そう、という方向へ突っ走る悪名高き「優生学」の始祖ゴルトンちゃんですな。
ここからナチスのユダヤ人虐殺や、20世紀になったアメリカで、新たな黒人差別の問題などが出てきます。

まあ進化の話は今回関係ないのですが、ここまで来たなら、さらに脱線しておきましょう(笑)。
「進化はランダムな系の一つだ」という、どう考えてもゴルトンが一番最初に理解していいはずのポイントを
なぜか一切無視してるので、彼の優生学の主張はトンチキの一言で片付けていいのですが、
それでもゴルトンの統計学への貢献は、かなりレベルの高いものだったりします。
その一つがこの平均への回帰の発見でした。

が、彼はこれを発見して焦ります。
優生学の主張は簡単にまとめると、
「優秀な遺伝子をもった、優越した人種の子孫を残し、人類を進化させちゃったりなんかしたりしてー」
ということです。
が、ここで平均への回帰を考えると、どんなに優秀な人間の子孫でも、
世代が進むにつれて、みな平均値に戻ってしまう!どうしたらええんじゃ!
という問題にぶつかったわけです。
そもそも前提問題から間違ってるので、この発想を否定するのは単純ではないのですが、
答えだけ書いてしまうとと、この「平均への回帰」に対する考え方は間違っています。
必要最低限の事をまとめると、まず「平均への回帰」といっても全ての数値が平均値まで戻る、
という意味ではないこと(イレギュラーな差が補正されるというレベル)、
そして何より、平均値がそもそも動くんですな。

例えば、日本人の平均身長は明治から平成までで、20cm以上、高くなってます。
あれ、平均への回帰は?というと、答えは単純。
例えば平均身長150cmの世代の子供なら、150cmに近づく、という訳ではないんですね。
ここでは、その世代の平均身長に近づきます。だから、その子ども達が成人して、
その世代の平均身長が152cmだった場合、その数値分布を取って見ると、
ちゃんと152cmを中心とした分布になったいるはずです。
何度も書きますが、なぜか、はわかりません。そうなるんですよ(笑)。
世代が移って行く、といった現象においては、その平均値も動いて行くのです。
これを進化と呼んでいいか、というとまた別の問題なんですが、
この「平均値ごと動いて行く回帰」は、後ほど株価の話でも少し触れることになります。


はい、今回はここまで。
この「5つの道具」を使って、自由市場の価格決定システムは未来予測が可能か、
を考えて行きましょう。
いや、結論は非常に単純なものになるんですが、ちゃんと説明しようとすると、
非常に大変なんですよ、この話(涙)。


BACK