僕たちはキンタマを平均1つ持っている
キンタマはいくつ?
統計って聞いたことありますか?
そうそう、「平均で言えば、世界中の人々はみんな1つのキンタマを持っている」というあれです。
嘘つき!事故や自らの意思でキンタマを失った人が一定数いるはずだから平均では1つ以下のキンタマしか持っていないはずだ!
という指摘が聞こえてきますがそれは本筋ではなくウラ筋の話なので置いておきます。
ちなみに今日はキンタマの話しかしないので、ウイスキーのマイ樽熟成は関係ありません。さーせん。
キンタマ統計学よりウイスキーのマイ樽熟成に興味がある方はこちらを参照ください。
まあなんというか、平均年収とかの話で目にする議論で分かりやすいのは平均値と中央値の違いなんかはそのキンタマ話と同じです。微妙に違うけどまあ裏スj・・・
平均値と中央値の他にも、母集団に対するサンプルデータ数の不足、グラフにおける対数表現や3Dグラフでの錯視の利用などで生じる誤解を招く表現など、データの扱いにおける問題は多々あります。
今日はその中でも”バラつき”について書きたいと思います。
マジでどうでもいいけど今日家で物事のバラつきについて考えていて、サンプルデータ数の大切さについて暇つぶしに実験した結果を書いていこうと思います。
あなたのキンタマの大きさは?
まず宇宙の真理として、物事にはバラつきがあります。
嘘つき!男はキンタマ2つじゃん!2.5個持った男なんて出会ったことない!
という指摘が聞こえてきますが、いい加減キンタマ数の話から離れなさい。
では、キンタマの大きさはどうでしょう?
(またキンタマの話してる・・・)
あなたの左右のキンタマの大きさは正確に同じですか?
隣のあの人のキンタマの大きさと同じですか?
あなたのキンタマは地域で何番目に大きいですか?
私は隣の人のキンタマは見たことがありませんが、自分の立ち位置は分かります。
どちらかというと少し小さいほうだと思います。
この研究からも私のキンタマが小さいことは明らかです。
つまり言いたかったのは
1. すべての物事にはバラつきがある
2. キンタマの大きさにはバラつきがある
3. よってすべての物事はキンタマである
と言うことです。違いますか?違います。
なんの話だったか分からなくなりましたが、要はすべての物事にはその事象に特有のバラつきがある。ということです。
データの取り扱いにおいてこのことは非常に大きな意味を持ちます。
キンタマのサイズに関する空想
例えば練馬区と足立区に住む男性を適当に5人ずつ捕まえてキンタマのサイズを計測したとします。
すると各区で10くらいのデータが得られてその結果が以下のようだったとします。
・練馬区:最小値3cm、最大値5cm
・足立区:最小値2cm、最大値4cm
さて、練馬区民と足立区民のどちらがキンタマが大きいと言えるでしょうか?
これを見て「練馬区の方がキンタマが大きい!」という人が大半かもしれません。
足立区の6人目のキンタマが10cmある可能性はゼロではないはずです。
キンタマの大きさを論じるなら651人分のデータは必要でしょ?
(田坂他、1986、日本人正常精巣の重量及びサイズについての検討 第1報https://www.jstage.jst.go.jp/article/jpnjurol1928/77/9/77_9_1506/_pdf)
まあ651人までは必要ないかもしれませんがここで言いたかったのは、「ある事象についてデータを扱う時そのサンプルデータ数が少なければ、物事を正しく捉えることができない可能性が高い。」ということです。
キンタマとは関係ない実験
データの準備
さて、やっと暇つぶし実験の中身に入りたいと思います。
この実験で示したいのはサンプルデータ数の重要さです。
つまり5人のキンタマを調べてもダメで、651人のキンタマを調べないとダメでしょ!という話です。
サンプルデータ数の重要さを示すために、ある高さから紙にボールペンを落としてある点に落下することを狙うとき、上下にどれだけずれるか、を検証してみました。
まず、ノートとボールペンを用意します。
行に数字を書いて、ターゲットである0からの距離を定義します。
次に、ある一定の高さからボールペンを落としまくります。
もちろん狙うは中心の0の帯です。
暇なので100回繰り返しながらその数字を記録していきます。
最終的にはこうなります。
ペンが落ちた跡は点なので、斜線を引いてカウント済みであることを識別しています。
このデータを使っていいかの確認
まずは分布が良い感じなのかを見てみましょう。
これを度数分布表(ヒストグラム)で見てみると、0を中心として良い感じの山型であることが分かります。
このヒストグラムは青い棒が右に長いほど、その位置にペンが落ちた回数が多いこと(つまり確率が高いこと)を示しています。
この山がプラスかマイナスに偏っていたり、ピークが2つあったりすると、データとしては非常に扱いが難しくなります。
例えば山が上か下に偏っている場合、ペンを落とすときにクセがあったり、ずれた位置を狙っていたりすることになります。
ピークが2つある場合は、ペンの狙いの正確さ以外にデータに影響する条件が存在することになります。例えば右手で落とす場合と左手で落とす場合が混在していたりとかが考えられます。
ヒストグラムで見ることによってそのデータ群が検証に使えるものかどうかをある程度判断できます。
データを扱う上で上記のような分布を確認する重要性は理解いただけると思います。
バラつきとは
例えば、私が更に暇でペンを延々と落としてデータを取り続けたらどうなるでしょうか。
先ほどのヒストグラムは理論上は下の図に黒の曲線で示したような分布になるとされています。
このような平均値を中心とした上下対象で滑らかな山型を正規分布と呼びます。
正規分布の性質においては図の”σ (シグマ)”という数字が重要になります。
なぜならこのσはそのデータ群の固有の数字として計算され、分布は平均を中心として±σの範囲にデータが68%くらい、±2σの範囲にデータが95%くらい、±3σの範囲にデータがほぼ100%存在するということを示しているからです。
このσの値が大きければその分布はより広い裾野を持った、つまりバラつきが大きいということになります。
従って、あるデータ群についてσの値を求めることでバラつきを評価することができます。
ググればわかるので、ここではσの求め方は省略します。
最小のキンタマと最大のキンタマ
さて、キンタマの話に戻りましょう。(よっ!待ってました!)
先ほど練馬区と足立区のキンタマの例えで示したように最大値と最小値を見るというのはありがちなデータの扱い方の間違いです。(理由はこれから説明します)
最小値と最大値で評価するというのは今回の紙にペンを落とす検証に当てはめると下図のΔmaxを評価することになります。
今回の実験の結果
前置きが長くなりましたが、改めてポイントを整理しましょう。
・サンプルデータ数が十分に多いことが重要であることを示したい。
・ほぼ100%のデータ存在範囲を示す±3σの値を用いて評価することが正しいとされている。
・取得したデータの最小値と最大値でバラつきを見ようとするのは間違いであることを示したい。
さて、以上を踏まえて今回のデータを見ていきましょう。
ある回数ペンを落とした時に、それまで取得した全データを用いて以下2つの値を計算します。
・Δmax:最小値と最大値の差
・±3σ:統計的に確からしいとされている値
それを横軸をペンを落とした回数、縦軸を計算した値として示すと下図のようになります。
グレーとオレンジの点は最終的に12くらいに収束しているように見えますね。
つまりデータはほぼ幅12=±6に収まることを表しています。
前に示したヒストグラムを見てもその通りの分布になっていることが分かります。
±3σに着目してみると10回くらいペンを落とせば値は10くらいを示しており、そのあとは緩やかに12に近づいていきます。
つまり、±3σの値を事象の評価に用いれば、データ取得回数が少なくてもある程度の精度でそのバラつきを評価できていることになります。
一方Δmaxを見てみると10回のときはまだ5くらいで、±3σの半分くらいしかありません。
つまり、本来は12程度のバラつきを持っている事象なのにデータ取得数が10回程度の場合は5程度のバラつきであると過小評価してしまっているのです。
その後Δmaxは少しずつ増えていき、80回目くらいでようやくバラつき10くらいという数字に到達しました。
したがって、今回の実験では同じ精度で事象を見ようとすると、±3σでは10個のデータがあれば十分で、Δmaxでは80個のデータを取得しないといけない、と言えます。
・・・
以上から、ある事象を評価するときはデータ数が適切な(今回は100回)は、Δmaxを見ても、±σを見てもある程度正しい評価ができるかもしれないと言えます。
データ数が少ない時(今回は10回)については、Δmaxを見ていては過小評価となり、±3σを見ることである程度高い確度で正しい評価になりそうと言えます。
ここまで言及していませんが、データ数が極端に多い時はΔmaxは過大評価になってしまうのでその点にも注意が必要です。
本日のまとめ
・世界中の人が持つキンタマの数は平均すると1つより少し少ないくらい。
・不確実なデータを扱う場合、統計的な概念を理解していないと間違った解釈をしてしまうことがある。
・逆に、統計的知識が無いとこの不確実性が高い世界ではデータを巧みに使う詐欺師に騙されることになる。
みんな、ちゃんと勉強しような!