hirax.net::2項分布のムラについて考える::(1999.01.08)

2項分布のムラについて考える 

 今回は、分散について考えたい。確率統計というのは感覚的に分かりにくい。ある確率分布が合った時に、その分布が人間にとって均一であると感じるのはどういうことなのか、ということについて考えてみる。


 今回の目的を説明するために、少し準備を行う。
 まず、2048個の[ランダムに0から256の値を持つもの]からなる1次元データを作成する。以下の左図がそのデータである。ここで、X軸がデータの順番であり、1から2048までを示し、Y軸がデータの値である。Y軸の数値ラベルは0から256の値である。折れ線グラフの方が1次元データとして実感できるのだが、そうすると真っ黒になってしまうので、点プロットグラフにしてある。
 また、[0から256]のデータの出現頻度のグラフ(つまりヒストグラム)を右の図として示す。

作成した1次元データ(左図)、とそのヒストグラム(右図)
 右のヒストグラムを見てもわかるが、2048個程度のデータでは出現頻度がフラットになるわけではない。また、その出現領域は均等にばらけるわけではない。また、左のグラフを見てみても、なにかムラがあるように感じてしまう。
 右のグラフを見ると、下は2回から上は15回位の間で出現頻度がばらついている。その頻度のムラは分散として計算することができる。今回の場合は2項分布である。

 今回の目的は、そのムラを考えることである。広い範囲で見たときには、どの程度フラットだろうか。例えば、最初の100個のデータの平均と、次の100個のデータの平均というのはどの程度同じだろうか。それが1000個ならどうだろうか。1000個平均してみても場所によって、平均値はばらついているだろうか。もし、ばらついているとしたら、2項分布の確率過程を導入すると、広い範囲で見てみても認識できるくらいのばらつきを導入していることになる。その「ばらつき=ムラ」を人間が感じないためには、どの程度まで平均しなければならないのか。そういったことである。

 ここで、先の2048個の1次元データは2048dpiの1次元画像データである、ということにしてみる。したがって、X軸の領域はトータル1inchを示すことになる。そして、以下の作業をする。

  1. 2048dpiの1次元画像データを2値化(128でしきい値とした)したものを8個に分断する。
  2. それぞれ、分断したデータ(256個)内で平均を取る。そなわち、8ppi(pixelper inch)の1次元データができる。
その1次元画像データを左下に示す。また、その8個のデータでヒストグラムを右下に示す。
8ppiへと変換した1次元データ(左図)、そのヒストグラム(右図)
 右のヒストグラムを見ると8ppiに直した段階でもまだばらつきがあることがわかる。110-135位の間でばらついている。中心値128のデータにして振れが25程度ということは、シグナルに対して20%弱のノイズが発生していることになる。8ppiでシグナルに対して20%程度の揺れがあれば、人間が認識してしまう領域だろう。これは2項分布という偏りを導入した結果である。256個で平均してみてもこれほど偏りが残っている。

 すると、2048dpiの(1/2の確率で2値化された)データというものは、今回の目的である「ムラを感じないための条件」を満たしていないということになる。ここでは画像に例えているが、別に画像だけの話ではない。

 それでは、いくつか条件を振ってみたい。各々の条件下で示すグラフの領域は以下を示す。

図の領域の説明
オリジナルの1次元データ左のヒストグラム。条件違いで軸が揃ってないのに注意。
8ppiに変換したもの
Y軸はいずれも相対値であることに注意。Max=256と読み直す。
左のヒストグラム
X軸はいずれも相対値であることに注意。Max=256と読み直す。
2048dpi
オリジナルの1次元データ左のヒストグラム
8ppiに変換したもの左のヒストグラム
 これでは、ばらついている。
4096dpi
オリジナルの1次元データ左のヒストグラム
8ppiに変換したもの左のヒストグラム
 512個で平均している。かなり、平滑になった。
8192dpi
オリジナルの1次元データ左のヒストグラム
8ppiに変換したもの左のヒストグラム
 どうだろうか。まだ、十分ではないかもしれないが、最初に比べればずいぶんと良いのが判ると思う。2項分布の分布がシャープになるためである。1024個で平均をとってやっとこの程度のばらつきになる。ここでは、全て8ppiで評価しているが、本来もっと高い周波数で評価すべきだろう。その時にはオリジナル画像は8192dpiでは不十分だろう。なお、オリジナルの1次元データのヒストグラムの鉛直軸が揃っていなので、一見データ数が増えてもヒストグラムが変化していないように見えるが、きちんと見てみると(数字ラベルが変な風にずれていて見にくいが...)データ数が多い方がヒストグラムがフラットなのがわかる。


 上の右下で出ているようなヒストグラムが2項分布であることは、サンプルを多く(しかし、試行回数を少なく)すればよくわかる。例えば、このようになる。

 関係ないが、この時に使った40960個のオリジナルデータのヒストグラムが以下である。かなりフラットである。このヒストグラムの軸を揃えるのを忘れたのは要反省だ。見にくいが、鉛直軸は140-200の領域になっている。



 今回の話はあることの前準備なので、これだけでは話しが全く見えないかもしれない。というわけで、

続く...

この記事と関係がある他の記事