hirax.net::Keywords::「統計」のブログ



1999-01-08[n年前へ]

2項分布のムラについて考える 

 今回は、分散について考えたい。確率統計というのは感覚的に分かりにくい。ある確率分布が合った時に、その分布が人間にとって均一であると感じるのはどういうことなのか、ということについて考えてみる。


 今回の目的を説明するために、少し準備を行う。
 まず、2048個の[ランダムに0から256の値を持つもの]からなる1次元データを作成する。以下の左図がそのデータである。ここで、X軸がデータの順番であり、1から2048までを示し、Y軸がデータの値である。Y軸の数値ラベルは0から256の値である。折れ線グラフの方が1次元データとして実感できるのだが、そうすると真っ黒になってしまうので、点プロットグラフにしてある。
 また、[0から256]のデータの出現頻度のグラフ(つまりヒストグラム)を右の図として示す。

作成した1次元データ(左図)、とそのヒストグラム(右図)
 右のヒストグラムを見てもわかるが、2048個程度のデータでは出現頻度がフラットになるわけではない。また、その出現領域は均等にばらけるわけではない。また、左のグラフを見てみても、なにかムラがあるように感じてしまう。
 右のグラフを見ると、下は2回から上は15回位の間で出現頻度がばらついている。その頻度のムラは分散として計算することができる。今回の場合は2項分布である。

 今回の目的は、そのムラを考えることである。広い範囲で見たときには、どの程度フラットだろうか。例えば、最初の100個のデータの平均と、次の100個のデータの平均というのはどの程度同じだろうか。それが1000個ならどうだろうか。1000個平均してみても場所によって、平均値はばらついているだろうか。もし、ばらついているとしたら、2項分布の確率過程を導入すると、広い範囲で見てみても認識できるくらいのばらつきを導入していることになる。その「ばらつき=ムラ」を人間が感じないためには、どの程度まで平均しなければならないのか。そういったことである。

 ここで、先の2048個の1次元データは2048dpiの1次元画像データである、ということにしてみる。したがって、X軸の領域はトータル1inchを示すことになる。そして、以下の作業をする。

  1. 2048dpiの1次元画像データを2値化(128でしきい値とした)したものを8個に分断する。
  2. それぞれ、分断したデータ(256個)内で平均を取る。そなわち、8ppi(pixelper inch)の1次元データができる。
その1次元画像データを左下に示す。また、その8個のデータでヒストグラムを右下に示す。
8ppiへと変換した1次元データ(左図)、そのヒストグラム(右図)
 右のヒストグラムを見ると8ppiに直した段階でもまだばらつきがあることがわかる。110-135位の間でばらついている。中心値128のデータにして振れが25程度ということは、シグナルに対して20%弱のノイズが発生していることになる。8ppiでシグナルに対して20%程度の揺れがあれば、人間が認識してしまう領域だろう。これは2項分布という偏りを導入した結果である。256個で平均してみてもこれほど偏りが残っている。

 すると、2048dpiの(1/2の確率で2値化された)データというものは、今回の目的である「ムラを感じないための条件」を満たしていないということになる。ここでは画像に例えているが、別に画像だけの話ではない。

 それでは、いくつか条件を振ってみたい。各々の条件下で示すグラフの領域は以下を示す。

図の領域の説明
オリジナルの1次元データ左のヒストグラム。条件違いで軸が揃ってないのに注意。
8ppiに変換したもの
Y軸はいずれも相対値であることに注意。Max=256と読み直す。
左のヒストグラム
X軸はいずれも相対値であることに注意。Max=256と読み直す。
2048dpi
オリジナルの1次元データ左のヒストグラム
8ppiに変換したもの左のヒストグラム
 これでは、ばらついている。
4096dpi
オリジナルの1次元データ左のヒストグラム
8ppiに変換したもの左のヒストグラム
 512個で平均している。かなり、平滑になった。
8192dpi
オリジナルの1次元データ左のヒストグラム
8ppiに変換したもの左のヒストグラム
 どうだろうか。まだ、十分ではないかもしれないが、最初に比べればずいぶんと良いのが判ると思う。2項分布の分布がシャープになるためである。1024個で平均をとってやっとこの程度のばらつきになる。ここでは、全て8ppiで評価しているが、本来もっと高い周波数で評価すべきだろう。その時にはオリジナル画像は8192dpiでは不十分だろう。なお、オリジナルの1次元データのヒストグラムの鉛直軸が揃っていなので、一見データ数が増えてもヒストグラムが変化していないように見えるが、きちんと見てみると(数字ラベルが変な風にずれていて見にくいが...)データ数が多い方がヒストグラムがフラットなのがわかる。


 上の右下で出ているようなヒストグラムが2項分布であることは、サンプルを多く(しかし、試行回数を少なく)すればよくわかる。例えば、このようになる。

 関係ないが、この時に使った40960個のオリジナルデータのヒストグラムが以下である。かなりフラットである。このヒストグラムの軸を揃えるのを忘れたのは要反省だ。見にくいが、鉛直軸は140-200の領域になっている。



 今回の話はあることの前準備なので、これだけでは話しが全く見えないかもしれない。というわけで、

続く...

2000-02-02[n年前へ]

日出ずる処のダイナブック 

東芝ノートの発表日の秘密


東芝の作るノートPCはアラン・ケイが考えた"Dynabook"という名前で呼ばれる(日本では)。その名に恥じないように、東芝もノートPCに関しては力を入れまくりのハズである。

私も歴史は浅いが数台にわたって東芝ノートのユーザーである。ポインティングデバイスなどは、東芝のトラックポイントとボタンでないと耐えられない体になってしまった。いや、本当に。
 しかし、使い始めて年月が経つと性能の低下や不具合が出てくる。特に、ケースが割れまくる機種などを使っていると、なおさらである。

そうなると、どうにも新製品が気にかかってくる。「早くいい新製品が出ないかな」と熱望するようになるのである。

そういう気持ちは誰しも抱くと思われ、NiftyのフォーラムやWEB上の掲示板を眺めてみても、新製品の噂情報は数多く溢れている。

中でも、

  • どんな新製品が ( What )
  • いつ出るのか ( When )
というのは非常に重要である。何しろ、自分がPCを買ったとたんに新製品が発表されたりすると、大ショックを受けてしまう。自分の付き合い始めた彼女が、実は友人とずっと付き合っていた、と聞くようなショックである。いや、少し違うな。

だからといって、掲示板で「私はいつPCを買えば良いのでしょう?」などと尋ねたりすると、

「欲しいときに買えェ。」 (By スタパ斎藤)
「そんなことは自分で決めろ。」
などと言われること必至である。

だから、新製品を買うべきか買わざるべきか、というジレンマに私たちは頭を悩まされることになる。まるで、ハムレットである。

そもそも、このジレンマの理由は新製品の発表が前もって知ることができないという点にある。いつ・どんな新製品が出るかどうか判っていれば、あとは自分の判断で決めれば良いのである。
このジレンマは東芝の青梅工場に忍び込んだりすれば即座に解決できる。しかし、その場合、今度は「囚人のジレンマ」を考えなければならなくなってしまう。このような問題点のために、「東芝青梅工場に忍び込む」方法は採用すべきではない。

そこで、よく考えてみる。先の

  • どんな新製品が ( What )
  • いつ出るのか ( When )
というのをもう一度眺め、マクロな視点から考えてみよう。もしかしたら、これらは実は推定できるのではないだろうか?例えば、「どんな新製品が ( What )いつ出るのか ( When )」というのはの時の「ムーアの法則」で判るわけだ(もちろん大雑把に)。そして、「いつ出るのか( When )」というのは統計をとってみれば、予測できるのではないのだろうか?つまり、これまでの製品の発表日を調べてみると、実は統計的規則が隠れているかもしれない。

今回は、東芝のノートPC製品の発売日を統計的に調べ、そこに隠れている規則性を明らかにしてみたい。というわけで、今回は新製品が欲しい人たちに贈る研究報告である。

 まずは、

から最近の東芝ノートPCの発売日をピックアップしてみる。それが以下である。
  • 機種 発売日
  • Libretto50 1997/1/7
  • Satellite220 1997/5/8
  • Libretto60 1997/6/24
  • Libretto70 1997/10/29
  • Satellite 300/305/310 1998/2/2
  • Libretto100 1998/3/5
  • TECRA780 1998/4/2
  • Satellite 1998/5/11
  • Satellite325/320 1998/7/27
  • Satellite4000 1998/8/3
  • Portege3010/3000 1998/8/12
  • TECRA8000_Satelllite4000X/4010X_PORTEGE7000LibrettoSS1010 1998/10/22
  • Satellite2510 1998/11/5
  • PORTEGE3020 1999/1/7
  • Satellite2520 1999/1/13
  • SS3300_Satellite4000 1999/1/26
  • SS7020X 1999/4/13
  • DynaBook4050X/2540S 1999/5/12
  • SS3330 1999/6/3
  • Satellite4100X 1999/6/15
  • Librettoff1100_DynaBookSS3380 1999/6/28
  • DynaBook2060 1999/8/5
  • Satellite2590X/2100 1999/10/14
  • SS3330V 1999/10/26
  • SS3380V 1999/12/7
  • Satellite4320/4260/2140 2000/1/19
  • Dynabook 2000/1/26
 それでは、これをグラフにしてみる。「東芝ノートPCの発売月日と曜日の散布図」である。横軸を東芝ノートPCの発売月日として、縦軸を東芝ノートPCの発売曜日とした散布図である。
東芝ノートPCの発売月日と曜日の散布図

 ここで、このグラフの曜日軸は、

  • 0 日曜日
  • 1 月曜日
  • 2 火曜日
  • 3 水曜日
  • 4 木曜日
  • 5 金曜日
  • 6 土曜日
となっている。このグラフを眺めてみると、東芝製のノートPCは
  • 火曜日〜金曜日
に多く発表されることがわかる。土日はもちろん、月曜日は一回もない。また、金曜日に発表の場合は、月のはじめが多い。
 何故、月曜日に発表しないのか、このナゾをと某メーリングリストで質問した所、幸いにもその答えを教えて頂いた。それは日付変更線と関係していたのである。

もし、日本で月曜日に新製品を発表すると、日付変更線の向こう側のアメリカではまだ日曜日である。すると、全世界で同時発表ということができない。東芝は全世界を視野におくので、全世界同時発表ができる火曜以降が良い、というわけである。その結果として「火曜日〜金曜日」になるというわけである。
 日出ずる処のダイナブックが故なのである。

また、今回の結果では発表月は1,10月が多かった。

そこで、今回の結論は

  • 「東芝ノートPC発表は1,10月の週の中頃に期待しろ」
  • 「東芝ノートPC発表は月の始めの金曜日に期待しろ」
ということになる。この結論が、新製品買いたい病の患者の助けになれば幸いである。

P.S.メモリー容量の上限をもっと多くして下さると幸いです > 東芝さま

2001-02-19[n年前へ]

ひとりで書いてるだけだから。 

ヘッポコ文章を直したい


   面白い情報を探しにと「お笑いパソコン日誌」を眺めていると、「ウエヤマの事件簿」の「他人の日記をオモチャにしよう!」が紹介されていた。「お笑いパソコン日誌」に〜『できるかな?』風ネタであります〜と紹介されてあった通り、実に私好みの話だった。ウエヤマ氏が「自分で書いてる日記の文章」を解析して、文字の出現頻度を調べてみたものである。

 「できるかな?」は画像や科学の関連の話が多いように見える。しかし、実はそれだけではなくて文章や日記に関する話も多い。例えば、これまでに出てきた話を振り返ってみると、

に始まり、と続く、「文学の世界を眺めてみよう」という話など、あるいは「WEBページで見かける文体の特徴を解析しよう」としたなど、あるいは「WEB日記の文化を眺めて見たい」というなどの話があった。「技術サイト」という分類をされることも多い本サイトではあるのだけど、非技術的な話に強引に技術的な話を持ち込みたくなったり、技術的な話なのに何故かとても私的で非技術的な話が入ってしまったりするのが、良くも悪くも「できるかな?」の特徴だろう。もちろん、良いことでは全然無いのだけれど、こうでも書かないと悲しい気分になってしまうので、「良くも悪くも」と書いているのである。

 そういったhirax.netの特長ならぬ特徴は私が書く文章が下手なせいなわけで、そんなヘッポコ文章から脱出するべく、私の書く文章の特徴を調べて反省してみることにした。もちろん、自分のヘッポコ文章だけを眺めてみてもしょうがない。他の素晴らしい文章を書く書き手と比較しなければならないだろう。そこで、今回はいくつかの文章を品詞解析し、その結果の特徴を調べることにする。そして、書き手による文章の特徴が眺めながら、私のヘッポコ文章の欠点を調べ、さらには誰もが思わず涙がこぼしてしまうような素晴らしい文章を書けるようになりたい、と思うのである。
 

 さて、まずは目標を決めよう。私がヘッポコ文章を脱出してどんな文章を目指すかを、何より先に決めなくてはならない。となれば、あまりにも大それた目標ではあるのだが、やはり日本の文豪、夏目漱石は外せないだろう。そして、その教え子でもある寺田寅彦もやはり外すわけにはいかない。一応私も理系のはしくれ、日本の理系文章の流れを作ったこの二人を目標にしなくてなんとしよう。ヘッポコ文章を脱出していきなり、夏目漱石と寺田寅彦というところに無理があるが、そんなことを考えていては駄目なのである。「少年よ大志を抱け」とクラーク博士も言ったのである。もう少年と言うにはどう考えても年齢的に無理があるのだが、気持ちはまだまだ少年で目標は大きく持ってみたいと思うのである。

 そして、もう一人の目標は「ちゃろん日記(仮)」をマイペースに書き続ける「ななゑ」さんである。私は彼女の書く文章を読むたびにとても素晴らしい理系的センスが感じ続けているのである。しかも、理系的でありつつも笑いと涙のペーソスたっぷりの「ちゃろん文体」という独自の確固とした文体を築いているところも尊敬していたりするのである。

 というわけで、今回の文章の比較は

  1. 夏目漱石
  2. 寺田寅彦
  3. ちゃろん日記(仮) ななゑ
  4. 「できるかな?」 jun hirabayashi
の四人の書き手の文章を適当に二つずつピックアップして、その文章を品詞解析して簡単に特徴を眺めてみることにした。各書き手に対して、それぞれピックアップした文章はである。なお、夏目漱石と寺田寅彦は「青空文庫」から入手した。そして、これらの文章を日本語形態素解析システム茶筌&perlで解析後、Excelでさらに解析・表示を行ってみることにしよう。

 ところで、形態素解析とはどのようなものだろうか。まずは、例を挙げよう。例えば、

私が好きな書き手達は、夏目漱石、寺田寅彦、ななゑさんです。
という文章を茶筌で分解すると、
  1. 私 名詞-代名詞-一般
  2. が 助詞-格助詞-一般
  3. 好き 名詞-形容動詞語幹
  4. な 助動詞
  5. 書き手 名詞-一般
  6. 達 名詞-接尾-一般
  7. は 助詞-係助詞
  8. 、 記号-読点
  9. 夏目 名詞-固有名詞-人名-姓
  10. 漱石 名詞-固有名詞-人名-名
  11. 、 記号-読点
  12. 寺田 名詞-固有名詞-人名-姓
  13. 寅彦 名詞-固有名詞-人名-名
  14. 、 記号-読点
  15. ななゑ 名詞-固有名詞-人名-名
  16. さん 名詞-接尾-人名
  17. です 助動詞
  18. 。 記号-句点
というようになる。このように各文章を品詞毎に分解して、その出現分布から特徴を調べてみるのである。なお、今回注目した品詞は
  1. 読点
  2. 形容詞
  3. フィラー
  4. 感動詞
の四つである。この四つを選んだ理由は、読点は明確な決まりがないだけに書き手の感覚が入りやすいと思われ、形容詞、フィラー・感動詞に関しては書き手の気持ちが素直に現れやすいと思われるからである。ちなみに、フィラーとはから引用すれば、「あのー」「えー」といった語句ということになる。まずは各文章が書き手によってどのくらい特徴づけられるかのイメージを掴むために、形容詞の出現頻度とフィラーの出現頻度を軸にとり、各文章を二次元の世界に配置してみた結果を図示してみよう。
 
形容詞の出現頻度とフィラーの出現頻度を軸にとって、
各文章を二次元の世界に配置した結果

 結構、同じ書き手による文章が同じような位置に配置されることがわかると思う。ちゃろん日記(仮)などは、二つの独立した文章がほとんど同じ位置に配置されている。もう、ちゃろん文体は安定しまくっていて完成されているのである。そしてまた、「文豪」夏目漱石の場合も、「我が輩は猫である」と「坊っちゃん」がかなり近い位置に配置されていることがわかる。

 なるほど、結構書き手による特徴はこんないかにも雑な解析でも評価できるものなのかもしれない(あくまで「遊び」だけどね)。そして、形容詞の出現頻度などは、「雪だるまがいる景色」と「自然と生物」以外は大体同じようなものである。寺田寅彦の「自然と生物」は妙に形容詞の出現頻度が高いところが面白いところである。私の「雪だるまがいる景色」はあまり技術的な話ではなくて、確かに形容詞が多そうな話ではあるのだが、一体「自然と生物」はどうだっただろうか?

 ちなみに、「できるかな?」からの二つの文章は共にフィラーが一個も出てこない。その他の6つの文章にはフィラーが出てくるのであるが、何故か「できるかな?」の二つの文章にはフィラーが含まれていないのである。この差がなければ、寺田寅彦の二編と「できるかな?」はかなり似た場所に位置するのであるが、このフィラーは特に違うのである。

 さて、上の図ではフィラーと形容詞の出現頻度だけを眺めてみたが、読点、感動詞の出現頻度も加えて、クラスター分析を行ってみた。つまり、「読点・形容詞・フィラー・感動詞」の出現分布が似ているものを分類してみたわけである。クラスター分析にはExcelアドイン工房「早狩」の統計解析アドインを使用させて頂いた。ちなみに、クラスターの結合はウォード法を用い、非類似度計算法には標準化ユークリッド平方距離を使用した。その結果が下の図である。
 

クラスター分析の結果

 このクラスター分析の結果を示す図は近い文章をまとめていったものを示している。つまり、文章の「近さ」あるいは「似ている度」を示しているのである。ちゃろん日記(仮)の二編は本当によく似ていて、また夏目漱石の書いた二編も互いに似ている。そして、それより「近い度」は低いが「新宿駅は電気羊の夢を見るか?」は「科学について」に近くて、「雪だるまがいる景色」は「自然と生物」に近い。おして、さらに似ているものを探せば、ちゃろんの二編と「新宿駅は電気羊の夢を見るか?」・「科学について」は似ているといえなくもない、さらに言えばその四編と夏目漱石の二編が似ている。

 ここでは、四人の書き手がいるということが私には判っているので、あえて四つのクラスターに分解してみると、

1.
    • 「雪だるま」がいる景色
    • 自然と生物
    2.
    • 新宿駅は電気羊の夢を見るか?
    • 科学について
    3.
    • ちゃろん日記1998(仮)11月上旬
    • ちゃろん日記1999(仮)6月上旬
    4.
    • 我が輩は猫である
    • 坊ちゃん
という風になる。やはり夏目漱石とちゃろん日記に関してはこんなチープなごく少数の品詞解析でも、「作者の文体が同じである」と解析されてしまうのである。なかなか、スゴイとは思わないだろうか?数多くの解析をしてみるのもなかなか面白いと思う。高校生のレポートくらいだったら、これで何とか書けそうである。

 しかし、その一方で考えてみれば寺田寅彦の名随筆と「できるかな?」のヘッポコ文章が「文体が近い」と解析されてしまっているわけなので、実はこの解析の信頼性はかなり低いと言わざるを得ないところもあるのである。いや、もしかしたら「文体は同じやけど、内容が全然違いますがな」というような冷たいアドバイスを解析結果は言わんとしているのかもしれないが、もうそれは哀しすぎる事実なので考えたくないのである。

 さて、そう言えば一番最初の図で「できるかな?」と寺田寅彦の差はフィラーの出現分布だったわけであるが、「大学の講義における文科系の日本語と理科系の日本語-- 「フィラー」に注目して --」では、「聞き手への働きかけのあるフィラーが多いということは聞き手への配慮が大きいということにつながる」と書いてあった。ということは、フィラーの出現分布は聞き手への配慮に比例するというわけで、「できるかな?」の文章にフィラーが出てこない、ということは読み手に対する配慮がない、なんてことなのかなと思ってしまったりするのである。

 そんなことを考え出すと、ホラどうせひとりで書いてるだけだから読み手のことなんか考えていないのさと、思わず涙がこぼれてしまうような哀しい気持ち、になったのである。う〜む、最初は誰もが思わず涙がこぼしてしまうような素晴らしい文章を書けるようになりたいと思ったったのに、何でこんな結論になるんだろう?

 答え: それは文才がないからです。ハイ。
 
 

2001-12-17[n年前へ]

モンテカルロでビンゴ大会 

「幹事」のための確率講座

 先日、会社の後輩が結婚したので、その結婚式の二次会が新宿で開かれた。会場は、花園神社近くにあるこじんまりとした地下のバーで、多分4〜50人くらいが普通に座ると一杯になる程の広さの店だろう。

 そんな広さの店だったのだけれど、主賓のカップルの人徳だろうか、100人弱くらいの人達がその狭い店中に溢れていた。私達(『会社の先輩』と呼ばれる人達)はその一角に陣をとり、ビールを飲みながらカメラ談義などをしていた。EOS-1Digitalや50mmF1.0というレンズを前にして、私の手元にあるSpyzは段違いに情けなく、田代まさしの事件もあったせいで、恥ずかしさすら感じさせるほどだった。

 そして、その二次会は四時少し前に始まったのだが、ほどなくビールとワインが進んだ四時半頃にはお決まりのビンゴ大会が始まり、私達もシートを片手に司会者の進行に耳を傾けた。
 

5×5のビンゴ用のシート

説明も要らないだろうけど、読み上げられた数がシート上にあれば、
穴を開けて、穴が一直線に並べばビンゴだ

 (私を知らない人からは)クールと言われる私でも、何故かビンゴのシートを手にするとドキドキしてしまう。景品がどーしてもどーしても欲しいー、というわけではないのだけれど、やっぱりビンゴのシート片手にドキドキしてしまう。そんなドキドキは私だけではなくて、私の周りもみんなビンゴのシートを手にドキドキしているし、人間でなくてロボコップのようだと評された(評したのはワタシだが)こともある人でさえも、ビンゴのシートを手に司会者の声に耳を澄ませているのだから、きっとそれはみんな同じなのだ。

 そして、そんな中、司会者は次々と数字を読み上げていった。が、何回新たな数が読み上げられても私の手元のシートはなかなか穴が増えていかないのである。クジ運が良いとは言えない私のシートがビンゴになかなか近づかないのはいつものことなのだけれど、ワタシの周囲の人もまた同じように全然穴が増えていかないのである。そして、それどころか実は会場全体の人がそうだったのである。全然「リーチ」と声を上げる人もいなくて、狭い会場で100人弱もの人がいるにも関わらず、この遅々たる進行状況はかなり異常なのではないか、と感じてしまうほどなのだ。

 で、そのゲームの最中に手元のビンゴのシートを眺めながら私は考えた。なんで、こんなに時間がかかるのだろう?私だけでなく、ここに集う全ての人は不運の持ち主なのだろうか?不運の持ち主が100人集まるとは、これは一体何事だ?不運の会か?と、結婚式の二次会にはとても相応しくない想像さえしていた。
 で、そんな相応しくない想像をしながらそのシートを眺めていると、ふと気づいたのである。「ん?99?えっ?きゅーじゅきゅうー?」 この不安な気持ちは何だろう?手元のシートは5x5で高々25個の数字しかないのに、書いてある数は99までもある。ということは、呼び上げられる数字はきっと01から99までの100個。ということは、呼び上げられる数字に対して、手元のシートの「数字」の数は1/4程しかない。それでは、そもそもシート上になかなか穴が開いていかないのではないだろうか?そのペースで一体何回数字を読み上げれば、シート上で穴が一直線に並ぶのだろう?そして、あの何個もある景品達は一体何時になれば全部売れていくのだろう?う〜ん、ビールが回った頭では全然判らないぞー。いや、きっとシラフでも判らないぞー、そして、貸切の時間を考えるときっと司会者もドキドキしてるぞーと思ったのである。

 結局、最初にビンゴになった人が出たのが、ビンゴを始めてから20分以上過ぎてからだったと思う。そして、10個ほどの景品が配り終えられたのはビンゴが始まって一時間程した頃だった。つまりは、二次会がお開きになるくらいの時間だった。司会者はかなりヒヤヒヤしていたようだった。
 

 そして、帰りの電車の中で私は考えた。もしかしたら、ビンゴ大会を開く幹事には、確率統計の知識が必要とされるのではないか、と。何人の人達が会場にいて、景品は何個あって、ビンゴのシートには1から何までの数が書かれているから、一分に一個の数字というペースで読み上げていけば、ビンゴ大会にかかる時間は何分だ、と概算できるくらいでないともしかしたらマズイのかもしれない、と思ったのである。少なくともヒヤヒヤしないためには、そんな概算をしておくのも良いかもしれない、と思ったわけだ。
 

 で、そんな司会者・幹事のために、今回試しにビンゴの確率論を計算してみることにした。といっても、私は確率・統計がどうにも苦手なので、モンテカルロシミュレーション(別名下手な鉄砲も数打ちゃ当たる法)である。つまりは、何回もサイコロを振ってシミュレーションしてみただけの話である。PCの中で繰り返し、ビンゴ大会を開催してみただけなのである。ビンゴというギャンブルの確率を計算するのだから、それはもうモナコ王国誇るモンテカルロ・シミュレーション以外ないと思うのである。
 

 そんなわけで、下に示すのが「何回目でビンゴになるか一万回試行したときのモンテカルロシミュレーションを行ってみた結果」である。実際にビンゴ大会を一万回したらものスゴイ時間がかかるが、PCの中だったら一瞬ですむのが素晴らしいところである。ちなみに、ビンゴのシートの条件は、シートに書かれている数字が

  • 01〜24
  • 01〜49
  • 01〜74
  • 01〜99
の場合の四種類を計算してみた。さて、一体どんな計算結果になっただろうか?
 
何回目でビンゴになるか一万回試行したときの結果
横軸が何回目
縦軸がその回でビンゴになった人の割合
シートに書かれている数字が01〜24までの範囲の場合
シートに書かれている数字が01〜49までの範囲の場合
シートに書かれている数字が01〜74までの範囲の場合
シートに書かれている数字が01〜99までの範囲の場合

 これを見ると、例えば、シートに書かれている数字が01〜24までの範囲の場合は、12回目位で半数の人がすでにビンゴになっていることが判る。一分に一個の数字というペースで読み上げていけば、5分過ぎには半数が終了している、というペースである。かなり速いペースである。

 それに対して、シートに書かれている数字が01〜49までの範囲の場合ともなると、25回目位でやっと半数である。とはいえ、一分に一個の数字というペースでも、12,3分で半数がビンゴだから、これもやはりかなり速い進行だ。

 ところが、さすがにシートに書かれている数字が01〜99までの範囲の場合ともなると、半数がビンゴになるのが、60回目位なのである。先程の数字を読み上げるペースであれば、時間にして30分である。景品の授与の時間などを考えると、かなり時間がかかってしまいそうだ。きっと4,50分ほどはかかることだろう。実際、先日のビンゴ大会はその程度の時間がかかっていたわけである。

 そこで、試しに先日のビンゴ大会と同じ人数でモンテカルロ・シミュレーションをしてみた結果が下である。会場に100人の人がいた場合のビンゴになる人の回数(時間)に対する割合である。
 

会場に100人の人がいた時のビンゴになった人の割合
横軸が何回目
縦軸がその回でビンゴになった人の割合
シートに書かれている数字が01〜24までの範囲の場合
シートに書かれている数字が01〜49までの範囲の場合
ートに書かれている数字が01〜74までの範囲の場合
シートに書かれている数字が01〜99までの範囲の場合

 この結果だと、会場に100人の人がいた場合、最初のビンゴになる人は

  • シートに書かれている数字が01〜24までの範囲の場合 →  4回目
  • シートに書かれている数字が01〜49までの範囲の場合 →  8回目
  • シートに書かれている数字が01〜74までの範囲の場合 → 10回目
  • シートに書かれている数字が01〜99までの範囲の場合 → 27回目
である。この結果から、「シートに書かれている数字が01〜99までの範囲の場合」というのはかなり時間のかかる設定であることが判る。逆に、「シートに書かれている数字が01〜24、あるいは01〜49までの範囲の場合」というのはむやみやたらに速く、これもまた盛り上げに欠けそうである。なるほど、「シートに書かれている数字は74くらいまで」が盛り上げるためにも、時間が超過し過ぎないためにも良い数字である、ということが判るわけだ。こんな風にビンゴ大会のモンテカルロシミュレーションを行っておけば、大体の時間進行の目安が判る、ということになる。

 というわけで、これからの忘年会・パーティーシーズンに向けて、「幹事」は電卓を叩いて会費の計算をするだけではなくて、確率・統計の知識もあると便利かもしれない、モンテカルロでビンゴ大会の予行練習をしてみるのも良いかもしれない、と思ったのである。とはいえ、そんな確率統計を計算し尽くした「幹事」もちょっとイヤかも、とビールが回った頭で想像したりしたのだった。

2003-05-04[n年前へ]

スカしッ屁の風速ベクトル 

おならの流体力学 放出口外側のパンツ内側編

 少し前まで、米軍のステルス戦闘機などの話をニュースで見かけることが多かった。ステルス戦闘機といえば、それはもちろんレーダーには映らないわけで、「音はすれども姿は見えない、まるでアナタは屁のような」戦闘機なのである。これが通常の戦闘機の場合であれば出撃したりするとレーダーに写ってしまって大きな襲来警報のサイレンとともに迎えられたりするわけであるが、ステルス戦闘機の場合にはそんな襲来警報の音もなくいきなり出現するわけで、いわば音を伴わない「スカしッ屁」のようなオソロしい戦闘機なのである。しかし、ステルス戦闘機もオソロしいのだが、スカしッ屁だって十分オソロしい。何しろ、「音のしないおならは臭い」「スカしッ屁は臭い」とよく言われるほどそのに臭いは強烈だとされているのである。スカしッ屁は、ステルス戦闘機のごとくいきなり我々の鼻腔奥深くに達し、そして姿を現した瞬間にはもう我々の体の鼻の奥にその恐怖の毒ガスを充満させていくのである。
 

 ところで、ステルス戦闘機の恐ろしさはともかく「音のしないおならは臭い」というのは本当なのだろうか?当たり前のように口にされる「スカしッ屁は臭い」というセリフであるが、それは何か事実に基づいたものなのだろうか?そんなことはきっと誰しも一回は不思議に思ったことがあるに違いない。そこで、資料などを調べてみると実際にスカしッ屁は臭いという科学的根拠があるらしい。何でも、音がするしないは大抵の場合「おならの量」で決まるらしく、おならの量が多い場合には音がして、おならの量が少ない場合には音がしないというのである。そして、量が多いおならの原因は穀物を食べた時にでんぷんや繊維質が発酵して発生するメタンガスで、それはほとんど臭くないというのである。ところが、量が少ないおならの場合には、そのおならの原因は肉類の蛋白質・脂肪類が発酵して発生するアンモニア・インドールなどで、これが実に臭いというのである。だから、量が多いおならすなわち音が出るおならは臭いけれど、「量が少ないおなら」つまり音のしないスカしッ屁は臭いというのだ。統計的には「臭くないスカしッ屁は気づかれない」から「気づかれるスカしッ屁は必ず臭い」「だからとりたててスカしッ屁が臭いわけではない」という理屈も成り立ちそうなものだが、そんな理屈はさておき「スカしッ屁」の臭いは事実オソロシいものらしい。
 

 「スカしッ屁」の臭いが事実オソロシいとすると、音もなく訪れるそんなオソロシイ兵器から私たちはどのようにして身を守れば良いのだろうか?音もなくいきなり鼻腔に忍び寄ってくる「スカしッ屁」という恐るべき化学兵器からどのようにすれば身を守ることができるのだろうか?そこはもちろん、身を守るためにはまずはその対象をよく知らなければならないのである。敵を知らずして敵に勝つことはできないのである。「スカしッ屁」から身を守るためには、「スカしッ屁」をよく知らなければならないのである。別にそんなことを知りたくもない、という気持ちはもちろんココロの奥底に強く強くあるのだけれど、身を守るためにはそんなことは言っていられないのである。自分のみを守るためには、私たちはおならについて少しばかり考えてみなければイケナイのだ。…というわけで、今回はおなら(毒ガス)が体内から放出(放屁)されたのちに、オナラ放出口近辺で起きている現象を考えてみることにしたい。
 

 今回は、まずはオナラが体内から外に放出された瞬間を考えるために、とりあえず「音のするオナラ」と「スカしッ屁」が「黄門様」から放出されたあとの噴出風速ベクトル(放屁ベクトル)をナヴィエ・ストークス方程式の計算エンジンにNaSt2Dを使って計算してみた。計算領域は放出口の外側、パンツの内側というごく狭い領域である。計算領域の左中央辺りに黄門様が位置しており、計算領域の右側にはパンツがある。また、ここではパンツと言ってもビキニやブリーフのようなピッタリお肌に密着タイプではなく、トランクスのように肌との間に空間が存在するタイプを仮定している。そして、「音のするオナラ」の場合には強く早く小刻みに「ブーッ」っとオナラが放出口から放出され、「スカしッ屁」の場合には「スーッ」と弱~くオナラが黄門様から放出されることにしてみた。下の二つのグラフが、そのようにして計算してみたオナラが出たときの黄門様の外側パンツの内側における「音のするオナラ」と「スカしッ屁」のオナラ噴出風速ベクトルである。音でいうなら、左が「ブーッ」で、右が「スーッ」なのである。
 

「音のするオナラ」と「スカしッ屁」の噴出ベクトル
「音のするオナラ」「ブーッ」の場合
「スカしッ屁」「スーッ」の場合

 もちろん、言うまでもなく上の計算は実に大雑把で簡易的なものだが、「音のするオナラ」の場合には、おならの風速ベクトルの方向が刻々変わり、またその大きさも大きいことから、放出口外側ですぐに急速に拡散してしまうことが予想される。すなわち、毒ガス濃度がパンツ内ですぐに薄まり、おならガスの危険度が低下していることが判る。黄門様の外側パンツの内側でおならガスが急速に拡がっているようすが目に浮かぶようである。絶対に、目に浮かべたいとは思わないのだがこのグラフを見るとそんな様子がまぶたの裏にまざまざと浮かんでしまうのである。

 それに対し、「スカしッ屁」は「スー」っと滑らかに出るがために毒ガスが拡散せず、放出口を出た後も毒ガスの危険濃度を保ったまま「まとまったガス雲」として戦隊飛行を続けていくことが予感される結果なのである。「スカしッ屁」はその毒ガス成分だけでなく、そのガス拡散度合いも考えてみる価値もあるかも知れない(考えたくないが)、とも思わせるのである。

 というわけで、今回は何とも中途半端な計算をしただけで、オナラの風速ベクトルを予想しそのオナラの運命に考えを巡らせてみたのであるが、その中途半端さには実は理由がある。何しろ、これまでスクール水着疑似オッパイ山本式エアコンなどさまざまな物体に対する流体計算をしてきたが、今回の黄門様近くのスカしッ屁の風速ベクトル計算ほど何ともやる気がおきず、気が乗らず、頭の中で計算対象を想像したくないものも初めてなのである。対象物を強く心の中でイメージできなければ、まともな予想などもできないわけであるが、どうにもパンツの中のオナラをイメージしたくなかったのである。そのせいで、どうにも中途半端な結果になってしまったのである。

 あぁ、こんなことではオナラから身を守ることができないぞ、おならを心の中で強くイメージしなければイケナイぞ、と強く自分を戒め、続編へ向けてがんばらなければと思う今日この頃なのである。が、しかしまた、おならを心の中で強くイメージするのと、オナラから身を守るのであればどっちが重要か少し悩んでしまい、続編もちょっと…と思ったりもする今日この頃なのである。



■Powered by yagm.net