hirax.net::Keywords::「女子大」のブログ



1999-07-14[n年前へ]

夏目漱石は温泉がお好き? 

文章構造を可視化するソフトをつくる


 先週は新宿で開催されていた可視化情報シンポジウム'99を見ていた。参加者の世界が狭い(ジャンルが狭いという意味ではない)し、学生の発表が多すぎるように思ったが、少なくとも本WEBのようなサイトで遊ぶには面白い話もあった。というわけで、これから何回か「可視化情報シンポジウム'99」記念の話が続くかもしれない。とりあえず、今回は「小説構造を可視化しよう」という話だ。

 まずは、「可視化情報シンポジウム'99」の発表の中から一番笑わせて(笑ったのはいい意味ですよ。決して皮肉ではないですよ。しつこいようですが、ホントホント。私のツボに見事にはまったのだからしょうがない。)もらった発表のタイトルはこれである。
文学作品における文体構造の可視化 - 宮沢賢治「銀河鉄道の夜」の解析-
白百合女子大学大学院の金田氏らによる発表だ。予稿集から、その面白さを抜き出してみよう。まずは過去の研究の紹介をしている部分だ。

作品(hirax注:夏目漱石の「虞美人草」と「草枕」)の始まりから終わりまでを時系列で捉えると(hirax注:話法に関する解析をすると)、二作品はともに円環構造、つまり螺旋構造を描きながら、物語が進行していくことが、四次元空間上に表現された。
中略
これは、作品の解析結果を可視化することで、夏目漱石の思考パターンと内面の揺れが明らかにされたことを意味する。
 

 なんて、面白いんだ。この文章自体がファンタジーである。こういうネタでタノシメル人にワタシハナリタイ。おっと、つい宮沢賢治口調になってしまった。そして、今回の発表の内容自体は、宮沢賢治の「銀河鉄道の夜」の中に出てくる単語、「ジョバンニ・カンパネルラ・二」という三つの出現分布を調べて構成を可視化してみよう、そしてその文学的観点を探ろう、という内容だ。

 本サイトは実践するのを基本としている。同じように遊んでみたい。まずは、そのためのプログラムを作りたい。名づけて"WordFreq"。文章中の単語の出現分布を解析し可視化するソフトウェアである。単語検索ルーチンにはbmonkey氏の正規表現を使った文字列探索/操作コンポーネント集ver0.16を使用している。

ダウンロードはこちらだ。もちろんフリーウェアだ。しかし、バグがまだある。例えば出現平均値の計算がおかしい。時間が出来次第直すつもりだ。平均睡眠時間5時間が一月続いた頭の中は、どうやらバグにとって居心地が良いようなのだ。
wordfreq.lzh 336kB  バグ有り版

バグ取りをしたものは以下だ(1999.07.22)。とりあえず、まだ上のプログラムは削除しないでおく。

失楽園殺人事件の犯人を探せ - 文章構造可視化ソフトのバグを取れ - (1999.07.22)

 動作画面はこんな感じだ。「ファイル読みこみ」ボタンでテキストファイルを読みこんで、検索単語を指定して、「解析」ボタンを押すだけだ。そうすれば、赤いマークでキーワードの出現個所が示される。左の縦軸は1行(改行まで)辺りの出現個数だ。そして、横軸は文章の行番号である。すなわち、左が文章の始めであり、右が文章の終わりだ。一文ではなく一行(しかもコンピュータ内部の物理的な)単位の解析であることに注意が必要だ。あくまで、改行までが一行である。表示としての一行を意味するものではない。なお、後述の木村功氏から、「それは国語的にいうとパラグラフ(段落)である。」という助言を頂いている。であるから、国語用の解析を行うときには「行」は「段落」と読み替えて欲しい。また、改行だけの個所には注意が必要だ。それも「一行」と解釈するからである。

WordFreqの動作画面

 「スムージング解析」ボタンを押せば、その出現分布をスムージングした上で、1行辺りに「キーワード」がどの程度出現しているかを解析する。
 そう、この文章は長い文章の中でどのように特定の単語が出現するか解析してくれるのである。

 それでは、試しに使ってみよう。まずは、結構好きな夏目漱石の小説で試してみたい。
電脳居士@木村功のホームページ 
から、「ホトトギス」版 「坊っちやん」のテキストを手に入れる。そして解析をしてみよう。まずは、この画面は夏目漱石の「坊っちやん」の中で「マドンナ」という単語がどのような出現分布であるかを解析したものである。

夏目漱石の「坊っちやん」の中の「マドンナ」という単語の出現分布

 文章の中ほどで「マドンナ」は登場してくるが、それほど重要なキャラクターでないことがわかる(このソフトがそう言っているんで、私が言っているのではない。だから、文句メールは送らないで欲しい)。

 それでは、「湯」というキーワードで解析してみよう。「坊っちやん」と言えば道後温泉であるからだ。

夏目漱石の「坊っちやん」の中の「湯」という単語の出現分布

 おやおや、「マドンナ」よりもよっぽどコンスタント(安定して、という意味で)に「湯」という単語は出現するではないか。出現平均値は「マドンナ」の方が多いが、安定度では「湯」の方が上だ。夏目漱石は「マドンナ」よりも「湯」すなわち温泉によっぽど興味があるようだ。

 主人公を育てた重要人物「清」を調べてみると、こんな感じだ。

夏目漱石の「坊っちやん」の中の「清」という単語の出現分布

 小説の初めなんか出ずっぱりである。あと小説のラストにも登場している。

 どうだろうか。見事に小説の可視化に成功しているだろう。結構、この解析は面白い。すごく簡単なのである。
 これから新聞、WEB、小説、ありとあらゆる文章を可視化し、構造解析していくつもりだ。みなさんも、このソフトを使って面白い解析をしてみるとよいのではないだろうか? とりあえず、高校(もしかしたら大学の教養)の文学のレポートくらいは簡単に書けそうである。もし、それで単位が取れたならば、メールの一本でも送って欲しい。

 というわけで、今回はソフトの紹介入門編というわけで、この辺りで終わりにしたいと思う。

2000-12-17[n年前へ]

女子大生から見たガンダム 

 いいぞぉ、最高だぁ。そういえば、ちゃろん日記の99/10/04の「アレの長さを測るがごとく 」もこんな話だったなぁ。ちなみに私が書いてみたガンダムは女子大生と同程度。ハイ。from J-oの日記。(リンク)(リンク

2002-01-20[n年前へ]

徳川埋蔵金殺人事件 

超論理特許ミステリー「狩野埋蔵金の埋蔵場所を解読し発掘する方法」





 ワタシの勤務先では「一年に*本特許を書くべし」という恐ろしいノルマがある。もちろん、こまめに書いていれば何の問題もないのだけれど、他の仕事にかまけてついつい後回しにしていたりすると、年末や期末には特許をまとめて書かなければならなくなる。架空の物語を量産する小説家のように、架空の実験データを描き整理し、架空の特許を量産しなければならなくなるのである。

 いつものごとく、昨年末もそうだった。年末の最後の二三日は特許書きで追いつめられ、しかも書き上げられずに、できの悪い小学生のように、家へ書きかけの特許を持ち帰って、正月休みに特許を書かなければならなくなったりしていたのである。そんなわけで、正月番組を見ながら、特許庁の電子図書館のサイトにアクセスし特許調査をしつつ特許を書いていた。が、正月番組などを眺めているせいか、どうにもマジメに特許が書けなかったりするのである。いつしか、ビールを飲みながら仕事とは全然関係無い特許公報を眺めていたりしたのである。

 今回、紹介する特開2001-42765「狩野埋蔵金の埋蔵場所を解読し発掘する方法」という公開特許公報もその一つである。キャッチーな名前で想像つくとは思うが、なんとこの特許出願はいわゆる赤城山徳川埋蔵金の場所を発掘するための特許なのである。世に出される特許は数多く、埋め立てゴミの数より多いくらいかもしれないが、そんな中でも「埋蔵金の隠し場所を解読し発掘する方法」なんて特許は見たことがない。歴史ミステリー、暗号ミステリー、そして、ご当地モノミステリーなどが好きなワタシは思わず目を奪われ、その特許を読み始め、そしてこの超論理特許ミステリーの世界に引き込まれたのだった。

 そして、この特許のあまりの素晴らしさに今回こんな感想文を書いて、世の中にこの超論理特許ミステリー特許を広めたいと思うのである。そして、さらにはこの感想文を読んだ人が特許フォーマットに慣れ親しみスラスラと特許を書けるようになり、ワタシのように特許を書き残しで苦しむ人が減ることを強く望む次第なのである。
 

 さて、特許では、まず「発明の名称」を書かなければならない。この特許でももちろんそうだ。というわけで、
「発明の名称」 狩野埋蔵金の埋蔵場所を解読し発掘する方法
 
 何とも、キャッチーな名前である。これが火曜サスペンス劇場であれば、「徳川赤城山埋蔵金全裸殺人事件2 湯けむり露天風呂で美人女子大生が消えた!村に残る伝説が不気味に今よみがえる!」くらいにはパワーアップすることだろうが、特許の書類としては十分に魅力的である。この名前を見れば、誰しもワタシのようにこの特許の世界に引き込まれるハズである。

 そして、次に「どんな範囲のこと」を特許として宣言するかを書くわけだ。これを請求項と呼ぶが、この特許はもちろんこれだ。
「請求項」 従来一般に赤城山徳川埋蔵金といわれている黄金の埋蔵場所を発見・発掘すること

 なんと、赤城山徳川埋蔵金といわれている黄金の埋蔵場所を発見・発掘してしまうのである。特許を書いて大金を手に入れるという話はたまに聞くが、特許を書いて埋蔵金を手に入れるという話は聞いたことがない。まさに、夢というか、男のロマンというか素晴らしい特許なのである。

 そして、次に「従来の技術」というセクションが続く。つまり、従来はこんな問題がありますよ、こんなに不便だったのですよ、ということを書くのである。それに対して、今回書いたこの技術はそんな「従来の課題」を解決できて、価値があるのですよ、と訴えるのだ。そこで、この特許は説く、

「従来の技術」 従来の技術は、解読に科学性が不足していたために、経済効果の悪いものであった。…暗号のかたちで示されている埋蔵金を資源として再利用するためには、闇雲に探したのでは経済的に成り立たないので技術とは言えない。埋蔵金の探査技術が発達すれば、埋蔵金の発掘は夢や学問でなく産業になるであろう

 なんと、これまでの発掘を「技術とは言えない」と喝破しているのである。かつて、近所の埋蔵金伝説に、電子ブロックの金属探知器を頼りに闇雲に探そうとしていたワタシなどは、「あぁ、ゴメンナサイ、ゴメンナサイ…」と謝らなくてはならないような勢いなのである。この作者発明者は埋蔵金の探査技術が発達すれば、埋蔵金の発掘は夢や学問でなく産業になるとまで謳いあげるのだった。今さっき、埋蔵金探しは「夢で男のロマンだぁ」と書いたワタシはさらに「ゴメンナサイ、ゴメンナサイ…」と謝らなければならないのである。

 さらに、従来の「埋蔵金探し」を箇条書きに上げ、

  • 勘で場所を決めて、縦穴を掘り、さらにいくつもの横穴を掘ったり、ブルトーザーで土を押しのける
  • 百年にもわたり、長期間諦めずに掘る
このいずれも科学的でないと問題点を挙げるのである。従来例が妙に具体的で、「百年も諦めずに掘ってるのは一体ダレのこと?」とか、「縦穴を掘ったり、横穴を掘ったり、ブルトーザーで土を押しのけるってそれも一体ダレデスカ?」とツッコミを入れたくなり、さらには、「それって…テレビでも観ながらこの特許を書いたのではないデスカ?」と思ってしまうほどなのだ。

 しかし、そんなミステリー特許に引き込まれていくワタシの心の中のツッコミなど知る由もなく、この埋蔵金小説許では、引き続き具体例を挙げて特許の内容を説明していくことになる。それが、次の「実施例」である。具体的な資料群をもとに、埋蔵金発掘に迫るストーリ〜が書き示されている。

 、この資料群がスゴイのである。何しろ、こんな感じなのだ。

  • 資料A 「常習赤城におよそ三百六十万両。古井戸を掘ることを手がかりとすべし」という水野家に伝わる遺言
  • 資料B 「寺の床下から発見された方位図・地図・暗号文書」
  • 資料C 「空井戸から発見した銅板と像」
  • 資料D 「黄金埋蔵はアッという間にされたらしい、という地元住人のウワサ」
どうだろうか。何と、提出された添付資料は地元住人のウワサである。火曜サスペンスも真っ青である。特許庁に申請される特許は数多く、星の数ほどもあるだろうが、そんな中でも地元住人のウワサを添付した特許は他にあるのだろうか?添付された図面資料だって、なんてったって、床下から発見された暗号文書だったりするのである。歴史ミステリーが大好きで、猿丸幻視行を楽しんだワタシなどはもうたまらない面白さなのである。
 
資料Bの一部 「暗号文書」
まさに、歴史ミステリーである

 
寺の床下から発見された方位図・地図

 しかも、資料Aの「常習赤城におよそ三百六十万両。古井戸を掘ることを手がかりとすべし」という遺言に対しては、「ここで疑問に思うのは、義父が何故もっと詳しく埋蔵場所を教えなかったのか」などと死者にムチ打ち、マジメなのかそれともツッコミ?と言いたくなるような感想・疑問を書き、この疑問に対して延々2ページに渡り超論理的考察、超心理的考察を加えることで、ついには「埋蔵金は七つの古井戸に埋蔵されたことになる」と、超論理科学的に鉄槌結論を下すのである。

 そして、下に示す「寺の床下から発見された方位図・地図・暗号」を基に、黄金分割を始めとする数学的考察などを駆使し、埋蔵金の位置を推定する。しかも、単に推定するだけでなくて、経済的・効率的に発掘をするために埋蔵金の位置の計算誤差を延々と論じて、ついには誤差50cm〜7m弱だと推定するのであった。なるほど、この歴史ミステリー小説特許は単に技術特許にとどまらず、経済を見据えた経済ミステリー特許でもあったのだ。「埋蔵金の発掘は夢や学問でなく産業になる」のだ。

 さて、この埋蔵金ミステリーで指し示された「埋蔵金の埋まっている七つの古井戸」がどこであるかを知りたい人も多いだろう。ということで、特許の図を重ね合わせ、埋蔵金の埋まっている七つの古井戸の場所をプロットしてみたのが、次の図である。どの辺りか判らない人のために、広域地図をリンクしておくとここら辺りということになる。
 

ここが埋蔵金の埋まっている場所だ

 さて、この特許の最後には「なお、この辺りは便利な住宅地向きの環境になりつつあるので、住宅が建設される前に発掘することが望ましい」
と産業としての指針まで描きつつ筆をおくのである。

 どうだろうか、面白いミステリー小説特許だったのではなかろうか?そして、特許なんて簡単に書ける、と思った人もいるのではないだろうか?そして、どんどん特許を書きたくなる、と思う人も多いに違いない。で、ワタシは思うのだ。できれば、できることであれば、その書いた特許をワタシにも少し分けて頂いて、ワタシのノルマを少しでも減らして欲しい、と強く強く思うのである。
 
 
 

2002-03-16[n年前へ]

あなたのとりこ 

 サントリー 緑水 光の中へ編。このCMとても好き。動画はリアルオーディオの方は私の環境ではパラパラマンガになってしまったので、メディアプレーヤーの方で見た方が良いかも。シルヴィ・バルタンのあなたのとりこがフルコーラスで聴けるのもありがたい。
 主人公は女子大生。朝、陽光の射す駅のホームで人混みの中に最近知り合ったばかりの気になる男の子を見つけます。思わずこぼれる笑み。ところが次の瞬間、男の子の隣には親友の姿が…。そのまま列車に乗ると、いつしか列車は都会を離れ、郊外までやってきます。小さな駅に降りると周りは鮮やかなみどりにあふれ、太陽はなにもかもをキラキラと輝かせている…。(リンク

何と、女性は宇宙であった。 

今の宇宙は「熟女」なのだ

 私の職場には「オレは女性は絶対年上が良いと思うね」と断言する人達がいる。その一方で「自分より年下でなければ人じゃないスよ」という、「それは人間として如何なモノか」と問いたくなるような新入社員一派もいる。

 ある日、何かの打ち上げでビールを飲みながら、そんな「熟女vsロリ」大論争を聞いている時、私はふと思ったのである。あれ?女性の「色っぽさ」ってどんな色なのだろう?色っぽさって、そういえば何色なんだろう?ちょっと眺めてみたい気がするな〜。
 それに…、その女性の「色っぽさの色」は年を重ねると、どんな風に変化していくのだろう?「色っぽさ」はどんなカーブで成長していくのだろう?と、そんな風に思った私は、今回「女性の色っぽさ」が何色であるか、そしてそれは女性が年を重ねるにしたがってどう変化していくかを調べて、眺めてみることにした。

 これまでも、「できるかな?」ではさまざまな抽象的なもののイメージ(=画像)をネットワーク上から多数集めそれらの色分布を調べることで、それらの抽象的なもののイメージ(=印象)を目に見える形にしてきた。だから、ある程度は「色っぽい」というのがどんな色だかは想像がつく。例えば、下は「心の色はどんな色?」で調べた「笑顔・童話・心・エロ」の色である。
 

「心の色はどんな色?」で調べた「笑顔・童話・心・エロ」はこんな色

 こんな風に、ネットワーク上から多数の画像を集めれば、抽象的なものであっても「目に見える色」にすることができる。ましてや、女性の色っぽさなどは、もちろんもとより「色っぽい」というくらいだから、「目に見える色」にするのは簡単なことだ。いつもと違うのは、女性が年を重ねるにしたがって「色っぽさ」がどう変化していくかを調べるので、ちょっと定量的に扱ってやらなければならないだけである。

 そこでまずは、HiraxNetMosaicMakerに多数の画像の「色の平均値」を出力するウィンドーを付けたてみた。

色の平均値(Lab)出力ウィンドーが付いた"HiraxNetMosaicMaker"

 そして、いつもと同じように「GuruguruImage+Iria+HiraxNetMosaicMaker」トリオでさまざまな女性の画像を収集し、その「色っぽさ」を調査することにしてみた。ネットワーク上からいつものようにゴッソリ集めた画像は全部で6種類である。まずは、年齢に応じた女性の呼び名である

  1. 幼女
  2. 少女
  3. 熟女
  4. 老女
という四種のイメージだ。「少女」と「熟女」の間を何て呼べば良いか判らなかったので、その二つの間はずいぶんと離れてしまった。しかし、そもそも「少女」や「熟女」が何歳くらいだかはよく判らないので今回の第一次調査ではこのままにしておきたい。そこをハッキリさせると、「むきーーー!」って怒る人も多いだろうし…。

 また、上の四つのような年齢だけではなくて、さらに「何らかの属性が付加されている」

  1. 女子大生
  2. 淑女
という二つのイメージもさらに調査してみた。「二十歳前後の問を修めている女性=女子大生」の「色っぽさ」と、「品位のある、りっぱな婦人(新明解国語辞典)=淑女」の色っぽさを調べてみるのである。この二つがあまりに「色っぽい」という結果が出るようであれば、今回の調査方法の妥当性が疑われる、ということである程度のエラーチェッカーになるわけだ。

 さて、早速調査した結果を眺めてみることにしよう。下の表が色んな女性の「色」と「色っぽさ」を示した結果である。ちなみに、ここで「色っぽさ」というのはa*a+b*bを示している。つまり、どれだけ「色っぽい」かを示す数値である。
 

色んな女性の「色」と「色っぽさ」
La*b*色っぽさ
幼女79.51.41.54.21
少女76.02.33.920.5
熟女76.73.84.635.6
老女74.32.93.923.6
女子大生76.91.63.414.1
淑女79.32.33.215.5

 そして、この数値を見ながら、下のLab色空間とそこに配置した「笑顔・童話・心・エロ」のイメージを眺めてみよう。すると、例えば熟女の「色」がa*=3.8,b*=4.6と群を抜いて高く、「心」度も高いが「エロ」度も高い、となるのである。そして、その結果「色っぽさ」は他の倍以上の値を示しているのだ。そう、熟女が一番色っぽいのである。先の「オレは女性は絶対年上が良いと思うね」という一派が大喜びしそうな結果が出てしまったが、別に私は彼らからワイロをもらっているわけでないのである。
 

Lab色空間とそこに配置した「笑顔・童話・心・エロ」のイメージ

 次に、これらの女性の「色っぽさ」をそれぞれ相当する年齢位置に配置して、女性の「色っぽさ」の年齢カーブを示してみたものが下のグラフである。

 すると、生まれてそれほど時間が経っていない幼女は実に「色っぽくない」が、年を経て少女を過ぎる頃にはやがて色づいてくることがよく判る。そして、熟女となる頃には、まさに「熟した女」としか言いようがないくらい、その「色っぽさ」は最高潮に達するのである。そして、さらに年を重ねると、「色っぽさ」は薄まるが、それでも少女よりはまだまだ色っぽい、という事実が目に見える形で私たちの前に姿を現すのだ。
 

「女性の色」を調べることにより、女性の「色っぽさ」のカーブを調べてみたもの

 また、このグラフの女性の「色っぽさ」のカーブを試しに二次関数で近似してみると、

「色っぽさ」=-0.015 x (年齢)^2 + 1.4 x (年齢) + 2.3
となる。試しにこれをhiraxの「色っぽさ」成長近似関数(暫定版)と呼ぶことにしよう。この式さえ知っておけば、再び飲み屋で「熟女vsロリ」大論争が勃発した折りには、この式を片手に、「きみいくつ?えっ、にじゅうごー!?自分より年下でなければ人じゃない?それは違うよ。少なくとも君が45歳くらいまではね。」と冷静にアドバイスしたりすることができるわけだ。

 ところで、このグラフ中の「女子大生」と「淑女」を眺めてみると、平均的な女性の「色っぽさカーブ」から大きく外れて「色っぽくない」ことが判ると思う。そう、学問に打ち込む女性も淑女も「色っぽい度」は低いのである。当たり前である。エラーチェッカーとして入れた「女子大生」と「淑女」の調査結果からも、今回の調査方法も世間のあり方も間違っていないことが見てとれるのである。
 

 また、今回多数採集した「幼女・少女・熟女・老女」をそれぞれ平均化してみた「色」を下に示してみた。これが各女性達の「色っぽさ」=「色」の変化チャートなのだが、あなたはこの中のどの色に「色っぽさ」を感じるだろうか?
 

女性達の「色っぽさ」=「色」の変化チャート
左から「幼女・少女・熟女・老女」の色
幼女     少女    熟女   老女

 さて、こんな「女性の色っぽさ変化チャート」を眺めていると、先日発表された「あの研究報告」を連想してしまう人も多いに違いない。そう、先日米ジョンズ・ホプキンズ大学の2人の天文学者が約20万個の銀河の光を全て平均化した結果、すなわち「宇宙の色はこんな色」と発表したあれである。「多数の何かを集めて平均化して、そのものの色を目に見える形にする」という方法論も、そしてそれがちょっとした遊び心でやるというところも、今回の話とよく似た(だけど大違いの)あの研究報告である。

 あの研究報告の「宇宙の色」と今回の「女性の色っぽさ」ではそれを求める方法もよく似ているが、驚くべきことに何とその結果もうり二つなのである。ちなみに、下が彼らが報告したIIIE gammaを用いて変換した場合の「宇宙の色」の変化チャートである。ビッグバンから今日、そして遙か未来までの宇宙の色の変化を示したものだ。
 

III E gammaを用いた「宇宙の色」の変化
ビッグバンはまだまだ青いが、今日の宇宙はまさに熟女の「色っぽさ」である

 そう、先に示した女性達の「色っぽさ」=「色」の変化チャートと瓜二つなのである。女性の色の変化は「宇宙の色」の変化そのものなのだ。「元始、女性は実に太陽であった」と平塚らいてうは「青鞜」の創刊の辞に書いたが、それは素晴らしく正しかったのである。そして、女性は太陽どころではなくて、何と、女性は宇宙であったのだ。そして、今日の宇宙は(私の勝手な偏見から言えば)ちょうど熟女の「色っぽさ」なのである。今の宇宙はまさに「熟れ頃」なのである。こんな私の研究成果をもしも平塚らいてうに知らせることができたら、一体彼女は何と言うだろうか?う〜ん、平塚らいてうが何というかは判らないが、ルパン三世の峰不二子であれば、きっとこう言うに違いない。

…男ってバカね。



■Powered by yagm.net