1999-07-14[n年前へ]
■夏目漱石は温泉がお好き?
文章構造を可視化するソフトをつくる
先週は新宿で開催されていた可視化情報シンポジウム'99を見ていた。参加者の世界が狭い(ジャンルが狭いという意味ではない)し、学生の発表が多すぎるように思ったが、少なくとも本WEBのようなサイトで遊ぶには面白い話もあった。というわけで、これから何回か「可視化情報シンポジウム'99」記念の話が続くかもしれない。とりあえず、今回は「小説構造を可視化しよう」という話だ。
まずは、「可視化情報シンポジウム'99」の発表の中から一番笑わせて(笑ったのはいい意味ですよ。決して皮肉ではないですよ。しつこいようですが、ホントホント。私のツボに見事にはまったのだからしょうがない。)もらった発表のタイトルはこれである。
文学作品における文体構造の可視化 - 宮沢賢治「銀河鉄道の夜」の解析-
白百合女子大学大学院の金田氏らによる発表だ。予稿集から、その面白さを抜き出してみよう。まずは過去の研究の紹介をしている部分だ。
作品(hirax注:夏目漱石の「虞美人草」と「草枕」)の始まりから終わりまでを時系列で捉えると(hirax注:話法に関する解析をすると)、二作品はともに円環構造、つまり螺旋構造を描きながら、物語が進行していくことが、四次元空間上に表現された。
中略
これは、作品の解析結果を可視化することで、夏目漱石の思考パターンと内面の揺れが明らかにされたことを意味する。
なんて、面白いんだ。この文章自体がファンタジーである。こういうネタでタノシメル人にワタシハナリタイ。おっと、つい宮沢賢治口調になってしまった。そして、今回の発表の内容自体は、宮沢賢治の「銀河鉄道の夜」の中に出てくる単語、「ジョバンニ・カンパネルラ・二」という三つの出現分布を調べて構成を可視化してみよう、そしてその文学的観点を探ろう、という内容だ。
本サイトは実践するのを基本としている。同じように遊んでみたい。まずは、そのためのプログラムを作りたい。名づけて"WordFreq"。文章中の単語の出現分布を解析し可視化するソフトウェアである。単語検索ルーチンにはbmonkey氏の正規表現を使った文字列探索/操作コンポーネント集ver0.16を使用している。
ダウンロードはこちらだ。もちろんフリーウェアだ。しかし、バグがまだある。例えば出現平均値の計算がおかしい。時間が出来次第直すつもりだ。平均睡眠時間5時間が一月続いた頭の中は、どうやらバグにとって居心地が良いようなのだ。
wordfreq.lzh 336kB バグ有り版
バグ取りをしたものは以下だ(1999.07.22)。とりあえず、まだ上のプログラムは削除しないでおく。
失楽園殺人事件の犯人を探せ - 文章構造可視化ソフトのバグを取れ - (1999.07.22)
動作画面はこんな感じだ。「ファイル読みこみ」ボタンでテキストファイルを読みこんで、検索単語を指定して、「解析」ボタンを押すだけだ。そうすれば、赤いマークでキーワードの出現個所が示される。左の縦軸は1行(改行まで)辺りの出現個数だ。そして、横軸は文章の行番号である。すなわち、左が文章の始めであり、右が文章の終わりだ。一文ではなく一行(しかもコンピュータ内部の物理的な)単位の解析であることに注意が必要だ。あくまで、改行までが一行である。表示としての一行を意味するものではない。なお、後述の木村功氏から、「それは国語的にいうとパラグラフ(段落)である。」という助言を頂いている。であるから、国語用の解析を行うときには「行」は「段落」と読み替えて欲しい。また、改行だけの個所には注意が必要だ。それも「一行」と解釈するからである。
「スムージング解析」ボタンを押せば、その出現分布をスムージングした上で、1行辺りに「キーワード」がどの程度出現しているかを解析する。
そう、この文章は長い文章の中でどのように特定の単語が出現するか解析してくれるのである。
それでは、試しに使ってみよう。まずは、結構好きな夏目漱石の小説で試してみたい。
電脳居士@木村功のホームページ
から、「ホトトギス」版 「坊っちやん」のテキストを手に入れる。そして解析をしてみよう。まずは、この画面は夏目漱石の「坊っちやん」の中で「マドンナ」という単語がどのような出現分布であるかを解析したものである。
文章の中ほどで「マドンナ」は登場してくるが、それほど重要なキャラクターでないことがわかる(このソフトがそう言っているんで、私が言っているのではない。だから、文句メールは送らないで欲しい)。
それでは、「湯」というキーワードで解析してみよう。「坊っちやん」と言えば道後温泉であるからだ。
おやおや、「マドンナ」よりもよっぽどコンスタント(安定して、という意味で)に「湯」という単語は出現するではないか。出現平均値は「マドンナ」の方が多いが、安定度では「湯」の方が上だ。夏目漱石は「マドンナ」よりも「湯」すなわち温泉によっぽど興味があるようだ。
主人公を育てた重要人物「清」を調べてみると、こんな感じだ。
小説の初めなんか出ずっぱりである。あと小説のラストにも登場している。
どうだろうか。見事に小説の可視化に成功しているだろう。結構、この解析は面白い。すごく簡単なのである。
これから新聞、WEB、小説、ありとあらゆる文章を可視化し、構造解析していくつもりだ。みなさんも、このソフトを使って面白い解析をしてみるとよいのではないだろうか? とりあえず、高校(もしかしたら大学の教養)の文学のレポートくらいは簡単に書けそうである。もし、それで単位が取れたならば、メールの一本でも送って欲しい。
というわけで、今回はソフトの紹介入門編というわけで、この辺りで終わりにしたいと思う。
1999-07-22[n年前へ]
■失楽園殺人事件の犯人を探せ
文章構造可視化ソフトのバグを取れ
今回は
夏目漱石は温泉がお好き? - 文章構造を可視化するソフトをつくる - (1999.07.14)
の続きである。やりたいことは以下の3つ
- WordFreqのバグを取る。
- 定量化に必要な数値を出す。
- とにかく遊んでみる。
WordFreq.exe 1999.07.21Make版 wordfreq.lzh 338kB
本WEBサイトのモットーは「質より量」である。...これはちょっと何だな...「下手な鉄砲も数撃ちゃ当たる」...これもちょと...「転がる石に...(もちろん日本版でなくて西洋版のだ)」といった方がニュアンスが良いかな?... 転がる石は精度を求めないのである。数をこなせば精度が悪くてもいい方角に転がっていくと思っているのだ。モンテカルロ理論である。「遊び」だし。というわけで、これはバグがあった言い訳である。
さて次は、「定量化に必要な数値を出す」である。前回の題目で使った「ホトトギス」版「坊っちやん」のダウンロード元のWEBの作成者である木村功氏より、前回の話以後にいくつかアドバイスを頂いた。それが「定量化するにはどのようにしたら良いか」ということであった。それについては、最低限の機能をつけてみた。やったのはただひとつ。出現頻度の分散を計算するようにしただけである。この数値と出現平均値を用いて、色々な文章を解析すれば、このプログラムの返す値の出現分布の分散・平均値・有意水準などを導くことができるだろう。色々な時代の、色々な作家の、色々なジャンルの文章を解析し、それらから得られた値を調べてみればもしかしたら面白いことがわかるかもしれない。
それでは、今回のプログラムを使って遊んでみよう。
今回用いるテキストは小栗虫太郎の「失楽園殺人事件」だ。
青空文庫 ( http://www.aozora.gr.jp/)
から手に入れたものだ。今回のタイトルどおり、「失楽園殺人事件」において「犯人」を探してみよう。
ラストのほうに向かうに従い犯人の登場が増えて、山場を迎えているのがわかるだろう。「犯人」で検索したら次は探偵の番だ。「法水」で検索し、探偵がきちんと働いているか見てみよう。
なかなか出ずっぱりで活躍している。もちろん、探偵役もラストでは活躍しているようだ。
ここまで見ていただくとわかるだろうが、画面は前回のバージョンとほとんど同じである。前回は、1物理行あたり検索単語は1個までしか見つからなかったが、今回はきちんと複数見つかっているのがわかると思う。1物理行中でもきちんと結果が出るようになったおかげで、文章中から「。」を検索すると、物理行(段落と近いもの)中に含まれる「文」の数を調べることが出来る。妙に長い文節の出現頻度などを調べることが出来るのだ。こういったものは定量化にふさわしいのではないだろうか?
また、C++プログラマーのあなたは自分のプログラム中から「//」などを検索すると面白いのではないだろうか。コメントの出現頻度が手に取るようにわかるだろう。
というわけで、今回はバグ修正のご報告である。
1999-09-10[n年前へ]
■「こころ」の中の「どうして?」
漱石の中の謎とその終焉
考えてみると、www.hirax.netには夏目漱石が時々顔を出す。例えば、
などだ。もともと、夏目漱石は寺田寅彦・ロゲリギストといった物理学者の流れの源と言っても良いものだから、その影響を多々受けている私のWEB中に出てくるのは自然なのだろう。というわけで、今回こそは夏目漱石がメインの話である。漱石の「こころ」を「夏目漱石は温泉がお好き?- 文章構造を可視化するソフトをつくる - (1999.07.14)」「失楽園殺人事件の犯人を探せ- 文章構造可視化ソフトのバグを取れ - (1999.07.22) 」で作成した文章構造可視化ソフトWordFreqで解析してみるのだ。そして、「こころ」で繰り返し問われる謎がどのようにして終焉を迎えていったかを考察してみたい。いや、考察というほどのものではなく、考えてみたい、それだけだ。
何故、私がそういう気持ちになったかといえば、それは小山慶太著の「漱石とあたたかな科学」講談社学術文庫を読んだせいである。
今回のテキストである漱石の「こころ」は
- 青空文庫 ( http://www.aozora.gr.jp/)
言うまでも無いと思うが、「こころ」は学生である「私」と「先生」との間で進む物語である。「私」が先生と出会い、そして「先生」の物語が語られる。
それでは、「先生」と「私」の出現分布を可視化してみる。両者とも1100行辺りで大きく変化しているのがわかる。これは、ここから「下 先生と遺書」に入るからである。一人称である「私」は学生の「私」ではなく、「先生」である「私」になる。ここからは「先生」である「私」の物語になるのである。
また、冒頭をピークとして「先生」の出現頻度は単調に低下していく。学生である「私」から、先生である「私」への視点の移り変わりはもしかしたら冒頭から形作られているのかもしれない。
ところで、「こころ」は「どうして」という謎と「解らない」という答えの繰り返しである。それは、下のようにどうして(左)、解(右)の出現分布を見ればわかる。もちろん、「どうして」には「どうして...」も含まれれば、「どうしても」なども含まれる。また、「解」には「解らない、解る、誤解」などが含まれる。しかし、それらは大きく見れば実は同じようなものである、と思う。
どうして(左)、解(右)の出現分布がよく似ているのがわかると思う。「どうして」と問いと「わからない」という答えはいつも対になるのである。
これらとちょうど反対の分布を示すのが「死、卒業」というキーワードだ。
「どうして」(左)、「解」(右)という言葉が出現しない時には、「死」(左)、「卒業」(右)という言葉が現れるのである。また、この「死」(左)、「卒業」(右)という言葉が現れる時は、「先生」と「先生」である「私」があまり登場しない時でもある。学生である「私」から「先生」である「私」への過渡期であり、それは同時に「死」(左)、「卒業」(右)ということを浸透させる時期でもあるのだ。
結局、「どうして、解、死、卒業」は小説の最後において、同時に出現する。それらは最後に重なるのだ。それが答えなのか、あるいは答えがどこかに消えてしまったのか、どちらなのかはわからないままだ。
1999-10-04[n年前へ]
■五色不動のワンダランド 後編
奇怪な偶然
江戸を守っている五色の結界、すなわち、五色不動を捜し求めて、私はさまよい歩いてみることにした。目黒不動から物語りは始まり、目青不動、目白不動を訪れていく。しかし、その最中に、現実が異様な形で姿を現すとは気づいていなかった...
WEBの中では私は未だに江戸五色不動を訪れ、さまよっている。しかし、その最中に現実は異様な姿を現した。目黒不動でバラバラ死体の一部が発見されたのである。
- yahooの目黒不動バラバラ死体殺人事件関連news
- ( http://nsearch.yahoo.co.jp/bin/nsearch?p=%CC%DC%B9%F5%C9%D4%C6%B0)
1999年10月1日(金) 21時32分で読むことができる。10/1に目黒不動内で男性の下腹部が発見され、死後1-5日というからとは時期的にちょうど合ってしまう。それどころか、その後の情報に寄れば9/29に行方不明になったというから、ちょうどその日である。偶然が必然にすりかわっていくのが中井英夫の「虚無への供物」である。奇妙な偶然が続き、まるで自分が犯人であるような現実に襲われる話である。まるで、「虚無への供物」である。これで、他の不動でも死体が発見されていったら、まるで犯人は私であるかの錯覚に襲われてしまう。理不尽な偶然を受け入れるか、そうでなければ、自分が犯人でしか有り得ないという状況が出現してしまうのである。
<死体遺棄>駐車場に切り取られた男性の性器 東京・目黒区 (毎日新聞)
http://news.yahoo.co.jp/headlines/mai/991001/dom/21320000_maidomc098.html
しかし、WEBの中の私はそんなことは露も知らず目赤不動尊、目黄不動尊を探しさまよっているのであった。目赤不動は駒込の駅から歩いていった。ちょうど夏の終わりで、お祭りをそこらかしこでやっていた。しかし、不思議なことに、人とはほとんど会わない。不思議な程である。
このあと、地下鉄で東京駅に移動したのだが、駅にも人っ子一人いないのである。まさにワンダランドである。
東都駒込辺絵図(1857) | 拡大図 |
上の地図でも判ると思うが、ここら辺りは寺ばかりである。東京は実は寺で満ちているのであった。本当に寺ばかりなのだ。 本郷、動坂の都電の停留所から、追分に向かって、... |
目赤不動から名づけられた動坂という地名は今でも残っている。この動坂は江戸川乱歩の「D坂の殺人事件」で有名な団子坂のすぐ近くである。ミステリ好きにはたまらないだろう。 |
さて、最後は目黄不動尊(永久寺)である。目黄不動尊はもうひとつ平井にもあるが、今回はパスさせて頂いた。中井英夫の「虚無への供物」でもパスしているからである。
今戸箕輪浅草絵図(1853) | 拡大図 |
この辺りの町も奇妙に趣がある。実は東京は素晴らしい街であるのだ。
残念ながら、中には入れなかった。 たしかあれもお不動さんですわ、永久寺さんとかおっしゃって...。さぁ、でも目黄不動っていいましたかしら。 「虚無への供物」の冒頭で 確かにこのすぐ近くに「竜泉寺」は存在する。また、実はこの近くに「龍泉寺」も存在していた、その隣は不動尊なのであった。 |
目黄不動尊はもうひとつあるが、そちらはいつかまた行く予定だ。それまで、奇妙な偶然が続き、江戸五色不動のワンダランドの扉が開かないことを祈るばかりである。
1999-11-15[n年前へ]
■「星の王子さま」の秘密
水が意味するもの
今回は、Saint-Exuperyの「星の王子さま」- Le petit prince -について考えてみたい。しかし、メルヘンな話を期待する方は、おそらく失望することだろう。もし、今持っているイメージを壊したくない方は、今回の話は読まないほうが良いかもしれない。
おそらく一般的に多いであろうイメージの「星の王子さま」というものは、私はそれほど好きではない。よくWEBで見かける「この本は、真実を見る目を失いかけた大人のための童話です。」というイメージである。私も、かつてはそういう認識だった。そして、「それだけでは、何かもの足りない」という感じがしていた。そのため、「星の王子さま」を好きではなかったのだ。
しかし、
- 「星の王子さまの世界 - 読み方くらべへの招待 -」 塚崎幹夫著 中公新書
さて、今回は私なりの「読み方」をしてみたい。具体的には、「水」というキーワードにこだわって解釈を行ってみるのだ。何故か、私はこの「星の王子さま」の中で「水」というキーワードに「深い何か」を感じるのである。
何故、こういう単語にこだわる読み方をするかと言えば、それは塚崎幹夫氏の「星の王子さまの世界- 読み方くらべへの招待 -」の影響である。その内容の紹介を少し紹介しておく。
塚崎幹夫氏は、 話の冒頭に出てくる「ゾウを飲み込むウワバミ」が何かもう少し深いものを指しているのではないか、と考える。「本当にもののわかる人かどうか」知るために、主人公が人に見せる「ゾウを飲み込むウワバミ」が何か深いものを指しているのではないか。「半年のあいだ、眠っているが、そのあいだに、のみこんだけものが、腹のなかでこなれ」そして次の獲物をのみこむウワバミは何を指しているのか、と考えた。
そして、次のような年表を示す。
- (1937.7.7 日本、中国侵略開始)
- 1938.3.10 ドイツ、オーストリア侵略
- 1938.9.29 ドイツ、チェコ侵略
- 1939.3.15 ドイツ、チェコ解体
- (1939.4.7 イタリア、アルバニア占領)
- 1939.9.1 ドイツ、ポーランド侵入
- 1940.4.9 ドイツ、デンマーク、ノルウェー侵入
- 1940.5.10 フランス、ドイツに大敗
- 1940.11 Saint-Exuperyヴィシー政府に失望し、アメリカに亡命、その後、ヴィシー政府がSaint-Exuperyを議員に任命する。(どこかで聞いた話)
つまり、ゾウを飲み込むウワバミが、帽子にしか見えないことが「真実を見る目を失いかけた」といっているのではない。これは、ウワバミの中で飲み込まれつつある動物のことを考えることができないことを、「真実を見る目を失いかけた」と言っているではないだろうか。もちろん、そのウワバミとは文字どおりのウワバミではなく、違うものを意識した話なのである。
同じように、「ぐずぐずしてはいられないと、一生けんめいになって」描いた「3本のバオバブ」は挿し絵についても考察を巡らせている。
|
さて、塚崎幹夫氏の影響を多いに受けている私ではあるが、私なりの「読み方」をしてみたい。「水」というキーワードにこだわった「読み方」をしてみる。私の受ける印象では、「水」というキーワードには深い思いが込められているはずなのだ。
そのために、
- 星の王子様のリンク集( http://www.slis.keio.ac.jp/~makiko9/prince.html )
- Antoine de ST.EXUPERY:LE PETIT_PRINCE ( http://galeb.etf.bg.ac.yu/mp/mp/pp.html )
さて、単語にこだわって解析をするとなれば、
- 夏目漱石は温泉がお好き? - 文章構造を可視化するソフトをつくる - (1999.07.14)
- 失楽園殺人事件の犯人を探せ - 文章構造可視化ソフトのバグを取れ - (1999.07.22)
- 「こころ」の中の「どうして?」 - 漱石の中の謎とその終焉 - (1999.09.10)
それでは本題の、"'eau"の出現分布を調べることで、「水」の出現分布をwordfreqで解析してみる。
最初と最後に「水」が登場しているのがわかる。このような、物語の「始まり」と「終わり」集中して出現する単語と言うものは、重要な意味を持つと考えるのが普通だろう。冒頭で、水を持たない主人公が、話の最後で水を湛える井戸を見つける。これは、どのような意味があるだろうか。また、王子にとって重要な「守るべきもの」に王子は水を与えていたこと、これらは何を意図したものなのだろうか。
さて、「水」が出現するのは
- 50行目付近
- 300行目付近
- 1300行付近
- 115 だって、ぼくが水をかけた花なんだからね。
- 124 水は心にもいいものかもしれないな...
- 131 その水は、たべものとは、別なものでした。
- 131 だけど、さがしているものは、たった一つのバラの花のなかにだって、少しの水にだって、あるんだがなぁ...
- 147 星がみんな、井戸になって...そして、ぼくにいくらでも、水をのませてくれるんだ。
- その人間を解放するということは、彼に渇を教え、また井戸への道を教えてやることだ。
- それら井戸のひとつひとつに、どうしてもたどりつかねばならないようにするだろう...必死になってその井戸をめざさねばならなくなる。
- おまえが水を飲もうと思うとき、....おまえの行為を祈りという意味に化するのである。
こういう言葉の意味するものをそれぞれ考え、「かんじんなことは、目に見えない」という言葉をもういちど読みなおしたときに初めて、Saint-Exuperyの「星の王子さま」が私は好きになったのである。その「星の王子さま」の二面性こそ、私が好きな部分である。
さて、最後に次のような二つの文章を並べてみる。こうすると「星の王子さま」に流れる強い背景・考えを感じるのではないだろうか。
「わたしは、この本を、あるおとなの人にささげたが、....そのおとなの人は、いまフランスに住んでいて、ひもじい思いや、寒い思いをしている人だからである。どうしても慰めなければならない人だからである。... 子どもだったころのレオン・ウォルトに」 「星の王子さま」 献辞 | (レオンウォルトに) 「今夜しきりと思い出す人物は今50歳だ。彼は病気だ。それにユダヤ人だ。どうして彼にドイツの恐怖を乗り越えられよう?」 「ぼくがなおも戦いつづければ、いくらかは君のために戦うこととなるだろう。...ぼくは、君が生きるのを助けたいのだ。実に無力で、危険におびやかされている君の姿が眼に浮かぶ。更に一日生きのびるために、どこか貧しい食料品店の前の歩道を、50という年齢を引きずって歩きまわっているきみの姿が、擦り切れた外套に身をくるんで、仮の隠れ家で身を慄いているきみの姿が、眼に浮かぶ。」 「ある人質への手紙」 |
やはり、「星の王子さま」は端的に言えば、寓話の形をした遺言(の準備をしたもの)であるのだろう。「星の王子さま」が出版された四日後、Saint-Exuperyは戦うためにアメリカからアフリカへ出発する。
「星の王子さま」は一つの挿絵と、その挿絵の説明で話が閉じられる。その最後の挿し絵は王子が姿を消した場所を描いたものだ。それだけではない。その「アフリカの砂漠」は、Saint-Exuperyが最後に「戦う兵士」として飛行機で通過し、そして、姿を消した場所でもある。
「これが、ぼくにとっては、この世で一ばん美しくって、いちばんかなしい景色です」