hirax.net::Keywords::「青空」のブログ



1999-07-22[n年前へ]

失楽園殺人事件の犯人を探せ 

文章構造可視化ソフトのバグを取れ

 今回は
夏目漱石は温泉がお好き? - 文章構造を可視化するソフトをつくる - (1999.07.14)
の続きである。やりたいことは以下の3つ

  1. WordFreqのバグを取る。
  2. 定量化に必要な数値を出す。
  3. とにかく遊んでみる。
である。まずは、プログラムのバグを取ろう。前回、プログラム中にバグがあると書いたが、問題は私がbmonkey氏の正規表現を使った文字列探索/操作コンポーネント集ver0.16の仕様を勘違いしていたことによるものだった。ファイルにGrepを書けた際に、テキストファイル中の一行中に複数の適合する単語が存在した場合に、本来、一番最初に適合した単語の文だけが「適合する単語があったよ」と知らせてくれるのであるが、それを単語全部について教えてくれるものと勘違いしていたのだ。従って、一行中に探す単語が複数登場する場合には結局1回分しかカウントされなかったのである。まずはそれを直してみたい。「GrepでMatchした行中に改めて目的の単語が何回登場するかを調べる」という2段階にすることで今回の問題は解決する。

WordFreq.exe 1999.07.21Make版 wordfreq.lzh 338kB

 本WEBサイトのモットーは「質より量」である。...これはちょっと何だな...「下手な鉄砲も数撃ちゃ当たる」...これもちょと...「転がる石に...(もちろん日本版でなくて西洋版のだ)」といった方がニュアンスが良いかな?... 転がる石は精度を求めないのである。数をこなせば精度が悪くてもいい方角に転がっていくと思っているのだ。モンテカルロ理論である。「遊び」だし。というわけで、これはバグがあった言い訳である。

 さて次は、「定量化に必要な数値を出す」である。前回の題目で使った「ホトトギス」版「坊っちやん」のダウンロード元のWEBの作成者である木村功氏より、前回の話以後にいくつかアドバイスを頂いた。それが「定量化するにはどのようにしたら良いか」ということであった。それについては、最低限の機能をつけてみた。やったのはただひとつ。出現頻度の分散を計算するようにしただけである。この数値と出現平均値を用いて、色々な文章を解析すれば、このプログラムの返す値の出現分布の分散・平均値・有意水準などを導くことができるだろう。色々な時代の、色々な作家の、色々なジャンルの文章を解析し、それらから得られた値を調べてみればもしかしたら面白いことがわかるかもしれない。

 それでは、今回のプログラムを使って遊んでみよう。

 今回用いるテキストは小栗虫太郎の「失楽園殺人事件」だ。
青空文庫 ( http://www.aozora.gr.jp/)
から手に入れたものだ。今回のタイトルどおり、「失楽園殺人事件」において「犯人」を探してみよう。

「失楽園殺人事件」において「犯人」を探したもの

 ラストのほうに向かうに従い犯人の登場が増えて、山場を迎えているのがわかるだろう。「犯人」で検索したら次は探偵の番だ。「法水」で検索し、探偵がきちんと働いているか見てみよう。

「失楽園殺人事件」において「法水」を探したもの

 なかなか出ずっぱりで活躍している。もちろん、探偵役もラストでは活躍しているようだ。

 ここまで見ていただくとわかるだろうが、画面は前回のバージョンとほとんど同じである。前回は、1物理行あたり検索単語は1個までしか見つからなかったが、今回はきちんと複数見つかっているのがわかると思う。1物理行中でもきちんと結果が出るようになったおかげで、文章中から「。」を検索すると、物理行(段落と近いもの)中に含まれる「文」の数を調べることが出来る。妙に長い文節の出現頻度などを調べることが出来るのだ。こういったものは定量化にふさわしいのではないだろうか?

「失楽園殺人事件」において「。」を探したもの

 また、C++プログラマーのあなたは自分のプログラム中から「//」などを検索すると面白いのではないだろうか。コメントの出現頻度が手に取るようにわかるだろう。

 というわけで、今回はバグ修正のご報告である。

1999-09-10[n年前へ]

「こころ」の中の「どうして?」 

漱石の中の謎とその終焉

 考えてみると、www.hirax.netには夏目漱石が時々顔を出す。例えば、

などだ。もともと、夏目漱石は寺田寅彦・ロゲリギストといった物理学者の流れの源と言っても良いものだから、その影響を多々受けている私のWEB中に出てくるのは自然なのだろう。

 というわけで、今回こそは夏目漱石がメインの話である。漱石の「こころ」を「夏目漱石は温泉がお好き?- 文章構造を可視化するソフトをつくる - (1999.07.14)」「失楽園殺人事件の犯人を探せ- 文章構造可視化ソフトのバグを取れ - (1999.07.22) 」で作成した文章構造可視化ソフトWordFreqで解析してみるのだ。そして、「こころ」で繰り返し問われる謎がどのようにして終焉を迎えていったかを考察してみたい。いや、考察というほどのものではなく、考えてみたい、それだけだ。

 何故、私がそういう気持ちになったかといえば、それは小山慶太著の「漱石とあたたかな科学」講談社学術文庫を読んだせいである。

 今回のテキストである漱石の「こころ」は

から集英社文庫によるj.utiyama、伊藤時也 らによる作成のものを入手した。

 言うまでも無いと思うが、「こころ」は学生である「私」と「先生」との間で進む物語である。「私」が先生と出会い、そして「先生」の物語が語られる。
 それでは、「先生」と「私」の出現分布を可視化してみる。両者とも1100行辺りで大きく変化しているのがわかる。これは、ここから「下 先生と遺書」に入るからである。一人称である「私」は学生の「私」ではなく、「先生」である「私」になる。ここからは「先生」である「私」の物語になるのである。
 また、冒頭をピークとして「先生」の出現頻度は単調に低下していく。学生である「私」から、先生である「私」への視点の移り変わりはもしかしたら冒頭から形作られているのかもしれない。

先生(左)、私(右)の出現分布 (水平軸は左->小説の始め、右->小説の終わり)

 ところで、「こころ」は「どうして」という謎と「解らない」という答えの繰り返しである。それは、下のようにどうして(左)、解(右)の出現分布を見ればわかる。もちろん、「どうして」には「どうして...」も含まれれば、「どうしても」なども含まれる。また、「解」には「解らない、解る、誤解」などが含まれる。しかし、それらは大きく見れば実は同じようなものである、と思う。

どうして(左)、解(右)の出現分布

 どうして(左)、解(右)の出現分布がよく似ているのがわかると思う。「どうして」と問いと「わからない」という答えはいつも対になるのである。

 これらとちょうど反対の分布を示すのが「死、卒業」というキーワードだ。

死(左)、卒業(右)の出現分布

 「どうして」(左)、「解」(右)という言葉が出現しない時には、「死」(左)、「卒業」(右)という言葉が現れるのである。また、この「死」(左)、「卒業」(右)という言葉が現れる時は、「先生」と「先生」である「私」があまり登場しない時でもある。学生である「私」から「先生」である「私」への過渡期であり、それは同時に「死」(左)、「卒業」(右)ということを浸透させる時期でもあるのだ。

 結局、「どうして、解、死、卒業」は小説の最後において、同時に出現する。それらは最後に重なるのだ。それが答えなのか、あるいは答えがどこかに消えてしまったのか、どちらなのかはわからないままだ。

2000-02-27[n年前へ]

「文学論」と光学系 

漱石の面白さ

 前回、

さて、モナリザと言うと、夏目漱石と「モナリサ」にも言及しなければならないだろう。
と書いた。何しろという具合に、「できるかな?」では漱石が結構レギュラー出演している(させている?)のである。当然、「モナリザ」ときたら漱石を出演させないわけがない。

 その漱石は「永日小品(リンク先は青空文庫)」(リンク先は青空文庫)の「モナリサ」中で

「モナリサの唇には女性(にょしょう)の謎(なぞ)がある。原始以降この謎を描き得たものはダ・ヴィンチだけである。この謎を解き得たものは一人もない。」
と書いている。女性には興味がなかったとも言われ、ずっと付き添っていた男性との関係も噂されるダ・ヴィンチである。ここらへんは、果たしてどうか?とも思う。むしろ、新宿のホストクラブのホストの方が女性(にょしょう)の謎(なぞ)については詳しいのではないかとも私は考えたりもする。
 が、そんなことはどうでも良い。漱石はレオナルド・ダ・ビンチのモナリザに興味を持ち、小品を書き上げたのである。そこで、漱石とダ・ヴィンチの相似点を考えてみたい。

 レオナルド・ダ・ビンチの著作には「文学論」というものがある。漱石にも同じ名前の「文学論」がある。この「文学論」はこれまで読んだことがなかったのだが、

  • 「漱石の美術愛」推理ノート 新関公子 平凡社 ISBN4-582-82927-9
を読んで急に読みたくなった。それは、この本の中で
  • 遠近法
  • 漱石の文学論の「公式」
の関係について触れられていたからである。レオナルド・ダ・ビンチも遠近法についてはうるさかったが、漱石も何故か遠近法にうるさいとなれば、非常に面白い話である。そこで、図書館で漱石の「文学論」を借りてきて眺めてみた。

 これが、とても面白い。仮名遣いが古いため、なかなか目に入ってこないのであるが、とても面白い。これは絶対に文庫本にすべきである。眺めているだけでも面白い。

 まずは、冒頭のフレーズがいきなりこうである。

 およそ文学的内容の形式は(F+f)なることを要す。Fは焦点的印象又は観念を意味し、fはこれに付着する情緒を意味す。
 まるで、理系の教科書である。そして、目次(編)を大雑把にさらってみる。
  1. 文学的内容の分類
  2. 文学的内容の数量的変化
  3. 文学的内容の特質
  4. 文学的内容の相互関係
  5. 集合的F
 すごい。当時の文学論とは思えないような内容である。この「文学論」の中では先の公式(F+f)を軸として話が進んでいく。例えば、章のタイトルでいうと- 文学的Fと科学的Fとの比較一般 - といった感じである。
 また、「文学論」中では、例えば、浪漫派と写実派の違いについて数値的な比較を通じて述べられていたりする。実に「科学的」な思考による「文学論」である。いや本当に漱石は凄い。

 さて、中の文章を解説する力は私にはない。そこで、中の図表を示してみることにする。そこで適当に思うことなどを書いてみようと思う。

 次に示すのは、「文学論」の冒頭の方で「意識の焦点・波形」を説明した図である。
 

意識の焦点・波形

漱石全集第十一巻より

 この図は人間が何かを感じるときには焦点にピークがある、そして、その周りはぼやけたものが連続的に続いているということを示したものだ。これなど、

の時の「恋のインパルス応答」を彷彿とさせる。あの時の「恋のインパルス応答」を次に示してみる。
 
左:出会い(F)、右:それにより意識される恋心(f)

 この意識される恋心(f)は先の「意識の波形」と全く同じである。ある出来事(F)と、それに付着する情緒(f)を示したものとなるわけだ。付着する情緒(f)というのは中心が一番大きく、その周りにぼやけたものが繋がっているというわけである。人間の感じ方・情緒を光学系と結びつけているわけだ。
 いやはや、「恋のインパルス応答」と同じようなことを考える人はやはりいるものである。まさかそれが漱石だとは思いもしなかった。しかも時代を考えると凄まじい、としか言いようがない。

 そして、さらに次に示すのは

 およそ文学的内容の形式は(F+f)なることを要す。Fは焦点的印象又は観念を意味し、fはこれに付着する情緒を意味す。
ということを示す図である。先の - 「漱石の美術愛」推理ノート - ではこの図と遠近法の関連が述べられている。
 
「文学の焦点」

漱石全集第十一巻より

 ここで、縦軸は「時間」となっており、横軸は「色々な出来事」である。ある人が感じた「色々な出来事」を時間方向に収斂させていくと、そこには「作者自身の視点がある」というわけだ。これが漱石の言う「文学論」の中心である。

 この図などカメラや望遠鏡の光学系を彷彿とさせる。「光学系の一例」を以下に示す。
 

「光学系の一例」

 先の「文学の焦点」を示した図はレンズで光を焦点に集めるのと全く同じだ。いや、「焦点から光を投光する」のと同じと言った方が良いだろうか。以前、

で、
 景色に焦点を合わせて、フィルムに結像させるのがカメラだ。しかし、フィルムに写っているのは単なる景色ではない。カメラの光が集まる焦点にフィルムが位置していると思い込むとわからなくなる。逆から考えてみれば簡単に判るはずだ。カメラの視点にフィルムが位置しているのだ。フィルムに景色が写っているのではなく、フィルムが景色を選び、景色を切り取っているのである。

 写真に写っているのは、撮影者の視点なのである。写真を見れば、撮影者が、どこに立ち、何を見てるかが浮かび上がってくるはずである。フィルムに写っているのは撮影者自身なのだ。

と書いたのと全く同じである。その光学系には歪みもあるかもしれないし、色フィルターもかかっているかもしれない。しかし、とにかく焦点にはその人自身がいるのである。

 写真でも文章でもとにかく何であっても、色々感じたことを表現していく時、その焦点には表現者自身がいる。私の大好きなこの2000/2/25の日記なんか、実にそれを感じるのである。
 

2000-04-01[n年前へ]

恋の力学 恋の相関分析編 

「明暗」の登場人物達の行方

 「恋の力学」シリーズである。前書き編が登場したきりで、なかなか本編に入らない「恋の固体物理学」シリーズではない。今回は、

の続き、ということになる。

 以前、

の中で書いたように、恋の力学シリーズは夏目漱石の影響を多大に受けている。そして、同様に夏目漱石の影響を受けているシリーズがある。それは「文章構造可視化シリーズ」である。

 何しろ、「文章構造可視化シリーズ」は夏目漱石をきっかけとして、始まっているのである。また、シリーズの中の話を見ればわかるように、

この「文章構造可視化シリーズ」の半分は「漱石」に関係しているのである。そこで、今回はこの「文章構造可視化シリーズ」と「恋の力学シリーズ」を繋げてみたい、と思う。文学も科学も「ごった煮」にしてみたいのである。

 そのための準備として、まずは「文章構造可視化シリーズ」で作成した"wordfreq"をバージョンアップしてみた。その動作画面を以下に示す。
 

ファイル出力をつけたwordfreqの動作画面

 赤丸で示したボタンに「ファイル出力」と書いてあるのがわかると思う。つまり、文章中に「任意の単語」が出現した出現頻度を解析した結果をファイル出力する機能を持たせたのだ。1段落中に「任意の単語」が出現した数をテキスト形式で出力するようにしてある。このファイル出力結果を他のソフトに読み込めば、色々な解析ができるわけだ。いつものように、このソフトはここ

においておく。言うまでもないが、アルファ版の中のアルファ版だ。

 さて、今回用いるテキストは

でも登場した「明暗」である。そこで、「青空文庫」から「明暗」の電子テキストをダウンロードした。そして、バージョンアップした"wordfreq"で
  1. 津田
  2. お延
  3. 清子
  4. 吉川
という4つの名前の出現分布を解析してみた。その出力結果をExcelに読み込んでグラフにしたのが次のグラフである。「明暗」の中の「津田」、「お延」、「清子」、「吉川」の出現分布を示したものである。つまり、主人公「津田」と、彼をめぐる三人の女性の出現の状況を示したものだ。
 
「明暗」の中の「津田」、「お延」、「清子」、「吉川」の出現分布

 しかし、これだけでは、よくわからない。せいぜい「清子」が小説の後半(といっても、未完であるが)に登場しているなぁ、という位だろう。しかし、さらに解析を加えてみると、もう少し面白いことがわかる。

 今回は、これらの登場人物間のお互いの関わりを調べたいのである。であるならば、これらの「登場人物」の出現分布の間の相関を調べてみると面白いだろう。互いの関係を示す「相関」を調べてみるのである。異なる「登場人物」が同じような出現をしているならば、それは無関係ではない。きっと、その登場人物の間には何らかの関係があるに違いないのだ。

 そこで、「明暗」を時系列的に6つの部分に分けて、津田と他の登場人物の出現分布間の相関を調べてみたのが次のグラフである。
 

津田と他の登場人物の出現分布間の相関
横軸->時系列、縦軸->相関

 このグラフでは、横軸が時系列であり、縦軸が相関を示している。縦軸で上になればなるほど相関が高い、すなわち、「関係がある」のだ。「相関」は本人の場合で「1」である。だから、例えば最後の部分の清子の「0.6」という結果は関係がアリアリということを示しているわけだ。
 また、「清子」と「吉川(ここでは夫人を意図している)」の相関が逆であることが面白いだろう。「吉川」が活躍(暗躍?)した後に、「清子」が登場するわけだ。

 そして、この「明暗」が盛り上がっていくようすすら、見えてはこないだろうか?全く血の通っていないPCが解析した結果が、漱石の描こうとした「こころ」の動きを読みとっているような気が(少しは)しはしないだろうか?そして、このグラフの延長線上に、漱石の描くはずだった、「明暗」の結末はあるはずなのだ。

 さて、このグラフを見ていると、

で計算した恋の多体(三体)問題の計算結果を思い出してしまう。
 
恋の多体(三体)問題の計算結果の一例

 漱石は、きっと恋の三体問題を意識しながら「明暗」を書いたのである。だから、ある意味当然なのではあるが、科学と文学の一体化した世界が感じられ、とても面白い気分である。さて、この解析結果を元にして、まだまだ色々とやってみたのであるが、それは次回である。
 

2000-08-30[n年前へ]

六の宮の姫君 

さがし続けても、見つからない

六の宮の姫君

 先日、創元推理文庫から出ている北村薫の「六の宮の姫君」を買った。日常の小さな(時には大きな)謎を解き明かして、そしてさらに奥深い何かを解き明かしていく「円紫師匠と私」シリーズの内の一作である。ハードカバーのものは既に買って持っていたのだが、文庫本についていた解説が面白かったので文庫版もついつい買ってしまった。

 この文庫版の解説の中で一番面白かったのは、創元推理文庫から出ているものにはどれも英文のタイトルも付けられているということだった。言われてみれば確かにその通りで、横文字のタイトルが付けられていたのであるが、それを今まで特に気にしたことがなかった。「目の前にあるけど気付かないこと」というのはいたるところにたくさん溢れていて、そういったことを気付かせてくれる解説というのはとても面白いと思う。

 北村薫の本で言うと「覆面作家の愛の歌」の角川文庫版の解説なんかもそうで、こちらでは文章の陰に隠れている「もう一つの物語」のことが書いてある。この解説を読まなければ、北村薫のさりげないけれどどうしても書かずにはいられなかった思いを汲み取ることはできなかっただろう。行間に隠されているからこそ、その思いの強さを感じるのだ。というわけで、こちらも当然のごとくハードカバーを持っているにも関わらず、文庫本もやはり買ってしまった。

 さて、北村薫の「六の宮の姫君」のもうひとつのタイトルは"A Gateway ToLife"で「人生の門出」である。そして、この話の中の主題の一つともなっている芥川龍之介の「六の宮の姫君」に描かれているのは「人生の中で何かをさがし続けても、見つからなかった人生の終わり」だ。

 今回は芥川の「六の宮の姫君」の中に登場する「言葉」を調べてみることで、「六の宮の姫君」の「何かが見つからない=何も見つからない」哀しいようすをそっと見てみたい、と思う。

 そこで、

から得た文章の中から「探しているものの答え・救い」などを意味するであろう「蓮華」の出現分布と、何かを探しても、「何も見つからない」ようすである「何も」の出現分布を比較してみることにした。今回も前回と同じく、wordfreqを使って解析を行ってみることにする。早速調べた結果が以下に示す二つの図である。左が「蓮華(=救い)」の出現分布で、右が「何も」の出現分布である。
 
「蓮華(=救い)」と「何も」の出現分布
「蓮華」の出現分布
「何も」の出現分布

 右が「何も」の出現分布を見れば一目瞭然だと思うが、芥川の「六の宮の姫君」では「姫君」は話の最初から最後まで「何もない・見つからない」ようすで哀しく生きている。ただ、話の終盤で一瞬その「何か」が見えかける。それが、左の「蓮華」である。ただ、それもすぐに「六の宮の姫君」には見えなくなってしまい、また「何もない・見つからない」まま「六の宮の姫君」は一生を終えるのである。

 こんな「さがし続けても、見つからない」というような話は、もちろん古い話に限らず現代の歌謡曲などでも数多くある。「探したけれど、見つからないのに...」とかすぐ口づさめるものがきっとあるはずだ。そしてさらにもちろん、そんな「さがしもの」は歌の中だけの話ではない。きっと百人の人がいたら百種類の「さがしもの」があるはずだ。そんな百人百様の「さがしもの」が見つかるか見つからないのか、それは誰にも判らない。
 



■Powered by yagm.net