1999-07-14[n年前へ]
■夏目漱石は温泉がお好き?
文章構造を可視化するソフトをつくる
先週は新宿で開催されていた可視化情報シンポジウム'99を見ていた。参加者の世界が狭い(ジャンルが狭いという意味ではない)し、学生の発表が多すぎるように思ったが、少なくとも本WEBのようなサイトで遊ぶには面白い話もあった。というわけで、これから何回か「可視化情報シンポジウム'99」記念の話が続くかもしれない。とりあえず、今回は「小説構造を可視化しよう」という話だ。
まずは、「可視化情報シンポジウム'99」の発表の中から一番笑わせて(笑ったのはいい意味ですよ。決して皮肉ではないですよ。しつこいようですが、ホントホント。私のツボに見事にはまったのだからしょうがない。)もらった発表のタイトルはこれである。
文学作品における文体構造の可視化 - 宮沢賢治「銀河鉄道の夜」の解析-
白百合女子大学大学院の金田氏らによる発表だ。予稿集から、その面白さを抜き出してみよう。まずは過去の研究の紹介をしている部分だ。
作品(hirax注:夏目漱石の「虞美人草」と「草枕」)の始まりから終わりまでを時系列で捉えると(hirax注:話法に関する解析をすると)、二作品はともに円環構造、つまり螺旋構造を描きながら、物語が進行していくことが、四次元空間上に表現された。
中略
これは、作品の解析結果を可視化することで、夏目漱石の思考パターンと内面の揺れが明らかにされたことを意味する。
なんて、面白いんだ。この文章自体がファンタジーである。こういうネタでタノシメル人にワタシハナリタイ。おっと、つい宮沢賢治口調になってしまった。そして、今回の発表の内容自体は、宮沢賢治の「銀河鉄道の夜」の中に出てくる単語、「ジョバンニ・カンパネルラ・二」という三つの出現分布を調べて構成を可視化してみよう、そしてその文学的観点を探ろう、という内容だ。
本サイトは実践するのを基本としている。同じように遊んでみたい。まずは、そのためのプログラムを作りたい。名づけて"WordFreq"。文章中の単語の出現分布を解析し可視化するソフトウェアである。単語検索ルーチンにはbmonkey氏の正規表現を使った文字列探索/操作コンポーネント集ver0.16を使用している。
ダウンロードはこちらだ。もちろんフリーウェアだ。しかし、バグがまだある。例えば出現平均値の計算がおかしい。時間が出来次第直すつもりだ。平均睡眠時間5時間が一月続いた頭の中は、どうやらバグにとって居心地が良いようなのだ。
wordfreq.lzh 336kB バグ有り版
バグ取りをしたものは以下だ(1999.07.22)。とりあえず、まだ上のプログラムは削除しないでおく。
失楽園殺人事件の犯人を探せ - 文章構造可視化ソフトのバグを取れ - (1999.07.22)
動作画面はこんな感じだ。「ファイル読みこみ」ボタンでテキストファイルを読みこんで、検索単語を指定して、「解析」ボタンを押すだけだ。そうすれば、赤いマークでキーワードの出現個所が示される。左の縦軸は1行(改行まで)辺りの出現個数だ。そして、横軸は文章の行番号である。すなわち、左が文章の始めであり、右が文章の終わりだ。一文ではなく一行(しかもコンピュータ内部の物理的な)単位の解析であることに注意が必要だ。あくまで、改行までが一行である。表示としての一行を意味するものではない。なお、後述の木村功氏から、「それは国語的にいうとパラグラフ(段落)である。」という助言を頂いている。であるから、国語用の解析を行うときには「行」は「段落」と読み替えて欲しい。また、改行だけの個所には注意が必要だ。それも「一行」と解釈するからである。
「スムージング解析」ボタンを押せば、その出現分布をスムージングした上で、1行辺りに「キーワード」がどの程度出現しているかを解析する。
そう、この文章は長い文章の中でどのように特定の単語が出現するか解析してくれるのである。
それでは、試しに使ってみよう。まずは、結構好きな夏目漱石の小説で試してみたい。
電脳居士@木村功のホームページ
から、「ホトトギス」版 「坊っちやん」のテキストを手に入れる。そして解析をしてみよう。まずは、この画面は夏目漱石の「坊っちやん」の中で「マドンナ」という単語がどのような出現分布であるかを解析したものである。
文章の中ほどで「マドンナ」は登場してくるが、それほど重要なキャラクターでないことがわかる(このソフトがそう言っているんで、私が言っているのではない。だから、文句メールは送らないで欲しい)。
それでは、「湯」というキーワードで解析してみよう。「坊っちやん」と言えば道後温泉であるからだ。
おやおや、「マドンナ」よりもよっぽどコンスタント(安定して、という意味で)に「湯」という単語は出現するではないか。出現平均値は「マドンナ」の方が多いが、安定度では「湯」の方が上だ。夏目漱石は「マドンナ」よりも「湯」すなわち温泉によっぽど興味があるようだ。
主人公を育てた重要人物「清」を調べてみると、こんな感じだ。
小説の初めなんか出ずっぱりである。あと小説のラストにも登場している。
どうだろうか。見事に小説の可視化に成功しているだろう。結構、この解析は面白い。すごく簡単なのである。
これから新聞、WEB、小説、ありとあらゆる文章を可視化し、構造解析していくつもりだ。みなさんも、このソフトを使って面白い解析をしてみるとよいのではないだろうか? とりあえず、高校(もしかしたら大学の教養)の文学のレポートくらいは簡単に書けそうである。もし、それで単位が取れたならば、メールの一本でも送って欲しい。
というわけで、今回はソフトの紹介入門編というわけで、この辺りで終わりにしたいと思う。
2000-05-23[n年前へ]
■「ナンパ」における言語学
ヤバいことは後に言え!?
ある飲み会でのことだった。それぞれの頭の中にアルコールが充満した中で、話題は何故か「ビバリーヒルズ青春白書」であった。30代の人々が何故か「ビバリーヒルズ青春白書」を話題にしているのである。とりあえず、
「なんで奴らはあんなにパーティーをしまくるのだ?」というようなことを話していると、突然N氏が
「一体、いつ勉強をしておるのだ?」
「どうして、あんな深夜に女を部屋に連れ込めるんだ?」
「それは言語構造のせいでア〜ル。」と言い出したのである。そして長々とN氏が話し始めた内容は私にとって「目からウロコ」の内容であった。あまりにもったいないので、ここに書いておくことにしたい。その内容を発展させるならば、言語構造から「ビバリーヒルズ青春白書」の登場人物たちの行動原理を解析し、ついには文化論を説明することすらできるのである。
「英語の言語構造があやつらをナンパに駆り立てるのでア〜ル。」
なお、これから書く内容は、例え一人称であってもそれは私でなくN氏の意見である。「誘い」、言い換えれば「ナンパ」、について言語構造まで辿って考えを巡らせているのは私ではない。文化論などに考えを巡らせるのは仮に私であっても、「ナンパ」学に考えを巡らせているのはN氏である。以降、それを頭にインプットしておいて頂きたい。また、いつぞやも書いたが私の英語力は惨憺たるものである。なので、英語の表現についてはウソ八百である可能性が高いことも明記しておきたい。
それでは、まずはこんなシチュエーションを考えてみよう。登場人物は次の三人である。
- 花子 : 今回のマドンナ
- 太郎 : 東京の多摩地区にある大学に通う大学生
- ジョン : ビバリーヒルズ在住の大学生
さて、いきなりであるが、太郎とジョンは花子にアタック中である。今回は、大学の授業でレポートが出て、それをネタに彼らは花子へアタックをかけているのである。今夜、花子を自分の部屋へ連れ込もうとしているのである。そのために、彼らが花子に言った言葉はそれぞれこんな感じだ。
- 太郎 (日本語) : 今夜深夜まで、オレの部屋で、オレと一緒にレポートをやろうぜ。
- ジョン (英語) : How about making our reports in my room until late atthis night?
- 太郎 : 「今夜深夜まで」、「オレの部屋で」、「オレと一緒に」、「レポートをやろうぜ」。
- ジョン : 「ほらほらアレはどうかな」、「レポート書きだけどさ」、「ぼくの部屋でさ」、「深夜まで」
太郎の場合 :太郎 :
「今夜深夜まで」花子 :(花子 : いきなり、深夜までって何それ...ヤな感じ...) マイナス 20ポイント「オレの部屋で」(花子 : 深夜の次は、オレの部屋って「危険すぎ」じゃないの?) マイナス30ポイント「オレと一緒に」(花子 : アンタと一緒に何をするって言うのよ。何コイツ。もう絶対ダメ。) マイナス50ポイント「絶対ダメ。」太郎 : (お〜い、最後まで聞いてくれ...)
ジョンの場合 :これなら判るだろう。ジョンのズルいところは「肝心なこと」を後に言う点である。そして、太郎の失敗は「肝心なこと」を先に言ってしまった点である。とはいえ、これは日本語と英語の言語構造の違いであるから、太郎にはどうしようもないのである。そして、この英語の言語構造がジョンの花子へのアタックを成功させ、ビバリーヒルズ青春白書をやたら華やかなストーリーに仕立て上げたのである。ジョン :
「ほらほらアレはどうかな」花子 :(花子 : 一体何かしら...ジョンって結構シャイなのね。) プラス10ポイント「レポート書きだけどさ」(花子 : そうそうやらなきゃいけないのよね。ジョンって結構マジメなのね。) プラス20ポイント。「いいわよ。一緒にやる?」ジョン :「ぼくの部屋でさ(小声で)」
「深夜まで。(もっと、もっと小声で)」
この仮説の証拠は他にもある。例えば、「日本語の歌謡曲の歌詞は状況を説明するところから始まる」とよく言われる。そして、「英語の歌謡曲では状況なんか説明せず、気持ちをひたすら言いまくる」というのは良く言われるかどうかはしらないが、少なくとも私の印象はそうである。
例えば、「雨は夜更け過ぎに雪へと変わるだろう。」という極めて客観的かつ定量的な気象状況の説明から始まるのは山下達郎の「クリスマス・イヴ」であり、それが日本語の言語学的な特徴であり、日本の文化でもある。学生時代に気象学の試験で泣きそうになった私としては嬉しい限りである。
しかし、それが英語圏文化の一例であるワム!の"Last Christmas"になると、「去年のクリスマスに、キミにオレのハートをプレゼントしたね。このオレが。」で始まるのである。ここには客観性のカケラもない。このような文化の差を形成したのは、そもそも日本語と英語(遡ればラテン語だろうか)の言語構造の差が原因だったのである。
それを喝破したのがN氏の、
「それは言語構造のせいでア〜ル。」
「英語の言語構造があやつらをナンパに駆り立てるのでア〜ル。」
という言葉だったのだ。
というわけで、世界各国のさまざまな言語で
「今夜深夜まで、オレの部屋で、オレと一緒にレポートをやろうぜ」をどう言うのか調べてみたいと思う。その文章における語順を考えるならば、それぞれの文化を示す何かがそこにはあるはずである。そして、さらに言語チャンピオン「ナンパ」編を実施してみたい、と私は思う。
もしも、何語でも構わないし、各種言語で「今夜深夜まで、オレの部屋で、オレと一緒にレポートをやろうぜ」をどう言うか、ご存知の方がいらっしゃったならば、教えて頂けたら幸いである。ぜひ、私(jun@hirax.net)まで連絡して欲しい。
2000-10-05[n年前へ]
■G線上のプリマドンナ
G-string Divas。う〜ん、目が釘付けだ。いや、刺激的なのも大いにあるが、面白いぞ。とはいえ、今日の話題は南極二号といいこれといい、ちょっと何だな。(リンク)(リンク)(リンク)
2000-10-06[n年前へ]
■恋の分水嶺
ベクトルの彼方で待ってて
深夜に目が覚めてしまい、「探求心開発のすすめ - 「おかしい」と感じ、楽しく追求する事例集- 」北大路 剛 著 燃焼社セレクト教養双書ISBN4-88978-054-8を読んでいた。すると、「はじめに」面白い一節があった。
山の頂上が見えている間は、まだ、その麓にも達していない。山に登りはじめたら、山頂など全く見えはしない。次に踏み出す足をどの岩角に置くだけを考えて、少しでも高いところへ歩を運べば、やがて最も高い山頂に到達するはずである。「なるほどなぁ。そういうものかもしれないなぁ。だけど、仕事じゃぁそうはいかないような気もするがなぁ。頂上を極めるに至らなくても…とはなかなか言えないからなぁ。あと、次に踏み出す足の位置だけを考えていて、別の峰に登っちゃったらどうするんだろうなぁ。」などと思いながら惚けていた。すると、変なことを考え始めたので、それをここに書いてみることにした。
たとえ、頂上を極めるに至らなくても、その苦労に報いるだけのものは必ず得られるのだから。
次の図は「とある山」を示したものである。ちょうど富士山のような、広い裾を持つ孤立峰状の山である。
この「とある山」における「少しでも高い方向」を示してみたものが次の図である。
図中の各場所における矢印が「少しでも高い方向」を示したものだから、「少しでも高いところへ歩を運べば、やがて最も高い山頂に到達する」ことがよく判る。
とはいえ、その「少しでも高いところへ歩を運べば、やがて最も高い山頂に到達する」のは孤立峰だからで、次の図に示すような山脈ではそうはいかない。
この図に示した山脈では、中央の山が他の山より高いのだが次の「少しでも高い方向」を示した図を見れば判るように、「少しでも高いところへ歩を運べば、やがて最も高い山頂に到達する」わけではない。下の図では青い線で示したような分水嶺が存在して、それぞれの領域の中で「少しでも高いところへ歩を運べば」、その近くの高い部分には到達するが、「やがて最も高い山頂に到達する」わけではない。当たり前である。
青い線が分水嶺 人々はそれぞれ塗り分けた領域で一番高い山に到達することになる |
例えば、この図の向かって左上側から山に登り始めた人は、必ず青色の領域に入る。だから、青色の丸で示した頂上(実は一番高いわけではない)に登ってしまう。同じように、登り始めたのが右上なら、緑の頂上に登ってしまう。もし、赤色の丸で示した一番高い頂上に登ろうと思ったら、向かって下側から登らなくては頂上にはたどり着けない。
富士山のような形の山はそうそう見かけないのに対して、そうでない形の山はとても多く見かけるのだから、「少しでも高いところへ歩を運べば、やがて最も高い山頂に到達する」というのは実は一般的にはそうそうありえない話のように思われる。
さて、これはこれまでも考え続けてきた「恋」の問題についても同じだろう。次の図に示すように「マドンナ」が一人しかいない状態では、その「マドンナ」の周りの「恋ポテンシャル」だけが高くなっている。
そのため、こんな「恋ポテンシャル」下での「恋のベクトル」を描いてみると、こんな感じになる。「男はみんな彼女の虜、彼女にみんな引き寄せられる」のである。「恋における孤立峰」での「恋のベクトル」の先には必ず「彼女(別につき合うという意味での彼女ではない)」がいるのである。
それに対して、先程と同じようにこんな「恋の山脈」を考えたらどうなるだろうか?A子、B子、C子という三つの山からなる「恋の山脈」である。
この場合の「恋の山脈」での「恋のベクトル」は先程と同じくこの図になる。つまり、あなたにとって客観的には一番魅力的なのはA子にも関わらず、恋の力に導かれるまま動いていったとしても、必ずしもA子に辿り着くわけではないのである。 さきほどの山と同じく、この場合にも「恋の分水嶺」があって、アプローチをし始める場所によって、B子の方に行ってしまったり、あるいは、C子の方に行ってしまったりするのである。ベクトルの彼方で誰が待っているかは、アプローチ次第だったりするのだ。
というわけで、「実際の山脈」でも「恋の山脈」でも、「少しでも高いところへ歩を運べば、やがて最も高い山頂に到達する」わけではないのだ。
とはいえ、見晴らしのきく頂上に登ったりすると、今度は他の(もっと高そうな)頂上が見えてくるわけで、もう一度そっちへアプローチし始めるなんてこともあるだろうから、結局は「一番高いところ」へたどり着けることもあるのかもしれない。それに、「実際の山登り」でも「恋の山登り」でも道に迷ったりして、思いも寄らぬ方向へ行ってしまうことはよく?あるわけで、そんな時に「恋の分水嶺」を越えてしまうなんてこともよくありそうな事態ではある。
もっとも、「実際の山登り」ならともかく、「恋の山脈」の方では「結婚」なんて状態もあったりするわけで、実はそうそう他の場所へ動けない場合も多いだろう。そんなことを考えるだけでも、これまた大変そうな状況も想像されるのがオソロシイところだ。
そう言えば、この「探求心開発のすすめ」の「はじめに」の中には、私がもう一つとても面白いなぁと思ったフレーズがある。それは、
古くより、「必要は発明の母」と言われていますが、これにならえば「疑問は学問の父」であると言えるのではないでしょうか。という一節である。この一節からは何やら、
- 「必要」という足が地に着いている女、と
- 「疑問」という何か浮世離れした男
いや、何を書いているのだ。そんな話を書こうとしたのではなくて、つまり「色々な疑問」は「学問の父」ってことで、例えそれが結婚システムへの疑問だとしても、それは単に一例にすぎない、ってことで…
2000-10-18[n年前へ]
■madonna.com
マドンナ勝訴。この判決には疑問があるなぁ。(リンク)