1999-07-14[n年前へ]
■夏目漱石は温泉がお好き?
文章構造を可視化するソフトをつくる
先週は新宿で開催されていた可視化情報シンポジウム'99を見ていた。参加者の世界が狭い(ジャンルが狭いという意味ではない)し、学生の発表が多すぎるように思ったが、少なくとも本WEBのようなサイトで遊ぶには面白い話もあった。というわけで、これから何回か「可視化情報シンポジウム'99」記念の話が続くかもしれない。とりあえず、今回は「小説構造を可視化しよう」という話だ。
まずは、「可視化情報シンポジウム'99」の発表の中から一番笑わせて(笑ったのはいい意味ですよ。決して皮肉ではないですよ。しつこいようですが、ホントホント。私のツボに見事にはまったのだからしょうがない。)もらった発表のタイトルはこれである。
文学作品における文体構造の可視化 - 宮沢賢治「銀河鉄道の夜」の解析-
白百合女子大学大学院の金田氏らによる発表だ。予稿集から、その面白さを抜き出してみよう。まずは過去の研究の紹介をしている部分だ。
作品(hirax注:夏目漱石の「虞美人草」と「草枕」)の始まりから終わりまでを時系列で捉えると(hirax注:話法に関する解析をすると)、二作品はともに円環構造、つまり螺旋構造を描きながら、物語が進行していくことが、四次元空間上に表現された。
中略
これは、作品の解析結果を可視化することで、夏目漱石の思考パターンと内面の揺れが明らかにされたことを意味する。
なんて、面白いんだ。この文章自体がファンタジーである。こういうネタでタノシメル人にワタシハナリタイ。おっと、つい宮沢賢治口調になってしまった。そして、今回の発表の内容自体は、宮沢賢治の「銀河鉄道の夜」の中に出てくる単語、「ジョバンニ・カンパネルラ・二」という三つの出現分布を調べて構成を可視化してみよう、そしてその文学的観点を探ろう、という内容だ。
本サイトは実践するのを基本としている。同じように遊んでみたい。まずは、そのためのプログラムを作りたい。名づけて"WordFreq"。文章中の単語の出現分布を解析し可視化するソフトウェアである。単語検索ルーチンにはbmonkey氏の正規表現を使った文字列探索/操作コンポーネント集ver0.16を使用している。
ダウンロードはこちらだ。もちろんフリーウェアだ。しかし、バグがまだある。例えば出現平均値の計算がおかしい。時間が出来次第直すつもりだ。平均睡眠時間5時間が一月続いた頭の中は、どうやらバグにとって居心地が良いようなのだ。
wordfreq.lzh 336kB バグ有り版
バグ取りをしたものは以下だ(1999.07.22)。とりあえず、まだ上のプログラムは削除しないでおく。
失楽園殺人事件の犯人を探せ - 文章構造可視化ソフトのバグを取れ - (1999.07.22)
動作画面はこんな感じだ。「ファイル読みこみ」ボタンでテキストファイルを読みこんで、検索単語を指定して、「解析」ボタンを押すだけだ。そうすれば、赤いマークでキーワードの出現個所が示される。左の縦軸は1行(改行まで)辺りの出現個数だ。そして、横軸は文章の行番号である。すなわち、左が文章の始めであり、右が文章の終わりだ。一文ではなく一行(しかもコンピュータ内部の物理的な)単位の解析であることに注意が必要だ。あくまで、改行までが一行である。表示としての一行を意味するものではない。なお、後述の木村功氏から、「それは国語的にいうとパラグラフ(段落)である。」という助言を頂いている。であるから、国語用の解析を行うときには「行」は「段落」と読み替えて欲しい。また、改行だけの個所には注意が必要だ。それも「一行」と解釈するからである。
「スムージング解析」ボタンを押せば、その出現分布をスムージングした上で、1行辺りに「キーワード」がどの程度出現しているかを解析する。
そう、この文章は長い文章の中でどのように特定の単語が出現するか解析してくれるのである。
それでは、試しに使ってみよう。まずは、結構好きな夏目漱石の小説で試してみたい。
電脳居士@木村功のホームページ
から、「ホトトギス」版 「坊っちやん」のテキストを手に入れる。そして解析をしてみよう。まずは、この画面は夏目漱石の「坊っちやん」の中で「マドンナ」という単語がどのような出現分布であるかを解析したものである。
文章の中ほどで「マドンナ」は登場してくるが、それほど重要なキャラクターでないことがわかる(このソフトがそう言っているんで、私が言っているのではない。だから、文句メールは送らないで欲しい)。
それでは、「湯」というキーワードで解析してみよう。「坊っちやん」と言えば道後温泉であるからだ。
おやおや、「マドンナ」よりもよっぽどコンスタント(安定して、という意味で)に「湯」という単語は出現するではないか。出現平均値は「マドンナ」の方が多いが、安定度では「湯」の方が上だ。夏目漱石は「マドンナ」よりも「湯」すなわち温泉によっぽど興味があるようだ。
主人公を育てた重要人物「清」を調べてみると、こんな感じだ。
小説の初めなんか出ずっぱりである。あと小説のラストにも登場している。
どうだろうか。見事に小説の可視化に成功しているだろう。結構、この解析は面白い。すごく簡単なのである。
これから新聞、WEB、小説、ありとあらゆる文章を可視化し、構造解析していくつもりだ。みなさんも、このソフトを使って面白い解析をしてみるとよいのではないだろうか? とりあえず、高校(もしかしたら大学の教養)の文学のレポートくらいは簡単に書けそうである。もし、それで単位が取れたならば、メールの一本でも送って欲しい。
というわけで、今回はソフトの紹介入門編というわけで、この辺りで終わりにしたいと思う。
2000-05-23[n年前へ]
■「ナンパ」における言語学
ヤバいことは後に言え!?
ある飲み会でのことだった。それぞれの頭の中にアルコールが充満した中で、話題は何故か「ビバリーヒルズ青春白書」であった。30代の人々が何故か「ビバリーヒルズ青春白書」を話題にしているのである。とりあえず、
「なんで奴らはあんなにパーティーをしまくるのだ?」というようなことを話していると、突然N氏が
「一体、いつ勉強をしておるのだ?」
「どうして、あんな深夜に女を部屋に連れ込めるんだ?」
「それは言語構造のせいでア〜ル。」と言い出したのである。そして長々とN氏が話し始めた内容は私にとって「目からウロコ」の内容であった。あまりにもったいないので、ここに書いておくことにしたい。その内容を発展させるならば、言語構造から「ビバリーヒルズ青春白書」の登場人物たちの行動原理を解析し、ついには文化論を説明することすらできるのである。
「英語の言語構造があやつらをナンパに駆り立てるのでア〜ル。」
なお、これから書く内容は、例え一人称であってもそれは私でなくN氏の意見である。「誘い」、言い換えれば「ナンパ」、について言語構造まで辿って考えを巡らせているのは私ではない。文化論などに考えを巡らせるのは仮に私であっても、「ナンパ」学に考えを巡らせているのはN氏である。以降、それを頭にインプットしておいて頂きたい。また、いつぞやも書いたが私の英語力は惨憺たるものである。なので、英語の表現についてはウソ八百である可能性が高いことも明記しておきたい。
それでは、まずはこんなシチュエーションを考えてみよう。登場人物は次の三人である。
- 花子 : 今回のマドンナ
- 太郎 : 東京の多摩地区にある大学に通う大学生
- ジョン : ビバリーヒルズ在住の大学生
さて、いきなりであるが、太郎とジョンは花子にアタック中である。今回は、大学の授業でレポートが出て、それをネタに彼らは花子へアタックをかけているのである。今夜、花子を自分の部屋へ連れ込もうとしているのである。そのために、彼らが花子に言った言葉はそれぞれこんな感じだ。
- 太郎 (日本語) : 今夜深夜まで、オレの部屋で、オレと一緒にレポートをやろうぜ。
- ジョン (英語) : How about making our reports in my room until late atthis night?
- 太郎 : 「今夜深夜まで」、「オレの部屋で」、「オレと一緒に」、「レポートをやろうぜ」。
- ジョン : 「ほらほらアレはどうかな」、「レポート書きだけどさ」、「ぼくの部屋でさ」、「深夜まで」
太郎の場合 :太郎 :
「今夜深夜まで」花子 :(花子 : いきなり、深夜までって何それ...ヤな感じ...) マイナス 20ポイント「オレの部屋で」(花子 : 深夜の次は、オレの部屋って「危険すぎ」じゃないの?) マイナス30ポイント「オレと一緒に」(花子 : アンタと一緒に何をするって言うのよ。何コイツ。もう絶対ダメ。) マイナス50ポイント「絶対ダメ。」太郎 : (お〜い、最後まで聞いてくれ...)
ジョンの場合 :これなら判るだろう。ジョンのズルいところは「肝心なこと」を後に言う点である。そして、太郎の失敗は「肝心なこと」を先に言ってしまった点である。とはいえ、これは日本語と英語の言語構造の違いであるから、太郎にはどうしようもないのである。そして、この英語の言語構造がジョンの花子へのアタックを成功させ、ビバリーヒルズ青春白書をやたら華やかなストーリーに仕立て上げたのである。ジョン :
「ほらほらアレはどうかな」花子 :(花子 : 一体何かしら...ジョンって結構シャイなのね。) プラス10ポイント「レポート書きだけどさ」(花子 : そうそうやらなきゃいけないのよね。ジョンって結構マジメなのね。) プラス20ポイント。「いいわよ。一緒にやる?」ジョン :「ぼくの部屋でさ(小声で)」
「深夜まで。(もっと、もっと小声で)」
この仮説の証拠は他にもある。例えば、「日本語の歌謡曲の歌詞は状況を説明するところから始まる」とよく言われる。そして、「英語の歌謡曲では状況なんか説明せず、気持ちをひたすら言いまくる」というのは良く言われるかどうかはしらないが、少なくとも私の印象はそうである。
例えば、「雨は夜更け過ぎに雪へと変わるだろう。」という極めて客観的かつ定量的な気象状況の説明から始まるのは山下達郎の「クリスマス・イヴ」であり、それが日本語の言語学的な特徴であり、日本の文化でもある。学生時代に気象学の試験で泣きそうになった私としては嬉しい限りである。
しかし、それが英語圏文化の一例であるワム!の"Last Christmas"になると、「去年のクリスマスに、キミにオレのハートをプレゼントしたね。このオレが。」で始まるのである。ここには客観性のカケラもない。このような文化の差を形成したのは、そもそも日本語と英語(遡ればラテン語だろうか)の言語構造の差が原因だったのである。
それを喝破したのがN氏の、
「それは言語構造のせいでア〜ル。」
「英語の言語構造があやつらをナンパに駆り立てるのでア〜ル。」
という言葉だったのだ。
というわけで、世界各国のさまざまな言語で
「今夜深夜まで、オレの部屋で、オレと一緒にレポートをやろうぜ」をどう言うのか調べてみたいと思う。その文章における語順を考えるならば、それぞれの文化を示す何かがそこにはあるはずである。そして、さらに言語チャンピオン「ナンパ」編を実施してみたい、と私は思う。
もしも、何語でも構わないし、各種言語で「今夜深夜まで、オレの部屋で、オレと一緒にレポートをやろうぜ」をどう言うか、ご存知の方がいらっしゃったならば、教えて頂けたら幸いである。ぜひ、私(jun@hirax.net)まで連絡して欲しい。
2000-09-10[n年前へ]
■直噴エンジンとメッサーシュミット
三菱のGDIエンジンの広告ではあたかも同社が世界ではじめて開発に成功したように表現しているのは、都合の悪いことは隠し自分を偉そうに見せる悪しき伝統の一例だ、と。直噴エンジンそのものは実は三菱が最初では無く、もともとはメッサーシュミットというドイツの戦闘機用エンジンで、その後、メルセデスがレース用で使用していた。「欠陥・自動車業界」高齋 正 論創社を読んでみるかな、と。 from 朝日新聞、と、プリウスのある光景。(リンク)
2000-11-22[n年前へ]
■自動車運転中の携帯電話の使用について
今日来たメール。ずいぶん昔からありそうなメールだけど、なかなか良い感じ。 ……自動車運転中の携帯電話の使用についていよいよ警察当局が厳しい取り締まりに乗り出すとの記事が先日の新聞に掲載されておりました。まったく嫌な世の中です。しかし、私も減点や罰金はいやですのでさっそく電機店に行き、ハンドフリーセットを買い求めようとしましたところなんと1万円以上もするではありませんか!そこで、私、なんとかオフブランドの安い製品を手に入れようとがんばり、留学していたときのつてをたどってそして、ついにとうとうアメリカから、安価で手に入れることに成功しました。そしてこの値段なら皆ほしいのではないかと考え、全部で20個買ってあります。輸送費なども含めて計算すると単価が800円になりますのでそのまま800円でお譲りしようと思います。お代はいつか会ったときで結構です。まだハンドフリーセットをお持ちで無い方はぜひお申し込みください。このセットをいろんな携帯機種で試しましたがどの機種でも100%完全に使えました。安心してお申し込みください。デザインがわかるように添付ファイルをつけましたのでご覧くださいませ。なお、お申し込みは必ずE-mailでお願いします。必ずこのファイルをご覧になってください。(See attached file: hands free set.jpg)(リンク)
2002-09-21[n年前へ]
■当てはまる文字は何だ!?
探偵ファイルの挑戦状。成功報酬有り。で、書いてあるのはスワヒリ語。内容は有名な何かの歌の一部かな、多分。で、訳すと
訪れるものがある
いつの時も、喜びが訪れる
いつの時も、幸せは音になる
いつの時も、****-****
ていうような感じ。うーん、umri-habuでは変かな。あるいは、timeとlifeで韻を踏んでる何かの歌かな。するとrohoか?が、粗品ではやる気も出ないので、ここまでにしとこ。
とりあえず、似たような感じで「オト」を入れながら韻を踏んでみました。(リンク)