1999-07-14[n年前へ]
■夏目漱石は温泉がお好き?
文章構造を可視化するソフトをつくる
先週は新宿で開催されていた可視化情報シンポジウム'99を見ていた。参加者の世界が狭い(ジャンルが狭いという意味ではない)し、学生の発表が多すぎるように思ったが、少なくとも本WEBのようなサイトで遊ぶには面白い話もあった。というわけで、これから何回か「可視化情報シンポジウム'99」記念の話が続くかもしれない。とりあえず、今回は「小説構造を可視化しよう」という話だ。
まずは、「可視化情報シンポジウム'99」の発表の中から一番笑わせて(笑ったのはいい意味ですよ。決して皮肉ではないですよ。しつこいようですが、ホントホント。私のツボに見事にはまったのだからしょうがない。)もらった発表のタイトルはこれである。
文学作品における文体構造の可視化 - 宮沢賢治「銀河鉄道の夜」の解析-
白百合女子大学大学院の金田氏らによる発表だ。予稿集から、その面白さを抜き出してみよう。まずは過去の研究の紹介をしている部分だ。
作品(hirax注:夏目漱石の「虞美人草」と「草枕」)の始まりから終わりまでを時系列で捉えると(hirax注:話法に関する解析をすると)、二作品はともに円環構造、つまり螺旋構造を描きながら、物語が進行していくことが、四次元空間上に表現された。
中略
これは、作品の解析結果を可視化することで、夏目漱石の思考パターンと内面の揺れが明らかにされたことを意味する。
なんて、面白いんだ。この文章自体がファンタジーである。こういうネタでタノシメル人にワタシハナリタイ。おっと、つい宮沢賢治口調になってしまった。そして、今回の発表の内容自体は、宮沢賢治の「銀河鉄道の夜」の中に出てくる単語、「ジョバンニ・カンパネルラ・二」という三つの出現分布を調べて構成を可視化してみよう、そしてその文学的観点を探ろう、という内容だ。
本サイトは実践するのを基本としている。同じように遊んでみたい。まずは、そのためのプログラムを作りたい。名づけて"WordFreq"。文章中の単語の出現分布を解析し可視化するソフトウェアである。単語検索ルーチンにはbmonkey氏の正規表現を使った文字列探索/操作コンポーネント集ver0.16を使用している。
ダウンロードはこちらだ。もちろんフリーウェアだ。しかし、バグがまだある。例えば出現平均値の計算がおかしい。時間が出来次第直すつもりだ。平均睡眠時間5時間が一月続いた頭の中は、どうやらバグにとって居心地が良いようなのだ。
wordfreq.lzh 336kB バグ有り版
バグ取りをしたものは以下だ(1999.07.22)。とりあえず、まだ上のプログラムは削除しないでおく。
失楽園殺人事件の犯人を探せ - 文章構造可視化ソフトのバグを取れ - (1999.07.22)
動作画面はこんな感じだ。「ファイル読みこみ」ボタンでテキストファイルを読みこんで、検索単語を指定して、「解析」ボタンを押すだけだ。そうすれば、赤いマークでキーワードの出現個所が示される。左の縦軸は1行(改行まで)辺りの出現個数だ。そして、横軸は文章の行番号である。すなわち、左が文章の始めであり、右が文章の終わりだ。一文ではなく一行(しかもコンピュータ内部の物理的な)単位の解析であることに注意が必要だ。あくまで、改行までが一行である。表示としての一行を意味するものではない。なお、後述の木村功氏から、「それは国語的にいうとパラグラフ(段落)である。」という助言を頂いている。であるから、国語用の解析を行うときには「行」は「段落」と読み替えて欲しい。また、改行だけの個所には注意が必要だ。それも「一行」と解釈するからである。
「スムージング解析」ボタンを押せば、その出現分布をスムージングした上で、1行辺りに「キーワード」がどの程度出現しているかを解析する。
そう、この文章は長い文章の中でどのように特定の単語が出現するか解析してくれるのである。
それでは、試しに使ってみよう。まずは、結構好きな夏目漱石の小説で試してみたい。
電脳居士@木村功のホームページ
から、「ホトトギス」版 「坊っちやん」のテキストを手に入れる。そして解析をしてみよう。まずは、この画面は夏目漱石の「坊っちやん」の中で「マドンナ」という単語がどのような出現分布であるかを解析したものである。
文章の中ほどで「マドンナ」は登場してくるが、それほど重要なキャラクターでないことがわかる(このソフトがそう言っているんで、私が言っているのではない。だから、文句メールは送らないで欲しい)。
それでは、「湯」というキーワードで解析してみよう。「坊っちやん」と言えば道後温泉であるからだ。
おやおや、「マドンナ」よりもよっぽどコンスタント(安定して、という意味で)に「湯」という単語は出現するではないか。出現平均値は「マドンナ」の方が多いが、安定度では「湯」の方が上だ。夏目漱石は「マドンナ」よりも「湯」すなわち温泉によっぽど興味があるようだ。
主人公を育てた重要人物「清」を調べてみると、こんな感じだ。
小説の初めなんか出ずっぱりである。あと小説のラストにも登場している。
どうだろうか。見事に小説の可視化に成功しているだろう。結構、この解析は面白い。すごく簡単なのである。
これから新聞、WEB、小説、ありとあらゆる文章を可視化し、構造解析していくつもりだ。みなさんも、このソフトを使って面白い解析をしてみるとよいのではないだろうか? とりあえず、高校(もしかしたら大学の教養)の文学のレポートくらいは簡単に書けそうである。もし、それで単位が取れたならば、メールの一本でも送って欲しい。
というわけで、今回はソフトの紹介入門編というわけで、この辺りで終わりにしたいと思う。
1999-11-28[n年前へ]
■奇説・シェイクスピア=北斗神拳説
ケンシロウ進数とベーコンの関係
「ケンシロウ進数」というものがある。「北斗の拳」で有名な「ケンシロウ」の「あたっ、あたたたたっ」という叫びが実は「2進数」と考えることができるのではないか、と提唱しているものである。「イチ、ゼロ、ゼロ、ゼロ、ゼロッ」という長い言葉が、「あたたたたっ」ですんでいるのだ(1=あ、0=た)、という「ケンシロウ進数=情報圧縮説」である。
なるほど、暴力が支配する世界では一瞬の勝負が生死を分ける。瞬時に情報を伝えることは、必要不可欠といって良いだろう。目からウロコである。
この考えをさらに進めて、「ケンシロウ」のような武闘派の人々は実は互いに「認証」を行っている、と考える「ケンシロウ進数=認証方式」説も提唱されるに至っている。
確かに、戦いの場において認証を行うというのは実に素直な考え方である。敵か味方かを瞬時に見極めなければならない戦場において、認証は命の支えと言っても良いだろう。力が支配する世界では、「敵か味方か」という命題は非常に重要となるのだ。
ところが、未だ「ケンシロウ進数」により一体何が表現されているのか、に関しては誰も言及していない。 「ケンシロウ」は果たして数字を早く表現するためだけに、「ケンシロウ進数」を生み出したのであろうか? 戦場で、数字を何故早く伝える必要があるのだ? 別に暗算選手権をしているわけではないのだ。TVチャンピオンとは違うのである。
あるいは、「あたた」が認証だとしても、その認証においてどのような内容が込められているのだろうか? 無意味な言葉では認証は実現できない。 必ず、何らかの意味が込められているはずである。
一体、「ケンシロウ進数」には、何が表現されているのだろうか? まったくわからない。これでは、「ケンシロウ進数」とは暗号のようである。何なのだ? 北斗神拳とは一体何を伝えようとしているのだ?
そう、「ケンシロウ進数」は暗号なのである。実は、そこに謎を解く鍵がある。「ケンシロウ進数」が暗号である、という仮定に基づくと、面白い想像ができるのである。まずは、「ケンシロウ進数」が二進数に基づくという事実から、二進数に基づいた暗号系を探してみるのだ。そこに、北斗神拳の謎は隠されているハズである。
暗号の歴史を振り返ると、その条件に大いに当てはまるものがある。それは、フランシス・ベーコン(FrancisBacon 1561-1626 英国の哲学・法学・文学者)が「学問の進歩」において提唱した2記号(バイリテラル)暗号である。
ベーコンは著作「学問の進歩」の中では、「二値のデータが五個あれば、暗号を作成できる」と喝破している。現代風に言い換えれば、「5bitあれば、32個までの文字列を表現できる。すなわち、30文字弱の英文字は表現できる」と言っているのである。ベーコンが持つ先見性には素晴らしいものがある。
そして、これをさらに言い換えれば、
- あ
- た
それを念頭においてみると、
「知は力」というベーコンの言葉は、北斗神拳のケンシロウの哲学と非常に近い何かを感じるのではないだろうか?そうなのだ、ケンシロウが継ぐ北斗神拳はフランシス・ベーコンが築き上げたものなのだ。
「自然は服従されることによってでなくては支配されない」
そうであるならば、北斗神拳は二値記号暗号を用いて何を表現しようとしているのだ? ケンシロウに何を伝えさせようとしているのだ?フランシス・ベーコンは何を暗号化しようとしたのだ?
その解明のためには二値記号暗号を考えたフランシス・ベーコンについて調べるのが妥当であろう。
ならば、北斗神拳が伝えようとしていることは、フランシス・ベーコンを調べることにより解明できるのではないだろうか?
エリザベス・ギャラップの「フランシス・ベーコンの二値記号暗号」では、シェークスピアの「第一・二折本」の二種のイタリック体を二値記号と解釈することで、「ウィリアム・シェークスピア=フランシス・ベーコン説」を提唱している。これだけでなく、イグナチウス・ドネリーの「偉大なる暗号・いわゆるシェイクスピア劇に秘めたフランシス・ベーコンの暗号」など、古来から「ウィリアム・シェークスピア=フランシス・ベーコン説」というのは広く伝えられている。
(第一・二折本表紙) |
私はこれらの説を統合し、「シェークスピア=北斗神拳説」を提唱したいのだ。現代まで演劇のバイブルでもあるシェークスピア作品はフランシス・ベーコンが書いたものであり、ベーコンは実は北斗神拳の祖でもある、という考えである。北斗神拳が伝える「あたたた」が伝えようとしているもの、それは未公表のシェークスピア作品に違いない。
振り返ると、本hirax.netにもシェークスピアは登場している。例えば、Scraps
合掌 - キレイはキタナイ、キタナイはキレイ- (1999.08.01)の「キレイはキタナイ、キタナイはキレイ」である。これはシェークスピアの「マクベス」の冒頭の三人の魔女の台詞である。「良いは悪い。悪いは良い。」「正しいことは、間違っている。間違っていることは、正しい。」という奴だ。
私は気づかないうちに、
フランシス・ベーコン -> ウィリアム・シェークスピア -> 北斗神拳 -> ケンシロウ
という流れを受け継いでいたのかもしれないのだ。一子相伝の北斗神拳はフランシス・ベーコンに始まり、ケンシロウなどを通して、私にまで至っていたのかもしれない。
私はその事実解明をさらに進める予定である。まずは、そのために、「マンガ喫茶」に明日一日こもる予定である。「北斗の拳」全27巻を読み通すのだ。そして、文体解析、文脈解析、ありとあらゆる手段を用いて「シェークスピア=北斗神拳説」の証拠をデッチアゲル、いや、もとい探し出すつもりだ。あの数多い言葉、「あたたた」「ひでぶ」「あべし」などの言葉の中に潜む、シェークスピアの意図を見つけだしたいと思う。実は、私はすでに「あべし=abc」という鍵も握っているのである。必ずや...
2000-07-23[n年前へ]
■WEBページの文体を調べてみよう
「ノリノリ文体」の秘密!?
今日もまたいつものように
- お笑いパソコン日誌 ( http://www2s.biglobe.ne.jp/~chic/pilot.html )
すると、
- 文体模写してください( http://mentai.2ch.net/test/read.cgi?bbs=book&key=963421916 )
以前から、私も文体について調べてみたい、と思っていた。それも普通の文体ではなくて、WEBページの文体である。色々な面白いWEBページを読むたびに、「この面白さ・ノリの良さの秘密はどこにあるのだ?」と思っていたのである。そして、できることならば「そのノリノリ文体の秘密をこの目で見てみたい!」と切望さえしていたのである。もちろん、本当のところは「ノリノリ文体の秘密」が明らかになったならば、「そのノリノリ文体をパクッてやろう」という気持ちが私の中にあるのだ。文体だけ真似しても、「面白いページ」にはならないと言う気もするが、そんなことは考えてみてもしょうがないのだ。まずは、形から入ろうというわけだ。
そこで、今回は「ノリノリ文体」を書いているWEBサイトの文章をいくつかピックアップして、その「ノリノリ文体の秘密」を調べてみることにした。今回、ピックアップした文章はまず次の三つである。
- そりを言ってはお終いなのよ fromちゃろん日記(仮) ななゑ さん
- ( http://www.alpha.dti2.ne.jp/~nanae/nikki1999_8m.htm )
- 娘よ from 我が妻との闘争呉エイジ さん
- ( http://www.117.ne.jp/~kure/waga/yome12.html )
- 半角カナを使え! fromとろん 南野 輝 さん
- ( http://www2.justnet.ne.jp/~chic/TRON005.HTML )
そして、次に「男心と女心のギャップ」を全く違う視点から描く、まさに涙ナミダの物語「我が妻との闘争」から涙無しには読めない「娘よ」にも注目したい。
涙でなくて「笑い」と言えば、当然「お笑いパソコン日誌」から辿り、「半角カナを使え!」にも注目してみたい。本当はこの作者が文章を書いている印刷物も手元にあるので、その印刷物とWEBの文章とを比較してみたかったりもしたのだが、今回はパスさせて頂いた。
そして、WEBページの文章ではないが、当然この人
- 私の個人主義 夏目漱石
さて、今回は「文体の特徴の解析」の手段として、「文章構造可視化シリーズ」で作成した"wordfreq"を少し改造して使ってみることにした。以前、のバージョンから少し変えて、ファイルに落とす結果はスムージングをかけないそのままの結果にしてみただけである。とりあえず、そんな"wordfreq"を使い、WEBページの「一段落中の句点(。)と読点( 、)の数」を調べてみたのである。
何故、「一段落中の句点( 。)と読点( 、)の数」に注目したかというと、私はどうも読点の使い方が判らないのだ。文章の各部分が他のどの部分にかかるのかをちゃんと示したいのだが、どうも私の文章は変なのだ。もういっそのこと、文章の各部分がどこにかかるかわかるように各個とか矢印とか使いたくなるくらい、読点の使い方がわからないのである。その結果、読点をどうも多く打ってしまうような気がしているのである。
そこで、その勉強も兼ねて「一段落中の句点( 。)と読点( 、)の数」に注目しながら、WEBページの「ノリノリ文体」を調べてみたいと思うわけだ。
ノミネートされた文章 | 一段落中の句点( 。)の数 | 一段落中の読点( 、)の数 |
私の個人主義 | 7.6 | 11 |
コンクリートの隙間に | 4.4 | 7.6 |
新宿駅は電気羊の夢を見るか | 3.9 | 2.8 |
半角カナを使え! | 1.8 | 2.1 |
娘よ | 1.4 | 0.5 |
そりを言ってはお終いなのよ | 0.4 | 0.9 |
この結果を見てみると、「ちゃろん文体」などは圧倒的に一段落中の句点(。)の数が少ない。また、同じように一段落中の読点( 、)の数も少ない。そして、「我妻文体」も同じように、一段落中の句点(。)の数が少ない。こちらの「我妻文体」は、一段落中の読点( 、)の数の少なさでは今回No.1である。
それに対して、偉大なる漱石の「私の個人主義」では「一段落中の句点(。)と読点( 、)の数」も実に多い。そして、私の書いた文章においても、その数はやはり多い。上の表は「一段落中の句点(。)の数」が多い順に並べてみたが、私の文章は二つとも、漱石の次に「一段落中の句点(。)と読点( 、)の数」が多い。
上の表では
私の個人主義 >> コンクリートの隙間に, 新宿駅は電気羊の夢を見るか >>半角カナを使え!, 娘よ >> そりを言ってはお終いなのよ
となっているが、これはWEBの「ノリノリ文体」とかなり良い一致をするのではないだろうか?つまり、
- WEBの「ノリノリ文体」は一段落中の句点( 。)と読点( 、)の数が少ない程良い
その推定を用いて「娘よ」の文章中における一段落中の読点( 、)の数の変化を眺めてみると面白いことが判る。文章中で、段々と「一段落中の読点(、)の数」が少なくなってきているのである。これは、きっと作者 呉氏が文章を書いている内に、気分が「ノリノリ」になってきて、その心の変化が「ノリノリ文体」としての特徴- 一段落中の読点( 、)の数が少ない - を示し始めたのではないだろうか?
さて、今回はWEBページの「ノリノリ文体の秘密」を簡単に調べてみた。これからも引き続き、その秘密のさらなる姿を見てみたいと思う。そして、いつかその「ノリノリ文体」を私は身につけ、ノリノリWEBページなどを書いてみたりするのである。
とはいえ、それぞれの「文体」には作者の性格も強く現れているわけで、私の性格を直さないことにはそんな「ノリノリ」文体を身につけられないような気もするし、文体だけ真似しても「面白いページ」にはならないとか、形から入ってどうするとかいう声が聞こえそうであるが、それを言ってはダメなのだ。
2000-08-30[n年前へ]
■六の宮の姫君
さがし続けても、見つからない
六の宮の姫君
先日、創元推理文庫から出ている北村薫の「六の宮の姫君」を買った。日常の小さな(時には大きな)謎を解き明かして、そしてさらに奥深い何かを解き明かしていく「円紫師匠と私」シリーズの内の一作である。ハードカバーのものは既に買って持っていたのだが、文庫本についていた解説が面白かったので文庫版もついつい買ってしまった。
この文庫版の解説の中で一番面白かったのは、創元推理文庫から出ているものにはどれも英文のタイトルも付けられているということだった。言われてみれば確かにその通りで、横文字のタイトルが付けられていたのであるが、それを今まで特に気にしたことがなかった。「目の前にあるけど気付かないこと」というのはいたるところにたくさん溢れていて、そういったことを気付かせてくれる解説というのはとても面白いと思う。
北村薫の本で言うと「覆面作家の愛の歌」の角川文庫版の解説なんかもそうで、こちらでは文章の陰に隠れている「もう一つの物語」のことが書いてある。この解説を読まなければ、北村薫のさりげないけれどどうしても書かずにはいられなかった思いを汲み取ることはできなかっただろう。行間に隠されているからこそ、その思いの強さを感じるのだ。というわけで、こちらも当然のごとくハードカバーを持っているにも関わらず、文庫本もやはり買ってしまった。
さて、北村薫の「六の宮の姫君」のもうひとつのタイトルは"A Gateway ToLife"で「人生の門出」である。そして、この話の中の主題の一つともなっている芥川龍之介の「六の宮の姫君」に描かれているのは「人生の中で何かをさがし続けても、見つからなかった人生の終わり」だ。
今回は芥川の「六の宮の姫君」の中に登場する「言葉」を調べてみることで、「六の宮の姫君」の「何かが見つからない=何も見つからない」哀しいようすをそっと見てみたい、と思う。
そこで、
- 青空文庫 ( http://www.aozora.gr.jp/)
- 六の宮の姫君 ( http://www.aozora.gr.jp/cards/akutagawa/htmlfiles/rokunomiya.html )
右が「何も」の出現分布を見れば一目瞭然だと思うが、芥川の「六の宮の姫君」では「姫君」は話の最初から最後まで「何もない・見つからない」ようすで哀しく生きている。ただ、話の終盤で一瞬その「何か」が見えかける。それが、左の「蓮華」である。ただ、それもすぐに「六の宮の姫君」には見えなくなってしまい、また「何もない・見つからない」まま「六の宮の姫君」は一生を終えるのである。
こんな「さがし続けても、見つからない」というような話は、もちろん古い話に限らず現代の歌謡曲などでも数多くある。「探したけれど、見つからないのに...」とかすぐ口づさめるものがきっとあるはずだ。そしてさらにもちろん、そんな「さがしもの」は歌の中だけの話ではない。きっと百人の人がいたら百種類の「さがしもの」があるはずだ。そんな百人百様の「さがしもの」が見つかるか見つからないのか、それは誰にも判らない。