hirax.net::モーニング娘。でクラスタ分析::(2003.02.02)

モーニング娘。でクラスタ分析  share on Tumblr 

グラフ理論で今日からあなたもプロデューサー

 昔からワタシには「手を抜くために色々とクダラナイことをする」という悪い癖がある。しかも、そのクダラナイことをした結果、必ずと言っていいほどに結局のところ苦労が増えまくるという結果になるのである。いわば、ドラえもんの「のび太」がいつもドラえもんの便利な道具に頼り、しかもその道具にしっぺ返しを必ず受けてしまうのを地でいくタイプなのであった。いつも、ワタシは手を抜くための道具を色々と作り、そして必ずそのしっぺ返しを食っていたのである。いわば、ドラえもんののび太とドラえもんを一人二役でマッチポンプのように演じ続けてきたのがワタシのこれまでの人生だったのである。
 

 最初に記憶に残っているそんなワタシの悪い癖は小学生の頃のことだ。生徒会か何かでワタシは募金の集計をしなければならなかったのである。1000人を遙かに超える生徒がせっせと集めた募金なのだから、硬貨にしても膨大な枚数だった。といっても、ほとんどは一円玉とか10円玉だったのだから、それほどの金額ではなかったのだろうけれど、とにかく膨大な枚数だったのである。

 そこで、ワタシは「ここは硬貨の重さを量って、金額を計算してみるのはどうだろうか?」と提案してみたのである。各硬貨の一枚当たりの重さは判っているわけだし、各硬貨に分けた上で全部の重さを量ってそれで金額に換算しちゃえば楽じゃないの、と提案してみたのである。ゼニ勘定に疲れていた周りの人々もその提案に喜び、「重さの誤差はどのくらいあると思う?」などとガヤガヤと計算しながら、みんなでせっせと硬貨を袋に入れて重さを計り始めたのである。

 そして、机の上に重さを量り終わった硬貨の袋が何袋も並ぶ頃、そんな小さな銀行泥棒たちが盗んだお金を袋に入れてる最中のような様子を小学校の先生が発見してしまったのである。そして、当然のごとく私たちは先生にこっぴどく怒られたのである。「みんなが苦労して集めたお金のありがたさが判っていない」と当然のおしかりを強く強~く受けたわけである。「算数の問題解いてるんじゃぁないんだから!」とこっぴどく怒られたわけなのである。結局、私たちは硬貨の袋から硬貨を取り出して一枚一枚数え直すことになったのであった。もちろん、他の人をそそのかしたワタシに対する周りの視線は非常にキツく、ワタシの疲れも倍増したのであった。最初から硬貨の数を数えた方がよっぽど楽だったのである。
 

 大人になってしまったワタシは今だにそんな「手を抜くための道具」を作り、そしてしっぺ返しを食らい続けている。三つ子の魂百まで、というわけなのであるが、今回は少し前にやってしまったそんな失敗を反省を含めて書いておこうと思う。
 

 ワタシは仕事の上で色々な調査をしなければならないことがある。例えば、他のライバル会社がどんなことをしているかとか、あるいは、もっと詳しくライバル会社の中の人たちがどんな風に繋がっているか、とかを調べなければならなかったりすることがある。色々な発表資料を読んだり膨大な数の特許を読んだりして、そこに登場してくる人たちの関係を調べて、色々な推定をしていかなければならない。そのためには、たくさんの書類を調べなければならないわけで結構これがシンドイ作業なのである。

 で、ワタシはこう考えたのだった。数百件もあるいは数千件も色々なものを読んで、その中に登場する人たちの関係を推定するなんてツライから、「たくさんの文書を勝手に読んで、勝手にその文章からライバル会社の中の人の関係を推定するソフト」を作っちゃえ~、と思ったのである。手を抜くためのクダラナイことのためには、苦労をいとわないワタシはそんなゴリゴリゴリゴリ真面目にそんなソフトを作ったのであった。「たくさんの文章の作者を調べ、その共著の関係から著者間の関係を調べる」というそんなソフトをせっせと作ってみたのである。そして作った後は、もちろんソフトのテストをしてみよう~、ということになった。

 じゃぁ、そのサンプルデータは何を使ってみようかなと考えている時に、頭の中のどこかでモーニング娘。の「ここにいるぜぇ!」が流れ始めたのである。そこで、ワタシはモーニング娘。を含むハロープロジェクトを他社に見立てて、これまでに発売されたCDに参加している頻度・関係性等から、ハロープロジェクト内の「それぞれの人の配置」を調べてみることにしたのであった。

 というわけで、つんく率いるハロープロジェクト関連で発売されているCDの枚数(なんと80枚以上だ!)に驚きながらも、CDに参加しているメンバーのデータをソフトに流し込んで、適当な各メンバーの関連性を示す数値を計算した上で、まずは各メンバーを近いものに分けるために、クラスタ分析してみた。ここで、解析ソフトは各CDに誰が参加しているかだけを知っていて、「モーニング娘。」とか「タンポポ」とかのグループが結成されていることは知らないのであるが、とにかくハロープロジェクトの中の各メンバーの「組織図」が判るわけだ。(ちなみに、ここでは似通ったものを樹形図(似通った度合いを示すグラフ、会社で言えば組織図みたいなもの)として表示するために、「Excelアドイン工房」のクラスタ分析アドインを使っている。)
 

 まずは、前半41作のCDから推定したハロープロジェクトの中の各メンバーの関係性を示したのが下のグラフである。
 

前半41作のCDから推定した各メンバーの関係性

 この樹形図グラフを眺めれば、(CDのカップリングから判断される)で誰と誰が結構近い関係にあるか、というようなことが判るハズである。といっても、このグラフでは色々なメンバーが参加したアルバムもあるいは一つのグループだけが歌うシングルも同じ重みで計算していたりするので、モーニング娘。あたりのファンの感覚からは大きくずれるかもしれないけれど、とにかくこんな「組織図」が計算されるのである。

 上の前半41作から計算した樹形図の方は結構シンプルなものなのだけれど、次に示す後半41作のCDから推定した後半41作のCDから推定した各メンバーの関係性の方はもう少し複雑だ。組織的にライバル会社ハロープロジェクトは前半より複雑になってきているのである。
 

後半41作のCDから推定した各メンバーの関係性

 こんな感じで、他社(ここではハロープロジェクトをそれに見立てたが)の発表資料(特許とか製品報告とか)からこんな各メンバーの組織図を示す解析ソフトを作ってみたわけなのだけれど、これではどうも不十分なのである。どうしてかといえば、各メンバーの結びつきがこの樹形図ではどうしても判りにくいのである。こんな風に各メンバーが一次元に並んでいる図ではどうも今ひとつ判らないことも多いのである。そこで、ワタシはさらに「各メンバーの結びつきを示す二次元グラフ」を出力することにしたのである。誰と誰がどのくらい近い関係にあるかなどを判りやすく表示させてみたのだった。そんなサンプルを少ないデータで表示させてみたのが下のグラフだ。モーニング娘。のメンバーの関係が判りやすい?グラフになっているのが判ると思う。
 

各メンバーの結びつきを示す二次元配置グラフ
alt="Meian Java" Your browser is completely ignoring the <APPLET> tag!

 このグラフ上で各メンバーを動かせば、「飯田をこっちへ持っていけばどうなる?あー、安部がそっちへ行っちゃったよー。どうするー?」というような具合で、各メンバーの配置やプロジェクトのメンバー編成などを実験することができるのである。グラフ理論で今日からあなたもプロデューサーなのである。グラフぐりぐりで、今日からあなたもつんくなのである。グラフ配置で誰でもつんくの気持ちになれるのである。
 

 という感じで、ソフトのテスト(になっていたのだろうか?)を終えたワタシはライバル会社の組織図を作ったのである。で、それを使いながら「この人たちはきっとこんな感じの組織になっているんですよー。そして、こんな感じでその組織は変化していったんですよー」なんて報告をしたのである。すると「おぉー、これは結構使えるかもー、なかなかスゴイぞー」となかなかに良い反応だったのである。

 そこで、さらにワタシは調子に乗って「ライバル会社の各メンバーの結びつきを示す二次元配置グラフ」の方で「この人をこっちに近づけるとこの人がこっちへー、これがライバル会社の人間関係なんですよー、ほらほら~」と見せたりすると、もうこれが「おぉぅ…? …これは何て言ったら良いのかなぁ…?スゴイ…んだけどなぁ……」と逆効果どころじゃなくもう引きまくりだったのである。そして、引いてしまった引き潮をもうどうにもすることもできないままに、結局そのグラフはお蔵入りしてしまったのであった。結局のところ当たり前のようにワタシはたくさんの書類をせっせと読まなければならなくなったのである。いつものように、手を抜くために色々とクダラナイことをして、結局のところ作業量は全然減らなかったのである。昔の小さな銀行泥棒の根性は全然直っていなかったのである。のび太とドラえもんの一人二役マッチポンプ人生はまだまだ終えられそうにないのが、ちょっと哀しい今日この頃、なのである。

この記事と関係がある他の記事