■「私と好みが同じ人」
analog Windows版用のサブドメイン解析ソフトを作る
はじめに
http://www.hirax.net/(このサイト)にどのような人がアクセスしているか知りたくなった。何しろ、作者の私でさえ辿り着くのにかなり苦労するようなサイトである。そこにわざわざ辿り着くような人はどんな人なのか、知りたいと思うのは自然の摂理である。その人達は私と好みが似ている人かもしれない。analog windows版(日本語)
このサイトではhttpサーバーとしてApacheが使われている。このログ解析をするために、ログ解析ソフトであるanalogを使ってみる。そこで、まずはhttp://jolt.ime.yamagata-cit.ac.jp/
からanalogのwindows版(日本語)をダウンロードする。
これを使うと例えば、
というような解析ができる。もちろん、上の画像は結果のごく一部である。
ドメイン解析をするためには、analogの設定ファイルである"Analog.cfg"の中に、
DNSFILE dnsfile.txt
DNS LOOKUP
DNS WRITE
と記述をしてやる。これをしないとIPアドレスからドメイン名への検索をしてくれない。
そうすると、こんな感じになる。
canon.co.jp
sony.co.jp
atr.co.jp
infocom.co.jp
saitama-u.ac.jp
kokushikan.ac.jp
ritsumei.ac.jp
keio.ac.jp
rr.com
しかし、これでもまだよくわからない。日本人としては漢字で、しかも、もっとわかりやすい名前で知りたい。
そこで、"Analog.cfg"の中でサブドメインの指定をしてやる。こういう記述である。
SUBDOMAIN aichi-gakuin.ac.jp '愛知学院大学'
SUBDOMAIN aitech.ac.jp '愛知工業大学'
SUBDOMAIN anabuki-c.ac.jp '穴吹情報専門学校'
SUBDOMAIN ashigei '芦屋芸術情報専門学校'
SUBDOMAIN aist-nara.ac.jp '奈良先端科学技術大学院大学'
そうするとこうなる。
canon.co.jp
sony.co.jp
atr.co.jp
infocom.co.jp
saitama-u.ac.jp (埼玉大学)
kokushikan.ac.jp (国士舘大学)
ritsumei.ac.jp (立命館大学)
keio.ac.jp (慶應義塾大学)
rr.com
Whois解析プログラムをつくる
acドメインなどはanalogのwindows版(日本語)に付属のもので間に合うのだが、co.jpドメインなどはほとんど記述されていない。そのため、coドメインに関しては何らかの方法で"Analog.cfg"の中の記述を補充してやる必要がある。 そこで、ドメイン名から詳しい名称を調べて、"Analog.cfg"用に加工するソフトをつくることにした。
私の設定ではanalogはdnsfile.txtというファイルにアクセスしてきたdomainのリストを出力する。
DNSFILE dnsfile.txt
という指定のためである。そこで、このファイルを元に
whois プロトコル
でそれぞれドメインの詳細を調べてやれば良いだろう。
まずはwhoisプロトコルの情報を
rfc-jp ML (http://www.imasy.or.jp/~masaka/rfc-jp/)
から辿って
Referral WhoisProtocol (RWhois) (http://www.imasy.or.jp/archives/rfc/rfc1714.txt)
を手に入れる。また、whoisのサーバーとしては
whois.nic.ad.jp
にポート43でアクセスする。あとはプログラムを組むだけである。
今回はC++Builder Professional版を使うので、TCP/IP関連にはあまり気を遣う必要がない。日本語コード、改行コードの変換には、
EarthWave Soft(IKEDA Takahiro)氏作成の
Delphi 用 文字コード変換ライブラリユニット jconvert.pas 1.4
http://www.os.rim.or.jp/~ikeda/
を使用してやる。今回はjpドメインの検索だけにした。それ以外のドメインについては検索をしない。
以下の画像が今回作成したプログラムの動作中の画面である。ドメインの詳細について解析しているのがわかるだろう。
これが今回作成したプログラムである。
WhoisPro.exe (whoispro.lzh 165kB) プログラム本体
domain.txt (domain.lzh 2kB) ドメインの詳細のキャッシュファイル
これらを解凍したものを"analog.exe"と同じディレクトリ(つまり、dnsfile.txtと同じディレクトリ)において実行すればよい。解析のスピードはトラックバーで変えることができる(はずだ.しかし、.あまり早くすると動作しなくなるだろう。)。
解析が終わったら解析結果を手動でコピーして"Analog.cfg"に貼り付けてやれば良い。最後の所は手動の方が安心できて良い。何しろ自分のプログラムほど信用できない物はないからである。
このプログラムは解析が終了するのに、かなりの時間がかかる。何しろ一つのドメインあたり数秒かかる。したがって、このようなプログラムを使えるのはアクセスがほとんど無いようなサイトだけだろう。アクセスが激しいサイトでは、とても使えないと思う。また、whois.nic.ad.jpに負担がかかってしまうだろう。
「私と好みが似てる人」
さて、このプログラムを使い、"Analog.cfg"を補充した上でanalogで解析した結果の一部が以下である。これが「私と好みが似てる人」である。もっとも、この中の一つはそうとも言えないのだが... : 16.61%: canon.co.jp (キヤノン)
: 15.64%: sony.co.jp (SONY)
: 5.60%: atr.co.jp (株式会社国際電気通信基礎技術研究所)
: 4.22%: infocom.co.jp (日商岩井)
: 2.80%: waco.co.jp (ワコービジネス)
: 5.44%: odn.ad.jp (オープンデータネットワーク)
: 4.22%: nttpc.ne.jp (ISP事業者向けネットワーク提供サービス)
: 1.26%: att.ne.jp (日本AT&T株式会社)
: 5.76%: saitama-u.ac.jp (埼玉大学)
: 1.08%: kokushikan.ac.jp(国士舘大学)
: 0.90%: ritsumei.ac.jp (立命館大学)
: 0.50%: keio.ac.jp (慶應義塾大学)
関西系の大学が多いのは「鴨川カップル」のせいだろうか? また、慶應義塾大学といっても、全てがSFC(湘南キャンパス)であったのは面白かった。