1999-08-29[n年前へ]
■「私と好みが似てる人」 その3
ドメイン一覧とreferer log
www.hirax.netはレンタルサーバー上で稼動している。1999/6月からレンタルサーバー業者を変えた。業者を変えた一番目の理由は、それまで依頼していた業者の規約で定められているデータ転送量を超えてしまう恐れがあったことである。もし、転送量を超えると割に高額な追加料金が発生してしまうのであった。安い居酒屋がある瞬間からボッタクリバーに早変わりしてしまうのである。
今回、レンタルサーバー業者を変えた後の3ヶ月間のLog解析をしてみた。以前、
私と好みが似てる人 - analog Windows版用のサブドメイン解析ソフトを作る- (1999.01.24)
でドメイン名から機関名への変換ソフトを作成したが、何しろ32kBまでのドメインリストにしか対応していないのでほとんど役に立たない。むしろ役に立ってしまっては(WHOISサーバーの負荷上)困るのである。従って、前回と同様のドメイン名とその名称の解析をするためには、ドメイン名リストの一覧を手に入れる必要がある。今回ドメイン解析をするために、「日本ドメイン一覧」を手に入れることにした。
かつてはJPNICの公開文書( ftp://ftp.nic.ad.jp/pub/jpnic/)から日本ドメイン一覧等の文書は自由に手に入れることができた。しかし、現在はフリーでは公開されていない。ftp://ftp.nic.ad.jp/pub/jpnic/domain-list.txtの中から引用すると、
これまで JPNIC では、JP ドメイン名リストと IP アドレスリストを ftpサービスによって一般公開してきましたが、プライバシー保護およびセキュリティ保全のため、1999年5月11日(火) より原則的に一般非公開といたしました。 JPドメイン名リスト、IPアドレスリストの利用申請については以下のURL をご覧下さい。 http://www.nic.ad.jp/jp/db/application.html関連文書: 『JPドメインのDNSゾーン情報・逆引き情報転送停止および JPドメインリスト等の配布停止について』 http://www.nic.ad.jp/jp/topics/archive/19990401-01.html |
しかし、FTPsearchで探してみると、その残骸らしきものがいくつかあった。例えば、
6.3M 1999 Feb 19 ftp.web.ad.jp /pub/Internet-Document/jpnic/domain/domain-list.txt
などだ。
このファイルを見ると、将来(といってもこのファイルはすでに現在のものではないが)使用されるであろうドメイン名が予約されており、面白い。
(hichiyahigashi-e # *予約ドメイン名* 日知屋東小学校)(hida-sh # *予約ドメイン名* 岐阜県立飛騨養護学校)(hida-sh-b # *予約ドメイン名* 岐阜県立飛騨養護学校高山日赤分校)(hidaka-ao-e # *予約ドメイン名* 阿尾小学校)(hidaka-chisaka-e # *予約ドメイン名* 千栄小学校)(hidaka-fuchu-e # *予約ドメイン名* 府中小学校)
今回はこのファイルを加工して、Logファイル解析ソフトのanalogで使用することにした。そうすると、日本国内のドメインからのわかりやすいアクセス解析をすることができる。試しにCO.JPドメインとAC.JPドメインの解析サンプルを示してみる。
%PAGE %Bytes
1205: 1.51%: SONY.CO.JP (ソニー株式会社)
794: 1.99%: NEC.CO.JP (日本電気株式会社)
607: 0.12%: SQUARE.CO.JP (株式会社スクウェア)
600: 1.09%: ADVANTEST.CO.JP(株式会社アドバンテスト)
548: 0.75%: HITACHI.CO.JP(株式会社日立製作所)
410: 0.66%: CANON.CO.JP (キヤノン株式会社)
395: 0.42%: FUJITSU.CO.JP(富士通株式会社)
313: 0.68%: FUJIXEROX.CO.JP(富士ゼロックス株式会社)
279: 0.54%: TOSHIBA.CO.JP(株式会社東芝)
267: 0.34%: SHARP.CO.JP (シャープ株式会社)
234: 0.30%: RICOH.CO.JP (株式会社リコー)
企業の人数の割にSONY,SQUARE,ADVANTESTといった企業はアクセス数が多いように思う。「私と好みが似ている人」が多いようである。また、namcoもこのすぐ下に位置しているので、SQUARE,Namco,Sonyというゲーム関係の企業が「私と好みが似ている」のかもしれない。
下は、AC.JPドメイン。
%PAGE %Bytes
761: 1.16%: U-TOKYO.AC.JP(東京大学)
672: 1.92%: KYUSHU-U.AC.JP(九州大学)
425: 1.09%: CHITOSE.AC.JP(千歳科学技術大学)
330: 0.45%: KYOTO-U.AC.JP(京都大学)
329: 0.32%: WASEDA.AC.JP (早稲田大学)
265: 0.39%: OSAKA-U.AC.JP(大阪大学)
230: 0.30%: HOKUDAI.AC.JP(北海道大学)
205: 0.39%: CHIBA-U.AC.JP(千葉大学)
168: 0.23%: HIROSHIMA-U.AC.JP(広島大学)
164: 0.80%: TSUKUBA.AC.JP(筑波大学)
163: 0.53%: TITECH.AC.JP (東京工業大学)
WEBのLog解析をして何が一番面白いかというと、知らなかった面白いことが載っているWEBを知ることができることである。どこかのWEBページからwww.hirax.netへのリンクがされて、それによりwww.hirax.netへ辿りつく様子はrefererlogを見ればわかるのである。試しにreferer logを解析した結果のサンプルを示してみる。
#reqs: URL
----- ---
1132: http://www.maqmakmac.com/
355: http://www.cds.co.jp/ff/bbs/minibbs.cgi
155: http://freebee.saccess.co.jp/~gridman/gfx/99summer.html
147: http://www.cds-co.com/ff/main.html
138: http://www.cds.co.jp/ff/main.html
114: http://www.jin.gr.jp/~nahi/link-misc.html
114: http://www2s.biglobe.ne.jp/~chic/pilot.html
82: http://www.puppenhaus.co.jp/mirror-site/fukatsu-eri.htm
63: http://www.cds-co.com/ff/zakki.htm
57: http://www.t3.rim.or.jp/~munemasa/links.html
57: http://www2.saccess.co.jp/~gridman/gfx/99summer.html
そして、そのrefer元の持つ情報は私にとってとても面白いのである。www.hirax.netにリンクを貼っているページの作者というのは大抵「私と好みが似てる人」であるし、なおかつ、私ではない。ということは、そこには
- 私の好みに合っていて、
- 私がちっとも知らないこと
そういったWEBを探そうと思っても、それはとても困難である。何しろ、キーワード検索ができないのである。キーワードで調べるにも「私がちっとも知らないこと」であるから、そのキーワードを私が思いつくはずがないのである。というわけで、「好みに合っていて、(私のちっとも知らないことが多い)新鮮なページを見つけるのは難しい」のであった。
しかし、それも今では違う。www.hirax.netのreferer logを見るとそういったWEBを見つけることができるのである。これがとても嬉しいのである。
2000-07-27[n年前へ]
■あなたと好みが似てるトコ
私と好みが似てる人 その5
もう暑い夏が始まったようだ。東京にいた頃は、夏ともなれば就職活動中の学生を数多く見かけたものであるが、引っ越してしまってからはそんな風物詩も見かけなくなってしまった。田舎に住んでいる私には判らないが、今でもリクルートスーツに身をくるんだ学生が街の中を歩いていることだろう。
HIRAX.NETにも様々な学校からのアクセスがある。その中には今年就職活動をしている学生や、数年後に就職を控えた学生もきっといるのではないだろうか?そこで、今回は就職を控えた学生のためにHIRAX.NETへのアクセス数が多い会社を調べて、「あなたと好みが似ている会社」を調べてみたい、と思う。また、いつもと同じく*.ac.jpからのアクセス順位も調べてみることで、大学入試を控えた学生・その他の人のために「あなたと好みが似ている学校」も調べてみることにしたいと思う。
そう、今回は題して「あなたと好みが似てるトコ」である。さて、前回HIRAX.NETへのアクセス元を解析してみた
の時は、*.co.jpドメインのトップ11は%PAGE %Bytesとなっていたし、*.ac.jpドメインは
1205: 1.51%: SONY.CO.JP (ソニー株式会社)
794: 1.99%: NEC.CO.JP (日本電気株式会社)
607: 0.12%: SQUARE.CO.JP (株式会社スクウェア)
600: 1.09%: ADVANTEST.CO.JP (株式会社アドバンテスト)
548: 0.75%: HITACHI.CO.JP (株式会社日立製作所)
410: 0.66%: CANON.CO.JP (キヤノン株式会社)
395: 0.42%: FUJITSU.CO.JP (富士通株式会社)
313: 0.68%: FUJIXEROX.CO.JP (富士ゼロックス株式会社)
279: 0.54%: TOSHIBA.CO.JP (株式会社東芝)
267: 0.34%: SHARP.CO.JP (シャープ株式会社)
234: 0.30%: RICOH.CO.JP (株式会社リコー)
%PAGE %Bytesとなっていた。つまり、1999年度の「あなたと好みが似てるトコ」ベスト1はソニー株式会社であったし、「あなたと好みが似てる学校」は東京大学であった。それでは、最近はどうなっているのだろうか?
761: 1.16%: U-TOKYO.AC.JP (東京大学)
672: 1.92%: KYUSHU-U.AC.JP (九州大学)
425: 1.09%: CHITOSE.AC.JP(千歳科学技術大学)
330: 0.45%: KYOTO-U.AC.JP (京都大学)
329: 0.32%: WASEDA.AC.JP (早稲田大学)
265: 0.39%: OSAKA-U.AC.JP (大阪大学)
230: 0.30%: HOKUDAI.AC.JP (北海道大学)
205: 0.39%: CHIBA-U.AC.JP (千葉大学)
168: 0.23%: HIROSHIMA-U.AC.JP (広島大学)
164: 0.80%: TSUKUBA.AC.JP (筑波大学)
163: 0.53%: TITECH.AC.JP (東京工業大学)
先月の2000/06の一ヶ月の間にHIRAX.NETへは計174,914ページのページ・アクセスがあった。そして、アクセス数が多いアクセス元はこんな感じになる。電気・OA機器メーカーからのアクセスが多いのが本サイトの特徴でもある。といっても、技術系サイトであればそれはどこも同じなのだろう。なお、おそらく有限会社回路設計サービスに関してはロボットだと想像している。
こうしてみるとアクセス数の多いところは、前回とそれほど変わっていないことがわかる。ただし、前回のダントツ一位(そして技術系学生には人気No.1)のSONYが少し落ちてきているのが残念である。
#reqs: %bytes: domainただ、こうしてしまうとどうしても人数の多いトコロはアクセス数が増えてしまう。もちろん、人数が多いところはProxyのキャッシュなども結構あるので、見かけ上のアクセス数はかなり減るだろう。ただ、それにしても人数の多いトコロはどうしてもアクセス数が増えざるをえない。
------: ------: ------
162873: 87.13%: .jp (Japan)
89828: 41.35%: ne.jp (日本のネットワークサービス)
31709: 20.72%: co.jp (日本の企業(または営利法人))
1577: 1.72%: nec.co.jp (日本電気)
1520: 3.02%: cds.co.jp (有限会社回路設計サービス)
764: 0.57%: hitachi.co.jp(株式会社日立製作所)
726: 1.65%: canon.co.jp(キヤノン)
670: 0.33%: toshiba.co.jp(東芝)
588: 0.33%: sony.co.jp(SONY)
539: 0.31%: fujitsu.co.jp(富士通)
385: 0.04%: square.co.jp(square.co.jp)
370: 0.20%: fujixerox.co.jp(富士ゼロックス株式会社)
369: 0.18%: mei.co.jp(松下電器産業株式会社)
304: 0.22%: sharp.co.jp(シャープ 株式会社)
244: 0.13%: ricoh.co.jp(リコー)
218: 0.16%: ibm.co.jp(IBM Japan)
211: 0.27%: ntt.co.jp(NTT)
152: 0.09%: epson.co.jp(Epson)
......13997: 8.46%: ac.jp (日本の教育および学術機関)
2740: 0.70%: KYOTO-U.AC.JP(京都大学)
941: 0.68%: U-TOKYO.AC.JP(東京大学)
592: 1.13%: BUNKYO.AC.JP(文教大学)
536: 0.14%: HOKUDAI.AC.JP(北海道大学)
395: 0.16%: NAGAOKAUT.AC.JP(長岡技術科学大学)
358: 0.29%: KYUSHU-U.AC.JP(九州大学)
352: 0.12%: JAIST.AC.JP(北陸先端科学技術大学院大学)
318: 0.20%: OSAKA-U.AC.JP(大阪大学)
295: 0.32%: TITECH.AC.JP(東京工業大学)
256: 0.24%: TOHOKU.AC.JP(東北大学)
.......13811: 8.23%: or.jp (日本の団体)
11156: 7.23%: ad.jp (日本のJPNIC会員ネットワーク)
761: 0.48%: go.jp (日本国政府機関)
480: 0.10%: gr.jp (日本の法人格を有しない団体)
10662: 6.80%: [unresolved numerical addresses]
4294: 2.19%: .net (Network)
3855: 2.25%: .com (Commercial)
3685: 0.11%: .org (Non-Profit Making Organisations)
2321: 0.72%: [domain not given]
192: 0.19%: .edu (USA Educational)
82: 0.17%: .gov (USA Government)
61: 0.04%: .be (Belgium)
45: 0.03%: .fr (France)
44: 0.04%: .de (Germany)
38: 0.02%: .to (Tonga)
34: 0.03%: .my (Malaysia)
22: 0.03%: .arpa (Old style Arpanet)
22: 0.02%: .uk (United Kingdom)
20: 0.02%: .ca (Canada)
20: 0.02%: .br (Brazil)
.......
そこで、アクセス数上位の企業の従業員数を調べて、「従業員一人あたりのアクセスページ数の順位」を調べてみた。それが次の表である。
ページアクセス数順位 | 会社名 | ページアクセス数 | 従業員数 | 従業員一人あたりのアクセスページ数 | 従業員一人あたりのアクセスページ数の順位 |
1 | NEC | 1577 | 37078 | 0.04253 | 2 |
2 | 回路設計サービス | 1520 | ? | ? | ? |
3 | 日立製作所 | 764 | 59692 | 0.01280 | 7 |
4 | キヤノン | 726 | 21023 | 0.03453 | 3 |
5 | 東芝 | 670 | 56746 | 0.01181 | 10 |
6 | SONY | 588 | 19187 | 0.03065 | 4 |
7 | 富士通 | 539 | 43627 | 0.01235 | 9 |
8 | SQUARE | 385 | 686 | 0.56122 | 1 |
9 | 富士ゼロックス | 370 | 15258 | 0.02425 | 5 |
10 | 松下電器 | 369 | 275962 | 0.00134 | 13 |
11 | シャープ | 304 | 23800 | 0.01277 | 8 |
12 | リコー | 244 | 67300 | 0.00363 | 12 |
13 | IBM Japan | 218 | 21401 | 0.01019 | 11 |
14 | NTT | 211 | ? | ? | ? |
15 | Epson | 152 | 11000 | 0.01382 | 6 |
ただし、
- 有限会社回路設計サービス
- NTT (こちらは私が調べるのを面倒くさがっただけ)
さて、結局「従業員一人あたりのアクセスページ数の順位」で一位となったのは、SQUAREでなんと従業員一人あたり、0.56ページ/月を見ていることになる。おやおや、これはおかしい。かなり、多すぎる。こりゃ、SQUAREも更新チェック用のロボットかな。それ以外の企業の場合だと「従業員一人あたりのアクセスページ数」は大体0.0*ページ/月である。平均すると、100人いたらその内の数人が一回見に来たことがある、という感じか。まぁ、実際にはもっと少ないだろうが。
前回、アクセス数一位だったSONYはアクセス数では6位にランクを落とし、「従業員一人あたりのアクセスページ数の順位」ではそれでも4位と健闘しているが、それでも苦戦していると言えるだろう。いやいや、これはもしかしたら先月の「できるかな?」のコンテンツ
- オッパイ星人の力学 - 胸のヤング率編 - (2000.06.29)
- カラープリンターの選手宣誓 - ICCファイルを眺めてみよう その2 - (2000.06.28)
- 「色っぽい声」の秘密 - キャバクラ嬢は英語が上手い!? - (2000.06.24)
- プリクラの中の物語 - プリクラもどきソフトを作ろう 第一回 - (2000.06.19)
- ヘルメットの色空間分布 - 学生運動の色空間とグラフ配置 - (2000.06.16)
- [Scraps]コンクリートの隙間に - 足元にあるカメラオブスクラ - (2000.06.13)
- 毛髪力のガウスの法則 - ハゲの物理学 「第五の力」編 - (2000.06.07)
- WEBページの迷路の中で - 未来の地図を手に持って - (2000.06.04)
うーん、この場を借りて言っておきたいのだが、先月の6月後半から今月に至るまでのコンテンツについては、ある事情により「私の趣味」とはかなり異なるものが多い。それを強くここに断っておきたい。いや、本当に本当なのです。
ちなみに*.ac.jpドメインに関しては、新顔「文教大学」が登場している以外は定番どころが集まっている。ちょっと不思議なのが、慶応大学・早稲田大学のような人数も多いマンモス校が11位、14位とトップ10に入っていないことである。何故だろう?
とりあえず、今回の結論は「あなたと好みが似てるトコ」ベスト1は学校で言えば京都大学で、企業で言うとSQUARE(とりあえず)ということになる。また、大学に関しては人数比率からすれば文教大学もお薦めかもしれない。なお、念のために書いておくが、本サイトはその真偽については保証しないの。念のため。
2002-12-15[n年前へ]
■引っ越し前の大掃除
私と好みが似てる人 その6
hirax.netが生まれたのが1998年の年末だったから、はや四年も経ったことになる。最初の頃、ほんの少しの間だけは共用サーバーで動かしていたのけれども、しばらくしてからは専用サーバーに移行したのだった。といっても、別に好き好んで移転したわけではなくて、単に転送量超過料金が怖かったからである。何しろ、その頃借りていた共用サーバーは1GB/月までは一定料金なのだけれど、それを超えると8円/1MBで追加料金がかかるのである。例えば、2GB/月になってしまうと、追加料金で+8000円かかることになるし、それが3GB/月では+16000円になってしまうというなかなかにシビアな料金体系だったのである。
そんなこともあって移行した先のサーバーマシンは、今となってはかなり心許ないスペックのPentium133MHz, RAM 32MBというスペックであったのだけれど、これまでは特に問題もなく今までせっせと動いてきた。ファイルをただただ転送している分には、こんなスペックのマシンでもノープロブレムだったし、何より転送量を気にしなくていいのが安心できた。
しかし、最近では「いろいろ」ページのCGIが重くなったりしたこともあって、CGIページなどにアクセスが集中したりすると、マシンの反応が悪くなってしまうことが多くなった。そして、ひどい時にはメールチェックすらできなくなったりするようになってしまったのである。本来ならば、ログ解析でもしてボトルネックになっているところを改善でもすれば良かったのかもしれないけれど、元々が無精であるし、何より面倒くさいことが大キライなので、サーバーをいっそのこともう少し速いものに交換してしまうことにしたのである。とはいえ、サーバー交換記念に今回恒例のログ解析-私と好みが似てる人 -を二年半ぶりにやってみようと思う。ということで、「引っ越し前の大掃除、私と好みが似てる人その6」を始めようと思う。
ところで、大掃除とは言っても、残念ながら以前のログは残っていないので、先月('02/11)の一ヶ月間のログを解析してみると、hirax.netへは45万ページ/月ほどのアクセスがあったようだ。データ転送量で言うとちょうど1GB/日になる。月の転送量が30GBということは、一番最初のレンタルサーバー会社なら+23万2千円/月の追加料金ナリということになるので、サーバーを移転しておいて良かったとしか言いようがないのである。
そして、まずはこれらのアクセスのアクセス元のドメインを見てみると次のグラフのようになる。異文化コミュニケーション能力に欠けるワタシは日本語ページしか作っていないので、ほとんどのアクセス、おおよそ4分の3が.jpドメインからとなっている。そして、さまざまな国から1%弱(とはいえ、5000ページ/月くらいか)のアクセスが海外の日本人(あるいは各国のロボット)からあるようだ。
そして、ドメイン毎の円グラフを眺めてみると、YahooBBの躍進に驚く。一割近くがYahooBB(bbtec.bet)からのアクセスだった。そして、自宅などからのアクセスが企業や学校からのアクセスを凌駕していることも判る。
ところで、hirax.netへのアクセスの中でおよそ半分の20万ページほどが「できるかな?」へのアクセスで、残りの25万ページアクセスが「いろいろ」ページへのものだった。「いろいろ(最近はタイトルがinsideoutなんて変わっているけれど)」の方は時折り単なる写真日記になっていたりするし、単なるメモ帳になっていたりもするので、そのページを読む人が判ったところでその人たちが「どんな好み」なのかは結局のところよく判らないとしか言いようがない。そこで、とりあえず「できるかな?」ディレクトリへのアクセスだけを抽出して、"co.jp"と"ac.jp"からのそれぞれのアクセスランキングを調べてみた。そうすれば、「hirax.netと好みが似てる」企業や教育機関、「hirax.netに門戸を開いているところ」が判るというわけである。
まずは、「できるかな?」への"co.jp"アクセスランキングを下に示してみよう。トップ10までの企業のアクセス分で過半数を超えていることが面白いところだ。三位までの富士通、ソニー、富士ゼロックスといった辺りのメンツは前回もトップ10入りしていた「できるかな?」の常連である。そして、昨今の企業や学校・公共機関などで盛んになっている「アクセス制限」をhirax.netに対して行っていない心の広い企業なのである。
次は、「できるかな?」への日本の教育機関"ac.jp"からのアクセスである。こちらの方もトップ10までで過半数を超えている。こちらの方も先の企業と同じく「アクセス制限」をhirax.netに対して行っていない心のゆとりがある学校なのである。
そして、各々のトップ10を並べて、アクセスランキングを見てみると次の表のようになる。
というわけで、これが「2002/11の「できるかな?」へのアクセスランキング」である。つまりは、2002年版「hirax.netと好みが似てるとこ」ということで、もしも大学進学や就職活動を考える人がいるならば、このhirax.netお勧めランキングの辺りでも何かの参考にしてもらえればと思うのである。
さてさて、何はともあれ今週からhirax.netは引っ越し作業に入ります。というわけで、何か不具合やリンク切れなど見かけましたら、ぜひワタシ(jun@hirax.net)お知らせ下さい。リンク切れなんかはログ見れば判るはずと思われるかもしれないですが、何しろこんな感じでログ解析をろくにしないワタクシなものですから、ぜひぜひよろしくお願いします。今回は引っ越しの告知代わりの単なるログ解析でした。次回の「できるかな?」は新サーバーからになるか、旧サーバーからになるかは判りませんが、とにかく引っ越し中でどたばたしているのでした、ハイ。
2005-03-22[n年前へ]
2006-06-22[n年前へ]
■「OpenCVによる実践画像処理」
木曜・金曜と「OpenCVによる実践画像処理」という講座を受講していた。Intel社が無償で提供しているコンピュータ・ビジョン向けのライブラリOpenCVの概略・使い方紹介を東京工業大学 精密工学研究所nの佐藤教授らが教える、という講座だ。時間のほとんどは、サンプルコードを使いながらの実習として使われていて、なかなか楽しくOpenCVを知ることができた。
1日目の終わりに、受講者に対し「今日を踏まえて、2日目はどのようにやりたいですか?」というようなことを聞かれた。「実習の時間が短い」という意見が出る一方で、「サンプルコードをコピペしてしまえば済むような実習では身にならず面白くない」という意見も出た(出したのは私だが)。
…というわけで、2日目は「サンプルコード無しで、長い実習時間を使い、講師に質問しつつプログラムを作る」という実習形式になった。個人的には、実習時間をもっと短くて・課題を増やしてもらいたかったような気もするが、それでもとても身になった。…しかし、その結果、「実習の時間が短い」という意見を出した受講者は実にご機嫌がよろしくなかった。…その怒りの矛先が向いてしまった講師の方には、悪いことをしてしまった。