2001-04-29[n年前へ]
■ファイト!縦文字文化
縦と横の解像度を考えよう
今年も去年に引き続き英語研修を受けている。といっても、去年は毎日十五分の英語研修だったが、今年は週二日のものを二種類受けている。何事も、「一番弱いところを強くするのが一番」というわけで、それが私の場合は英語であるわけだ。いや、もちろん弱いところは数え切れないほどあるのだが、英語はもうどうしようもないくらいダメなのである。
その英語研修を受ける中で、本当に実感するのが「頭の中でも英語で考えないとキツイ」ということである。頭の中で日本語で考えてから英語で喋ろうとすると、その「日本語→英語変換」のオーバーヘッドはすさまじくて、とても会話にならないのである。もちろん、当然その逆もしかりで「英語→日本語変換」なんかもやっていたら、あっというまに相手の喋るスピードについていけず、「ここはどこ?私はだれ?」状態になってしまう。
もちろん、「頭の中で英語で考えられる位なら、そもそも苦労はせんのじゃぁ!」と叫びたくなることもしばしばあるわけで、実際のところ私にはどうしたら良いのか全然わからないのである。「頭の中に言いたいことは沢山あるけど、それを伝えられない状態」と「頭の中でたいしてものを考えることができない、それを伝えられる状態」とどっちかを選べと言われても困ってしまう。残念ながら、「英語で頭の中でビュンビュンと考えて、それが口からペラペラとでてくる」状態は私には遠い夢物語のようなのである。
こんな苦労は、日本語人生一本やりだった私が英語を使う場合にはどうしても避けられない話なのであるが、そんな「私の苦労」と似たような話はコンピュータの世界にも実はある。例えば、「今日の必ずトクする一言」でもよく登場する「Windowsの日本語化のオーバーヘッドに関する一連の話」などがそうである。超漢字あたりであれば話は別なのかもしれないが、Windowsに限らずどんなOSであっても英語だけを使うときと、日本語のような言語を使うときではスピードが全くと言って良いほど違ってしまう。
例えば、英語版のWindowsであれば最新型のPCでなくてもサクサク動くのであるが、これが日本語版のWindowsともなると、最新型のPCでなければカタツムリのようなスピードに変わってしまうのである。最新型のWindowsやMacOS***の推奨マシンスペックは○×○×です、とOSメーカーが言ったところで、それは英語圏での話で日本語人生の私のようなものにはそれは当てはまらないのだ。わずか100文字ほどのアルファベットですむ英語の場合と、約七千字ほどもある日本語を使う場合とでは文字・フォント処理のスピードが違ってしまうのは当たり前の話である。
ところで、英語と日本語をコンピューターなどで扱う時の大変さというものは文字数だけの話なのだろうか?数が多いから大変なのは当たり前なのだが、それだけではないのではないだろうか。単に文字数が多いというだけではなくて、一つの文字当たりの情報量も日本語の方が遙かに多いと思うのである。例えば、アルファベットの中でも複雑な形をしている"M"と、日本語というか漢字の中でも結構複雑な形をしている「廳」を比べてみれば一目瞭然だろう。"M"よりも、「廳」の方がずっと複雑な形状をしている。
漢字の文字数が多いということは、そのたくさんある文字を区別するためにも漢字という文字の形状自体が複雑にならざるをえないわけで、それはすなわち漢字一文字の情報量はアルファベット一文字の情報量よりも遥かに多いということだ。ということは、
- 一文字辺りの情報量が多くて
- しかも文字数が多い
しかし、「PC内部での処理も大変ではあるが、それを外部に出すときも大変だろう」というのが今回の話のテーマである。モニタやプリンタに出力する時の大変さも英語と日本語では大違いで、しかも英語文化で考えると見えない落とし穴があるのではないだろうか、という話である。
まず、文字を表示するスペースというのは大体決まっている。そんな限られた同じスペースの中に、一文字辺りの情報量が少ないアルファベットと多い漢字を同じように詰め込めるだろうか?先ほどの"M"と「廳」を縮小して10pt程度にしてみると、その答えはすぐにわかる。アルファベットの"M"の方はちゃんと読めるとは思うが、漢字の「廳」の方がちゃんと識別できる環境の人がいるだろうか?PCの画面に表示されている「廳」はずいぶんと省略されたてしまっていたり、あるいは潰れてしまっていたりするはずである。
つまりは、PCの内部でも漢字のような文字を扱うのは大変であるが、それを外部へ表示したりするのも実際問題大変なのである。英語圏のアルファベット文化から考えれば、10ptなんて大きくて読みやすいと思うのかもしれないが、漢字などを考えると今のモニタの解像度では10ptでも小さすぎるのである。逆にいえば、アルファベットなどを表示する時に比べて漢字などの文字を表示する時には、遥かに高い解像度のモニタが必要とされるのである。PC自体の能力だけではなくて、モニタなどの出力機器も遥かに高い能力が必要とされるわけだ。
もちろん、それは漢字だけの話ではない。世界中の文字で当てはまるハズの話である。試しに、
- 世界の文字 (http://www.nacos.com/moji/)
アラビア文字あたりはラテン文字であるアルファベットと同じ程度の複雑さであるが、その他の文字はやはり遥かにアルファベットよりも複雑な形状をしている。「この中の半分くらいは使われていない文字じゃねぇーか!」という声も聞こえてきそうな気もするが、そんな小さいことを気にしてはいけない、とにかくアルファベットは色々ある文字の中でも単純な形状をしていて、漢字は複雑な形状をしているのである。
次に、それぞれの文字画像の複雑さの特徴を眺めるために、それぞれ二次元フーリエ変換をかけて、周波数空間に変換してみたものを示してみることにしよう。まずは、漢字の例を示して図の見方を説明してみたい。
図の横・縦方向が実際の文字の横・縦方向に対応し、図の中で中央から外周方向に向かって低周波から高周波の成分の量を示している。強さは 小 ← 赤 黄 黄緑 青 紫 → 大の順番になっている。 たとえば、この漢字の例だと |
上の説明に書いたように、こんな風に文字画像を周波数空間に変換すると、「漢字は縦と横の線が多い」ということがよくわかる。しかも、
の時に調べたように、漢字は「縦方向に周波数成分が多い」、すなわち言い換えれば「横方向の線が多い」こともわかるのである。 さて、世界の文字六種に戻って、それぞれを周波数空間に変換して並べてみると、こんな感じになる。
こうして六種の文字種を周波数空間に変換して眺めてみると、色々なことが判る。例えば、
- アラビア文字はほとんど高周波を含まない
- ヒエログラフは比較的高周波が少なく、方向性も持たない
- 漢字に含まれる高周波成分はほとんどが縦・横方向のみであり、その中でも「縦方向に周波数成分が多い」、すなわち言い換えれば「横方向の線が多い」
- アルファベットは低周波がメインであり、縦横では横方向の方が高周波を含んでいる、すなわち縦の線が多い
- マヤ文字は一番高周波まで含んでおり、比較的方向性も少ない
- ロンゴロンゴ文字はアラビア文字よりも高周波が多いが、それでも比較的低周波メインであり、方向性もない
もちろん、ラテン文字が比較的高周波が少ないからといって今の表示装置で十分だというわけではなくて、ラテン文字でもより高解像度のディスプレイが必要とされている。例えば、液晶画面などで文字を多量に読むことを想定している電子ブックなどの用途のためには、
で調べたMicrosoftの「ClearType」などの技術がある。これは液晶のRGBの画素の配列が横方向に並んでいることを利用して、横方向の解像度を高める技術である。ということは、こういう技術は横方向の高周波成分が多いラテン文字などでは効果が大きく、またラテン文字自体が比較的高周波成分が少ないために、こういう技術を使えば必要十分ということになるのかもしれない。しかし、日本語(漢字)のようなもともと高周波成分が多くしかもそれが縦方向に多い、というようなものでは効果は比較的少ないことが考えられる。もちろん、それは液晶というデバイスの特徴によるもので仕方のない部分もあるのだが、もしかしたらもしかしたら日本語のような縦方向の高周波を再現しなければならない言語のことを意識していないせいかもしれない。
こんなことは液晶などのモニタだけではなくて、一般的なプリンタもそうだ。例えば、インクジェットプリンタではエプソンのPM-900Cの仕様などを眺めてみても、標準で720×720dpiで、高画質モードでは1440×720dpiとなっている。それはレーザービームプリンタなどでも同じで、リコーのプリンター大百科からウルトラスムージングテクノロジーを見てみても、やはり横方向の解像度のみを高めて2400dpi×600dpiとなっている。やはり、プリンタなどの印字装置でも横方向の解像度を高めようとはするが、縦方向の解像度は低いままにしているのである。もちろん、縦方向の解像度を高くすると印字速度が遅くなってしまうという、プリンタの特性があるにしても、やはり日本語を印字するためには不利な設定となっているのである。日本人としては、解像度表示は縦方向を重視するべきで、横方向の解像度表示にダマされるべきではないのである。高解像度2400dpiなんて言われても、「ヘヘン、オレは縦文字文化の日本人だから関係ないんだもんね」くらいは言って欲しいわけである。
実際のところ、せっかく日本語(漢字)を使うのだから、日本語の特性に応じたPCやモニタやプリンタがあっても良いのになぁ、と思う。いや、というより日本語の特性をもっと理解するところから始めなければならないのかもしれない。そうだ、私はまずは日本語の勉強から始めるべきなのだ。英語の勉強をしている場合ではないし、頭の中で英語で考えていたりすると、縦文字文化に合った発想ができなくなってしまうに違いないのである。って、英語学習から逃げてるだけだったりして…
あぁ、しまったぁ。今回はホントに真面目な話になってしまったぞ、と。しかも、まるで国粋主義者みたいだし。
2001-06-11[n年前へ]
■スーツと個室
今年もまたリコーの某女史はまるで銀座のママさんのご出勤スタイル。授賞式用にスーツを着てたから、もしかしたら勝負できるかと思ったが、やっぱり私の負け。懇親会から抜け出た瞬間にジーンズ・Tシャツに着替え、東京駅で三人でしみじみと飲む。帰りは、こだまグリーン個室でやっぱりしみじみと…。
2002-02-16[n年前へ]
■今日思い出したこと
日々の雑記帳の'02/02/12のCNNの話を読んで、「今日のできごと」を思い出した。そういえば、きょうNさんに「WEB更新復帰のこんな話どう思う?」と聞かれ、そのページの原案を読んだ。
下丸子にいた頃、私のデスクトップでこっそり動かしはじめたhttpサーバーもいつのまにか公式なサーバーに変わり管理者も代わり、そして部署名やいろいろなことが変わった今は「公式なんだろうけど、なんかよくわからないサーバー」になっている。
そういえば、「できるかな?」をこっそり書きはじめたのもあのサーバーの中だった。最初の頃の話は今でもあのサーバーの中で見ることができる。うーん、社内の何人かの同僚にメールで更新報告を送りつけていた頃が懐かしいぞ、と。
それにしても、リコー有志による「英語技術文献の日本語要約」はまだまだ続く。えらいのである。ということで、今日のポストイットは変更してみよう。(リンク)(リンク)
2002-12-15[n年前へ]
■引っ越し前の大掃除
私と好みが似てる人 その6
hirax.netが生まれたのが1998年の年末だったから、はや四年も経ったことになる。最初の頃、ほんの少しの間だけは共用サーバーで動かしていたのけれども、しばらくしてからは専用サーバーに移行したのだった。といっても、別に好き好んで移転したわけではなくて、単に転送量超過料金が怖かったからである。何しろ、その頃借りていた共用サーバーは1GB/月までは一定料金なのだけれど、それを超えると8円/1MBで追加料金がかかるのである。例えば、2GB/月になってしまうと、追加料金で+8000円かかることになるし、それが3GB/月では+16000円になってしまうというなかなかにシビアな料金体系だったのである。
そんなこともあって移行した先のサーバーマシンは、今となってはかなり心許ないスペックのPentium133MHz, RAM 32MBというスペックであったのだけれど、これまでは特に問題もなく今までせっせと動いてきた。ファイルをただただ転送している分には、こんなスペックのマシンでもノープロブレムだったし、何より転送量を気にしなくていいのが安心できた。
しかし、最近では「いろいろ」ページのCGIが重くなったりしたこともあって、CGIページなどにアクセスが集中したりすると、マシンの反応が悪くなってしまうことが多くなった。そして、ひどい時にはメールチェックすらできなくなったりするようになってしまったのである。本来ならば、ログ解析でもしてボトルネックになっているところを改善でもすれば良かったのかもしれないけれど、元々が無精であるし、何より面倒くさいことが大キライなので、サーバーをいっそのこともう少し速いものに交換してしまうことにしたのである。とはいえ、サーバー交換記念に今回恒例のログ解析-私と好みが似てる人 -を二年半ぶりにやってみようと思う。ということで、「引っ越し前の大掃除、私と好みが似てる人その6」を始めようと思う。
ところで、大掃除とは言っても、残念ながら以前のログは残っていないので、先月('02/11)の一ヶ月間のログを解析してみると、hirax.netへは45万ページ/月ほどのアクセスがあったようだ。データ転送量で言うとちょうど1GB/日になる。月の転送量が30GBということは、一番最初のレンタルサーバー会社なら+23万2千円/月の追加料金ナリということになるので、サーバーを移転しておいて良かったとしか言いようがないのである。
そして、まずはこれらのアクセスのアクセス元のドメインを見てみると次のグラフのようになる。異文化コミュニケーション能力に欠けるワタシは日本語ページしか作っていないので、ほとんどのアクセス、おおよそ4分の3が.jpドメインからとなっている。そして、さまざまな国から1%弱(とはいえ、5000ページ/月くらいか)のアクセスが海外の日本人(あるいは各国のロボット)からあるようだ。
そして、ドメイン毎の円グラフを眺めてみると、YahooBBの躍進に驚く。一割近くがYahooBB(bbtec.bet)からのアクセスだった。そして、自宅などからのアクセスが企業や学校からのアクセスを凌駕していることも判る。
ところで、hirax.netへのアクセスの中でおよそ半分の20万ページほどが「できるかな?」へのアクセスで、残りの25万ページアクセスが「いろいろ」ページへのものだった。「いろいろ(最近はタイトルがinsideoutなんて変わっているけれど)」の方は時折り単なる写真日記になっていたりするし、単なるメモ帳になっていたりもするので、そのページを読む人が判ったところでその人たちが「どんな好み」なのかは結局のところよく判らないとしか言いようがない。そこで、とりあえず「できるかな?」ディレクトリへのアクセスだけを抽出して、"co.jp"と"ac.jp"からのそれぞれのアクセスランキングを調べてみた。そうすれば、「hirax.netと好みが似てる」企業や教育機関、「hirax.netに門戸を開いているところ」が判るというわけである。
まずは、「できるかな?」への"co.jp"アクセスランキングを下に示してみよう。トップ10までの企業のアクセス分で過半数を超えていることが面白いところだ。三位までの富士通、ソニー、富士ゼロックスといった辺りのメンツは前回もトップ10入りしていた「できるかな?」の常連である。そして、昨今の企業や学校・公共機関などで盛んになっている「アクセス制限」をhirax.netに対して行っていない心の広い企業なのである。
次は、「できるかな?」への日本の教育機関"ac.jp"からのアクセスである。こちらの方もトップ10までで過半数を超えている。こちらの方も先の企業と同じく「アクセス制限」をhirax.netに対して行っていない心のゆとりがある学校なのである。
そして、各々のトップ10を並べて、アクセスランキングを見てみると次の表のようになる。
というわけで、これが「2002/11の「できるかな?」へのアクセスランキング」である。つまりは、2002年版「hirax.netと好みが似てるとこ」ということで、もしも大学進学や就職活動を考える人がいるならば、このhirax.netお勧めランキングの辺りでも何かの参考にしてもらえればと思うのである。
さてさて、何はともあれ今週からhirax.netは引っ越し作業に入ります。というわけで、何か不具合やリンク切れなど見かけましたら、ぜひワタシ(jun@hirax.net)お知らせ下さい。リンク切れなんかはログ見れば判るはずと思われるかもしれないですが、何しろこんな感じでログ解析をろくにしないワタクシなものですから、ぜひぜひよろしくお願いします。今回は引っ越しの告知代わりの単なるログ解析でした。次回の「できるかな?」は新サーバーからになるか、旧サーバーからになるかは判りませんが、とにかく引っ越し中でどたばたしているのでした、ハイ。
2003-02-15[n年前へ]
■コピーについて考える
Movable Type開発者インタビューを読みながら思った。最初blog騒動があった時には何ともMovable Typeユーザーには他人の褌画像(人の画像ファイルを勝手にローカルコピーして公開するもの)が溢れてる多いなぁと思ったけれど、今では武邑光裕さんがいまだに続けてるくらいで、ほとんどは画像無しに移行していったり、自分自身が撮った写真などを使うように変わっていったようだ。
Movable Type開発者インタビューのタイトルではないが、小さい個人が大きなことをしていくときに、大きな会社と同じように画像の使用料や記事使用料は負担しなければならないわけで、そこのコストやら辛さやらを逃れて「革命」をどうやってするのかな、と思ったり。
私はコピー機メーカーで仕事をしているので、「コピー」についてはやはりたまに考えるざるをえない。例えば、会社で購読している日経新聞を日経の許諾なしにコピーすることを禁じていることとか、戸島国雄さんが「雑誌を当たり前のようにコピーする人が多いが、そんな風にコピーをされても私たちにお金がちゃんと入ってくるわけではない」と言っていた(暗に「著作権者にお金は入らなくても、そのコピーでコピー機メーカーはちゃんとお金をもらっているくせに」ということを言ってると思う)こととや、色々考える。コピーで「お金を得ている」わけで、まぁ色々考えたりする。
そういえば、RICOH IO Gate、素直に参考にします。リコーと言えばやはり英語技術文献の日本語要約 を有志が業務外でしていたりとか、面白いですね。