English page

Unicode (ユニコード) と中日韓 (CJK) エンコーディングとの相互運用の問題

このページは、ユニコードと中日韓 (CJK) エンコーディングとの変換に関 する問題を扱っています。主に、ふつうの文字よりも記号についての話です。

訳注: エンコーディングと (符号化) 文字集合について。 JIS X 0201、JIS X 0208、JIS X 0212 などが (符号化) 文字集合 (CCS = Coded Character Set) です。 EUC-JP、Shift_JIS、ISO-2022-JP などがエンコーディング (または、CES = Character Encoding Scheme) です。 詳しい説明はいまのところは省略させてください。 (ものすごく長くなるので)
訳注: JIS X 0208 とは、JIS (日本工業規格) によって定められたコンピュータ用の文字集合で、 ひらがな、カタカナ、英数字、ギリシャ文字、ロシア文字、漢字 (第一水準、第二水準)、記号が含まれます。いわゆる全角文字は、 ほとんどの場合、JIS X 0208 に含まれる文字のことです。 JIS X 0201 とは、JIS によって定められたコンピュータ用の文字集合で、 ASCII とほぼ同一の文字 (逆スラッシュのかわりに円記号が入っていたりする) といわゆる「半角カナ」が含まれます。 JIS X 0212 とは、JIS によって定められたコンピュータ用の文字集合で、 「補助漢字」と呼ばれています。ほとんど使われていません。 JIS X 0213 とは、JIS によって定められたコンピュータ用の文字集合で、 俗に「JIS 2000」とも呼ばれています。JIS X 0208 に、 いわゆる「第三水準」と「第四水準」の漢字と記号を加えたものとなっています (厳密には、もうちょっと変化があります)。

ユニコードを実際に使うにあたり、日本語に関しては、3 つの主要な問題があります。 ひとつは漢字統合の問題。ふたつめは従来の文字コードとの変換の問題。 そして最後は文字幅の問題です。その他、EUC-JP 往復変換、円記号、 といった問題もあります。これらを解決しなければ、 日本人にとってユニコードは扱いづらいものとなります。

以下は、古い文書です。資料として、置いておきます。


Tomohiro KUBOTA <debian at tmail dot plala dot or dot jp>