Unicode

Unicodeユニコード)とはコンピュータ上で多言語の文字を単一の文字コードで取り扱うために1980年代に提唱された文字コードである。

ゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年にISOでもISO/IEC 10646の一部として標準化されたが、Unicodeと完全に同一の規格ではない。

概要

Unicodeは世界で使われる全ての文字を共通の符号化文字集合にて利用できるようにしようという考えで作られ、NT系のMicrosoft Windows (Windows)、Mac OS XLinuxやJavaなどでの内部コードとして利用されている。

元々16ビットの文字集合で全ての文字の網羅を目指して開発されたが、符号位置Unicode Terminology English - Japanese, C, Unicode, inc.が圧倒的に足りず、Unicode 2.0以降では21ビットの文字集合として規定されている。現在のUnicodeの空間はU+0000~U+10FFFFである。当初の16ビットの領域であるU+0000~U+FFFFは、Unicode 2.0以降では基本多言語面 (BMP) と呼ばれ、ISO/IEC 10646においてUCS-2で定義される16ビットの範囲と同一である。一方ISO/IEC 10646におけるUCS-4は31ビットの文字集合であり、21ビットUnicodeとは別物である。

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201、JIS X 0208とJIS X 0212を、Unicode 3.1ではJIS X 0213の内容を収録している。

また収録においては同じ意味・目的の文字は、できる限り同じ符号位置に割り当てる方針を取っている。そのため、CJK統合漢字(中国語、日本語、朝鮮語で使用される漢字が統合された領域)は大きな議論となった。各国のコードはISO/IEC 10646とは別の組織で標準化されているため、厳密には違うものであるが、符号位置を共有する文字の間で非互換が生じないように慎重に標準化が進められている。

既存の符号化方式との相互運用性もある程度考慮されており、同じグリフ(字形)の文字であっても、歴史上・実用上の識別が求められる場合には互換領域がとられ、Unicodeを介在して文字コード変換をった際に、復元可能となるように考慮されている。しかしながら、他の符号化文字集合(文字符号化方式)との変換の整合性においては、いくつかの問題がある。たとえば、CP51932とeucJP-MSのように既存文字コード同士でUnicodeとの対応が一部違うために文字化けが発生することがある。

Unicodeの文字を表現する場合、"U+"にその文字の符号位置を表す16進数を続けた文字を使って表す。BMPの場合は4桁、それ以上では必要に応じて5、6桁で表す。この符号位置を表す整数値をUnicodeスカラ値と言う。

Unicode」『フリー百科事典 ウィキペディア日本語版』(http://ja.wikipedia.org/)。2009年7月28日15時(日本時間)現在での最新版を取得。

「Unicode」トップに戻る



2010年プロバイダー【顧客満足度】NO.1 トリプル受賞  ASAHIネット

入会・お問い合わせダイヤル
0120-030-275
携帯電話/PHS/IP電話などからは
03-3569-3526

10:00~19:00(土日祝~17:00)

書面での申し込みはこちら
資料請求

このページのトップヘ