GB 2312
GB 2312-80(あるいはGB 2312-1980)は、中華人民共和国の国家規格として定められた簡体字中国語の符号化文字集合(いわゆる文字コード)で、主に中国大陸などで使われる。規格名は《信息交换用汉字编码字符集・基本集》という。GB0とも呼ばれ、GBコードといったときには、多くの場合この規格を指す。漢字を含む文字集合規格の基本となっていることや構造など、日本のJIS X 0208と共通点が多い。
概要
編集中華人民共和国国家標準総局(当時)により1981年5月1日に実施された。GBは“国家标准”(拼音: =国家標準)の略で、日本のJISに当たる中華人民共和国国家規格の略称である。なお、中国の標準化機関は、数回に亘る改称・改組などを経て、2001年に国家標準化管理委員会となった。
JIS X 0208とよく似た構造を持つ94×94の文字集合で、漢字の他に各種記号、丸数字、ローマ数字、英数字、仮名(ただし長音符「ー」を除く)、ギリシア文字、キリル文字、声調符号付き拼音字母、注音符号といった非漢字682字を含んでいる。漢字は一級漢字(3755字)と二級漢字(3008字)に分かれ、前者が読みの順、後者が部首の順である点もJIS X 0208と似ている。
GB 2312をEUCで符号化したものを簡体字中国語EUC (EUC-CN) という。他の符号化方式としては、1990年代半ばに、インターネットメールやネットニュースなど7ビットの経路で使用されていた非公式な方式であるHZ(Hanzi〈漢字〉の略、IANAへの登録名は “HZ-GB-2312”)がある。ISO-2022-CN というものもあるが、ほとんど使われていない。今日ではもっぱらEUC-CNのみが使われるため、単にGB 2312といっただけでEUC-CNを意味している場合が多い。IANAの登録名もGB2312となっている。
派生・後継規格
編集- GB/T 12345-90
- 規格名を《信息交换用汉字编码字符集 第一辅助集》といい、GB 2312の繁体字版といえるもの。「GB1」ともいう。「T」は、“推荐”(拼音: =推奨)を意味し、強制性がないことを示す。GB 2312に収録された2112字の漢字を対応する繁体字に入れ換え、62字を追加し、GB 2312に収録されていた41字は対応する繁体字に符号位置を明け渡すために追加領域に移動している。このようになっているのは、簡体字の中には複数の繁体字・異体字を一つに統合したものがあるという漢字の簡化の経緯による。
- GBK
- →詳細は「GBK」を参照
- Kは“扩展”(拼音: =拡張)を意味する。正式には《汉字内码扩展规范》という。国家技術監督局標準化司(当時)と電子工業部科技与質量監督司(当時)が発布実施した「技術規範指導性文件(文件=文書)」であり、正式な規格ではない。ISO/IEC 10646.1:1993(UCS)=Unicode 1.1の中国語翻訳規格といえるGB 13000.1-93(日本でいえばJIS X 0221-1995に相当する)の中国語サブセットで、GB 2312 EUC-CNを拡張したもの。UCSからGB 2312にない漢字を追加し、漢字2万1003字(当時のCJK統合漢字全2万0902字、追加漢字101字)を収録した。繁体字・日本漢字・韓国漢字だけでなく“啰”(「囉」)や“镕”(「鎔」)のようにGB 2312の制定後に簡化され「規範漢字」となった字も取り込まれた。中国大陸向けのMicrosoft Windows 95簡体中文版に採用されたことにより普及した。マイクロソフト・コードページ936。
- GB 18030
- →詳細は「GB 18030」を参照
- 規格名は《信息技术 中文编码字符集》。GBKをさらに拡張し、少数民族言語の文字なども含む大規模な文字セットで、GBKに取って代わる正式な国家規格。2000年3月17日に国家質量技術監督局(当時)によって《GB 18030-2000 信息交换用汉字编码字符集基本集的扩充》として発布・実施され、2001年8月以降、中国大陸で流通するコンピュータ製品は原則としてこれを実装することが定められた強制規格である。2005年11月8日に現行の新版に置き換えられ、2006年5月1日に実施された。これを使った文字符号化方式には “GB18030” (IANA登録名)がある。
関連項目
編集- Big5
- CNS 11643
- JIS X 0208
- KS X 1001 (KS C 5601)
- CJK統合漢字