CJK統合漢字

ISO/IEC 10646およびUnicodeの符号化用漢字集合、およびその符号表
Unicode > CJK統合漢字

(シージェーケーとうごうかんじ、: CJK unified ideographs)は、ISO/IEC 10646(略称:UCS[1])およびUnicodeユニコードにて採用されている符号化用漢字集合およびその符号表である。CJK統合漢字の名称は、中国語: Chinese)、日本語: Japanese)、朝鮮語: Korean)で使われている漢字をひとまとめにしたことからきている。

CJK統合漢字の初版であるUnified Repertoire and Ordering第二版は1992年に制定されたが、1994年にベトナムで使われていた漢字も含めることにしたため、CJKV(CJKV統合漢字)と呼ばれることもある。CJKVは、中国語日本語朝鮮語ベトナム語(Vietnamese) を表す英語の頭文字である。特にその四つの言語で共通して使われる、または使われていた文字体系である漢字チュノムを含む)のこと。ソフトウェア国際化、中でも文字コードに関する分野で用いられる。

CJK統合漢字は、中国台湾日本北朝鮮韓国ベトナムの各国・地域の工業規格で定められた漢字コードとの対応表も定めているが、事情によりCJK統合漢字との対応を持たない各国・各地域の漢字コードをUCSに適切に変換できるよう、互換用の領域が別途定められている。この領域の漢字はCJK互換漢字[2]と呼ばれる。

歴史

編集

1978年、日本によって世界で最初のISO 2022に基づく漢字コード規格JIS C 6226が制定された。1980年代には中国・台湾・韓国で次々と各国・地域用の漢字コード規格が制定されていったが、これらは互いに関連性がなく、混在させて使用するにはISO 2022のエスケープ・シーケンスで漢字コード表を切り替えるしかなかった。

1980年国立国会図書館高橋徳太郎が主に書誌学の観点から、東アジアの統一漢字コードの必要性を指摘した。同年、台湾で制定された3バイト漢字コード規格CCCIIは、恐らく日本・中国・台湾の漢字を統一的に扱うことを目的とした最初の規格の一つである。この規格は東アジアの文献情報用にアメリカでもANSI Z 39.64として採用された。

1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]1989年、各国の漢字コードを統合した漢字集合HCC[3]のアイデアを提案した。

1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。

一方、1987年頃から、ゼロックスのジョー・ベッカー[4]とリー・コリンズ[5]は世界中の文字を統一して扱える文字コードUnicodeを開発していた。1989年に発表されたUnicodeの概要では、その基本ポリシーとして、16ビットで全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することとしていた。1990年にはこの方針に基づいた最終ドラフトが完成、それに賛同する企業によって、翌1991年1月にはUnicodeコンソーシアムが設立された。このドラフトでは、日本・中国・韓国の漢字の類似する漢字を統合することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。

1991年、ISO/IEC 10646の初版ドラフトはUnicodeとの一本化を求める各国により否決され、また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646とUnicode用の統合漢字コード表を作成した。1991年末、この文字表はUnified Repertoire and Ordering (URO) として完成した。

1992年、UROを取り込んだISO 10646の二版ドラフトが完成し、賛成多数で国際規格化された。ただしUROには若干の間違いが発見されており、それらの修正が行われている。

1993年5月、U+4E00〜U+9FFFのブロックに最初のCJK統合漢字、20,902字が割り当てられたISO/IEC 10646が正式に制定され、その1カ月後には内容を同じくするUnicode 1.1が制定された。

1999年、Unicode 3.0で、ISO/IEC 10646の修正案17において、CJK統合漢字拡張Aとして、U+3400〜U+4DFFのブロックに6,582字が追加された[6]。当初は6,584文字の予定であったが、そのうち2文字が互換漢字領域にあったため、互換領域の2文字を拡張Aとして扱うことにして、この2文字は追加集合からは削除された[7]。同時期に発行された修正案13において、URO漢字のうち中国に原規格がない文字に対して、GB 16500に基づく新規に原規格の割り当てが行われ[8]、ベトナムの文字欄が追加されCTJKVの5欄併記となった[9]

2001年、Unicode 3.1で、ISO/IEC 10646-2として、CJK統合漢字拡張Bに42,711字が、U+20000〜U+2A6FFのブロックに追加された。しかしながら、非常に膨大な漢字集合を極めて短期間のうちに定めたため、漢字の重複や字形の誤りが多数発生した。

2005年、Unicode 4.1で、ISO/IEC 10646:2003修正案1として、基本多言語面 (BMP) のU+9FA6〜U+9FBBに22文字の漢字が追加されて20,924文字になった。

2008年、Unicode 5.1で、基本多言語面のU+9FBC〜U+9FC3に8文字が追加されて20,932文字になった。

2009年、Unicode 5.2で、拡張Cの4,149文字がU+2A700〜U+2B734に、基本多言語面でもU+9FC4〜U+9FCBに8文字が追加されて20,940文字になった。

2010年、Unicode 6.0で、拡張Dの222文字がU+2B740〜U+2B81Fに追加された。

2012年、Unicode 6.1で、基本多言語面のU+9FCCに1文字が追加されて20,941文字になった。

2015年、Unicode 8.0で、拡張Eの5,762文字がU+2B820〜U+2CEAFに追加された。基本多言語面でもU+9FCD〜U+9FD5に9文字が追加されて20,950文字になった。

2017年、Unicode 10.0で、拡張Fの7,473文字がU+2CEB0〜U+2EBE0に追加された。基本多言語面でもU+9FD6〜U+9FEAに21文字が追加されて20,971文字になった。

2018年、Unicode 11.0で、基本多言語面のU+9FEB〜U+9FEFに5文字が追加されて20,976文字になった。

2020年、Unicode 13.0で、拡張Gの4,939文字がU+30000〜U+3134Aに追加された。基本多言語面のU+9FF0〜U+9FFCに13文字が追加されて20,989文字になった。拡張AのU+4DB6〜U+4DBFに10文字が追加されて6,592文字になった。拡張BのU+2A6D7〜U+2A6DDに7文字が追加されて42,718文字になった

2021年、Unicode 14.0で、基本多言語面のU+9FFD〜U+9FFFに3文字が追加されて20,992文字になった。拡張BのU+2A6DE〜U+2A6DFに2文字が追加されて42,720文字になった。拡張CのU+2A735〜U+2A738に4文字が追加されて4,153文字になった。

2022年、Unicode 15.0で、拡張Hの4,193文字がU+31350〜U+323AF, 拡張CのU+2A739に1文字が追加されて4,194文字になった。

2023年、Unicode 15.1で、拡張Iの622文字がU+2EBF0〜U+2EE5Fが追加されて622文字になった。

2024年9月、Unicode 16.0で、拡張Jの4,300文字がU+323B0〜U+3347Bに追加予定[10]

Unicode 15.1 段階での文字数は以下の通りである(互換漢字ブロックにあり、統合漢字に準じて同等に扱われる12字を加えると97,680文字になる)。

範  囲 名   称 JIS日本語通用名称 字 数
U+4E00 - U+9FFF CJK Unified Ideographs CJK統合漢字 20,992
U+3400 - U+4DBF CJK Unified Ideographs Extension A CJK統合漢字拡張A 6,592
U+20000 - U+2A6DF CJK Unified Ideographs Extension B CJK統合漢字拡張B 42,720
U+2A700 - U+2B739 CJK Unified Ideographs Extension C CJK統合漢字拡張C 4,154
U+2B740 - U+2B81D CJK Unified Ideographs Extension D CJK統合漢字拡張D 222
U+2B820 - U+2CEA1 CJK Unified Ideographs Extension E CJK統合漢字拡張E 5,762
U+2CEB0 - U+2EBE0 CJK Unified Ideographs Extension F CJK統合漢字拡張F 7,473
U+30000 - U+3134A CJK Unified Ideographs Extension G CJK統合漢字拡張G 4,939
U+31350 - U+323AF CJK Unified Ideographs Extension H CJK統合漢字拡張H 4,192
U+2EBF0 - U+2EE5F CJK Unified Ideographs Extension I CJK統合漢字拡張I 624
合計 97,670

CJK統合漢字の特徴と問題点

編集

将来の予定

編集

中国は『康熙字典』や、古壮字をはじめとする少数民族で使われている特殊漢字などの文字をすべてUCSに収録させようとしており、日本や韓国、ベトナムでも漢字(国字韓国国字チュノムなど)の追加提案があるため、Unicode16.0では拡張Jの追加予定があるほか、Unicodeの今後のバージョンでは、CJK統合漢字の拡張ブロックが今後更に増加する可能性がある。

甲骨文字金文小篆などの古代の文字については、第三漢字面へ追加することが検討されている。

漢字の部品と仮名やアルファベット等を組み合わせた文字(⿸广K(慶の略字)・⿱宀R(寮の略字)・⿰木キ(機の略字)・⿱⿰⿱コン⿱クリ土(コンクリート)など)[11]や、仏教の釈典の呪文等で使われた奇妙な字形の文字( イン (仏字))・⿴〇⿻𠃊冂(エン)など)[12]は、通常の漢字とは別のブロックとしての追加が検討されている。

CJK互換漢字

編集

U+F900~U+FAFFのブロックである。Unicode 3.1では補助集合として第2面(追加漢字面)にU+2F800~U+2FA1Fのブロックが追加された。基本的にCJK統合漢字と重複する漢字が割り当てられている。

CJK統合漢字には、基本的に一つの漢字に付き一つの符号位置しか与えられないため、KS X 1001など各国の規格で全く同じ形の漢字が重複して収録されていた場合、Unicodeとの相互変換を行った際可逆性が失われる事となる。(KS X 1001の場合、読みにより分離しているため、読みが分からなくなって困ることがある)。この問題を解決するために、このブロックが作られた。Big5で誤って重複してしまった2字もこのブロックにある。IBM拡張漢字のうちCJK統合漢字に入れなかったものもあり、その中にはU+FA1F(﨟)やU+FA24(﨤)などCJK統合漢字に同じ漢字が存在しないため、CJK統合漢字と同じ扱いをするものが12字ある。

Unicode 3.2では、JIS X 0213で包摂基準が変更され分離されたもののうち、「侮󠄁󠄁」や「僧󠄁󠄁」、「社󠄁」などUnicodeでは包摂されるものがこのブロックに追加された。これは、CJK統合漢字は日本以外にも中国と韓国の漢字を含めたものであり、日本だけのために包摂基準を変更して包摂分離して追加すると、他の国が国内規格と対応するUnicodeのコード値を変更しなければならないことがあるからである。例えば、「社󠄁」など⽰偏の漢字はGB 18030では偏が「⺭」の形を採用しているが、KS X 1001では偏が「⺭」でなく「⺬」の形を採用している。もし「社󠄁」を包摂分離してCJK統合漢字の新たな符号位置に追加したとすると、GB 18030はそのままでよいが、KS X 1001の「社󠄀」のコードとの対応は新たに追加された方に変更しなければならなくなる。

原規格

編集

漢字のそれぞれの文字には、少なくとも一つの原典参照がある。[13]

注記 原典が更新されても、原典参照は、更新しない。更新された原典は、古い版に含まれていない文字の識別だけに用いてもよい。

原典 G

編集

  原典 G は、次のとおりに識別する。

  • G0 GB 2312-80
  • G1 GB 12345-90
  • G3 GB 7589-87 繁体字
  • G5 GB 7590-87 繁体字
  • G7 現代漢語通用字表及び簡化字総表
  • GS シンガポールにおける漢字
  • G8 GB 8565-88
  • G9 GB 18030-2000
  • GE GB 16500-95
  • GH GB 15564-1995 香港の一部の文字放送用の漢字体系
  • GK GB 12052-89 情報交換用ハングル文字符号化文字情報
  • G4K 四庫全書
  • GBK 中国大百科全書
  • GCE 国家教育研究院英語版
  • GCH 辞海
  • GCY 辞源
  • GCYY 中国測絵科学院用字
  • GDM 中国公安省戸籍人名地名漢字
  • GDZ 地質出版社用字
  • GFC 現代漢語規範詞典第二版
  • GFZ 方正排版系統
  • GGFZ 通用規範漢字字典
  • GGH 古代漢語詞典
  • GHC 漢語大詞典
  • GHF 漢文仏典疑難俗字彙釈与研究
  • GHZ 漢語大字典
  • GHZR 漢語大字典第二版
  • GIDC 中国公安省 ID システム
  • GIDC23 中国公安省 ID システム 2023
  • GIDCX 中国公安省 ID システム
  • GJZ 商務印書館用字
  • GKX 康熙字典及び康熙字典補遺
  • GKJ Terms in Sciences and Technologies (科技用字) approved by the China National Committee for Terms in Sciences and Technologies (CNCTST)
  • GLGYJ 壮族嘹歌研究
  • GLK 龍龕手鑑
  • GOCD オックスフォード英漢漢英詞典
  • GPGLG 壮族民歌文化叢書・平果嘹歌
  • GRM 人民日報の漢字
  • GT 1983年標準電碼本(修訂本)
  • GU 原典不明(原典があるとされたが、後に誤りとされた字など)
  • GWZ 漢語大詞典出版社用字
  • GXC 現代漢語詞典
  • GXH 新華字典
  • GXHZ 新華大字典
  • GZ 古壮字字典
  • GZA-1 生生不息的伝承・孝与壮族行孝歌之研究
  • GZA-2 壮族倫理道徳長詩伝揚歌訳注
  • GZA-3 壮族民歌古籍集成・情歌(一)嘹歌
  • GZA-4 壮族民歌古籍集成・情歌(二)歓𭪤
  • GZA-6 中国壮族諺語
  • GZA-7 遠古的追憶・壮族創世神話古歌研究
  • GZFY 漢語方言大詞典
  • GZH 中華字海
  • GZJW 殷周金文集成引得
  • GZYS 壮族人民的文化遺産-方块壮字, 中国民族古文字研究

注記 康煕字典(GKX)として参照されている文字に対する符号表上での例示図形は、現在中国で使用されているものであり、康煕字典に示されている例示図形とは僅かに異なる場合がある。

原典 H

編集

  原典 H は、次のとおりに識別する。

  • H 香港増補字符集 2008
  • HB0 Big5:計算機での中国語字形と文字符号との対応表, Technical Report C-26, 電脳用中文字型与字碼対照表, 技術通報 C-26, 1984, Symbols
  • HB1 Big5 第一水準
  • HB2 Big5 第二水準
  • HD 香港増補字符集 2016

原典 M

編集

  原典 M は、次のとおりに識別する。

  • MA 香港増補字符集 2008
  • MB1 Big5
  • MB2 Big5
  • MC 澳門増補字符集
  • MD MCSCS horizontal extensions
  • MDH MCSCS horizontal extensions
  • MAC 澳門資訊系統字集

原典 T

編集

  原典 T は、次のとおりに識別する。

  • T1 TCA-CNS 11643-1992 第 1 面
  • T2 TCA-CNS 11643-1992 第 2 面
  • T3 TCA-CNS 11643-1992 第 3 面及び幾つかの追加文字
  • T4 TCA-CNS 11643-1992 第 4 面
  • T5 TCA-CNS 11643-1992 第 5 面
  • T6 TCA-CNS 11643-1992 第 6 面
  • T7 TCA-CNS 11643-1992 第 7 面
  • TA 化学命名原則(第四版)
  • TB TCA-CNS 11643-2007 第 11 面
  • TC TCA-CNS 11643-2007 第 12 面
  • TD TCA-CNS 11643-2007 第 13 面
  • TE TCA-CNS 11643-2007 第 14 面
  • TF TCA-CNS 11643-2007 第 15 面
  • T13 TCA-CNS 11643 第 19 面 (pending new version)
  • TU 原典なし

原典 J

編集

  原典 J は、次のとおりに識別する。

原典 K

編集

  原典 K は、次のとおりに識別する。

  • K0 KS X 1001:2004(以前は,KS C 5601-1987 であった。)
  • K1 KS X 1002:2001英語版(以前は,KS C 5657-1991 であった。)
  • K2 PKS C 5700-1 1994
  • K3 PKS C 5700-2 1994
  • K4 PKS 5700-3:1998
  • K5 Korean IRG Hanja Character Set 5th Edition: 2001
  • K6 KS X 1027-5:2014
  • KC 韓国歴史情報統合システム
  • KU 原典なし

注記 K2、K3、K4 及び K5 に含まれる漢字は、新しい韓国規格群において改訂作業が進んでいる。

原典 KP

編集

  原典 KP は、次のとおりに識別する。

  • KP0 KPS 9566-97
  • KP1 KPS 10721:2000及び KPS 10721:2003

原典 V

編集

  原典 V は、次のとおりに識別する。

  • V0 TCVN 5773:1993
  • V1 TCVN 6056:1995
  • V2 VHN 01:1998
  • V3 VHN 02:1998
  • V4 喃字詞典, 岱喃字字典, 沔南喃字榜査
  • VN Vietnamese horizontal extensions

その他

編集

書記素クラスタ

編集

書記素クラスタ (grapheme cluster) で、漢字は、UTF-16で可変(16、32、48、64ビット)である[15]

  • 16ビット
基本多言語面(BMP)
  • 32ビット
追加面
基本多言語面(BMP)+SVS(字形選択子 (Unicodeのブロック)英語版)
  • 48ビット
基本多言語面(BMP)+IVS(字形選択子補助英語版)
  • 64ビット
追加面+IVS

参考文献

編集
  • 三上喜貴『文字符号の歴史 アジア編』共立出版ISBN 4-320-12040-X 
  • 安岡孝一、安岡素子『文字符号の歴史 欧米と日本編』共立出版。ISBN 4-320-12102-3 

関連項目

編集

脚注

編集
  1. ^ : universal multiple-octet coded character set
  2. ^ : CJK comptatibility ideograph
  3. ^ : Han character collection
  4. ^ : Joe Becker
  5. ^ : Lee Collins
  6. ^ : vertical supplementation
  7. ^ Editorial corrigenda on CJK compatibility ideographs, and other items” (1998年11月30日). 2008年4月12日閲覧。
  8. ^ : internal supplementation
  9. ^ : horizontal supplementation
  10. ^ CJK Unified Ideographs Extension J” (PDF). Unicode. 2024年7月28日閲覧。
  11. ^ [1]
  12. ^ [2]
  13. ^ JIS X 0221:2014 国際符号化文字集合(UCS)
  14. ^ ケン・ランディ博士:JKは今昔文字鏡である。
  15. ^ 経済産業省 改元を目前に今すぐ実施すべき準備、対応とは 13ページ
  16. ^ IPAmj明朝フォント符号化の状況

外部リンク

編集
  NODES
INTERN 1