국제 문자 세트

국제 문자 세트(UCS, Universal Character Set, 범용 문자 집합)는 ISO 10646으로 정의된 문자 인코딩의 국제 표준이다.

국제 문자 세트
Universal Coded Character Set
다른 이름UCS, 유니코드
언어국제
표준ISO 10646
인코딩 포맷UTF-8, UTF-16, GB18030
덜 일반적: UTF-32, BOCU, SCSU, UTF-7
이전 인코딩ISO 8859, ISO 2022
유니코드
부호화 형식
UCS
양방향 텍스트
BOM
한중일 통합 한자
유니코드 범위 목록
유니코드 등가성
유니코드와 HTML
유니코드와 전자 우편
유니코드 글꼴
v  d  e  h

1991년부터, 유니코드 컨소시엄에서는 유니코드 표준과 ISO/IEC 10646을 발전시키기 위해 ISO와 공동 작업을 해 왔다. 분류와, 문자명과 유니코드 표준 2.0 버전의 코드들은 ISO/IEC 10646-1:1993과 첫 수정판과 동일하다. 2000년 3월 유니코드 3.0이 발표된 이후, 새롭게 추가된 문자들이 ISO/IEC 10646-1:2000을 통해 UCS에 포함되었다.

UCS는 110만 개 이상의 코드가 있지만, 일반적으로 첫 65536개 (BMP, Basic Multilingual Plane, 기본 다국어 평면) 만이 사용된다. 나머지는 고대 이집트 상형문자나 쓰임이 적은 한자같은 문자를 표현하기 위해 남겨져 있다. 많은 코드영역, 심지어 BMP 영역에서도 서로 다른 인코딩 형태와 미래의 확장성을 고려하여, 일부러 문자를 할당하지 않았다.

UCS의 인코딩 폼

편집

UCS용 인코딩 방법으로 ISO 10646가 정의되어 있다. 간단히 축약하여 UCS-2 라고도 하는데, 각 글자들을 0 ~ 65535(0xFFFF) 사이의 코드 값으로 매겨놓고, 각 값들을 16비트로 표현한다. 그것으로서 UCS-2는 BMP의 코드 영역을 표현할 수 있고, BMP 밖의 영역은 표현이 불가능하다. UCS-2를 확장하여 BMP 밖의 영역도 표시가 가능하게 한 인코딩으로 UTF-16이 있다.

UTF-32[1]는 0xFFFFFFFF 까지의 단일 코드 즉 32비트로 한 글자를 표현한다. 그러므로 UCS-4는 UCS-2보다 더 많은 수의 글자를 표현할 수 있으나, UCS-2에 비해 2배의 저장공간을 필요로 한다.

대응되는 유니코드

편집
  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646-3:2003 ≈ Unicode 4.0

관련 ISO

편집

같이 보기

편집

각주

편집
  1. UCS-4

외부 링크

편집
  NODES