존경하고사랑하는 대한민국 국민 여러분!!!
이웃나라 일본과 중국의 인민 여러분!!!
그리고,
전세계 시민 여러분!!!
한글은 세계 최고의 미인입니다!!!
이제 한글은 로마자를 제치고 세계 최고의 문자,
온누리한글(세계문자)이 되어야 합니다!
그리하여,
새 천년시대의 문화의 시대를 맞이하여
한글을 기반으로 한
새로운 인터넷, 컴퓨터, 휴대폰 세상을
열어 나갑시다!!!
존경하고 사랑하는 국민 여러분!
신묘년(辛卯年) 새해가 밝았습니다. 새해 토끼해에는 더욱 건강하시고 정말로 국민 여러분 모두 다 부자 되시기 바랍니다. 꼭 소원성취하시기 바랍니다.
1964년, 제가 초등학교 1학년 다닐 때(경북 예천군 개포면 개포초등학교), 우리 마을에는 아저씨뻘 되는 분이 한 분 6학년에 다니고 있었습니다.(이름이 정의훈입니다) 우리 1학년생 8명은 그 아저씨 인솔 하에 -뒤를 졸졸 따르면서 - 시골길 10리길을 걸어서 학교를 다녔습니다. 46년 만에 서울에서 만난 그 아저씨가 올해 벌써 회갑을 맞이한다는 소식을 들으면서, 참으로 세월이 유수처럼, 베올에 북 지나듯이, 빠르다는 걸 느꼈습니다. 그럼에도 불구하고, 비록 세월은 하염없이 흐른다하더라도, 국민 여러분 모두, 올해는 큰 비전을 세우고 정열을 바쳐 항상 몸도 마음도 젊게, <가슴뛰는 삶>을 살기를 기원합니다.
여러분! "우리나라도 누군가 구글이나, MS, 애플 같은 큰 회사를 한번 만들어 볼 수는 없을까? 스티브 잡스나, 빌 게이츠 같은 인재가 왜 안 나오나?" 이런 생각들 많이 해 보셨죠? 저는 감히 도전해 보기로 굳게 마음먹었습니다. 내가 나서서 거창한 꿈을 키우고, 뭔가 국민들에게 희망의 메시지를 전해 보자!! 이렇게 결심한 것입니다!!!
1600년대에 프랑스에 라 포슈푸코라는 학자가 있었는데 그 학자가 이런 말을 했다고 합니다.
‘촛불은 바람이 불면 꺼진다. 그러나 큰 불은 바람이 불면 활활 타오른다.’
저는 우리가 사용하는 한글(훈민정음)이 로마자나 키릴문자, 한자에 비하면, 지금은 아주 가녀린 모습의 촛불 같다는 생각을 가끔 하곤 했습니다. 이제 겨우 7,000만 명의 한민족이 사용하는 한국어 표기 문자의 위상을 점하고 있으나, 그러나 한글에 힘이 실리고 국민 여러분의 성원이 열화처럼 거세지면, 훈민정음(촛불)은 드디어 세계문자가 되어 능히 세상을 변화시키면서 인류를 위한 큰 교육혁명, 문화혁명을 가져올 수 있겠다는 생각을 하게 된 것입니다.
저는 UCLA 한국학센터 방문교수(2003. 8 - 2005. 3)를 마치고 2005년 3월에 귀국하면서 세계적인 IT/CT 회사를 설립하여 신개념의 '문화콘텐츠 산업'을 일으키기로 단단히 마음 먹었습니다. '한글(훈민정음)'을 세계 문자로 격상시켜 인류의 새로운 미래문명을 개척하고 인류 문화 발전에 이바지해 보자고 다짐하였습니다. 그리하여 강력한 '글로벌 거버넌스'(Global Governance)의 철학을 바탕으로 앞의 저들을 능가하는 연구소와 회사를 이끌어야겠다고 결심한 것입니다!!!
그래서 2008년 6월, 그간의 연구 성과를 바탕으로 자본금 5,000만원의 연구소 기업((주)온누리한글예슬)을 설립, KAIST 창업보육센터(동문창업관1110호)에 입주하여 오늘에 이르고 있습니다. 저는 R&D 개발에 주력하여, "중국어 표기문자로서의 한글의 입력장치 및 입력방안"이라는 제목의 특허가 등록되고(2008. 11.3), 연구성과를 토대로 약 300건의 국제특허를 출원 준비 중에 있습니다. 지금 서울로 이사를 와서 여의도동 17번지 the # 아일랜드 오피스텔(103동 1310호)에 둥지를 틀고 연구와 사업을 크게 번창시키고자 노력하고 있습니다.
현재 수익 모델이 되는, 개발이 완료된 <온누리한글 중국의 성경(신,구약 66권)>, <중국어 학습교재들>, <온누리한글로 한중일영 완전정복> 등의 성경 및 학습 교재들과, <세계어 워드프로세서>, <IT 관련 소프트웨어> 등의 상용화에 막바지 노력을 기울이고 있으며, 곧 다수의 교육교재들과 교구 제작, 교육/강의용 소프트웨어 개발, 다양한 유형의 문화콘텐츠 제작에 박차를 가할 예정입니다. 더욱 강조하고자 하는 바는, 우리 회사 부설 연구소에 영입된 김구룡 소장은 이미 한컴이나 MS-WORD를 능가하는 워드프로세서와, 음성인식 기반 소프트웨어를 개발하였다는 사실입니다.
그는 지금 중국어, 인도어, 아랍어를 위한 음성인식 시스템(네비게이션용, 웹 검색 엔진용) 개발에 혼신의 힘을 다하고 있습니다. 또한 우리 회사와 합작하기로 한 모 회사는 삼성 천지인이나 엘지의 나랏글 자판보다 더 뛰어난 자판(세계문자로서의 한글을 기반으로 하고 있기에 확실히 국가 표준안이 될 것임)과 입력 기술을 개발하였습니다.
존경하고 사랑하는 국민 여러분!
특히 피끓는 청춘의 시간을 보내고 있는 일천만 청년 여러분!
우리가 힘과 지혜를 모으면 못할 일이 뭐 있겠습니까? 새 천년의 시대에, 한글을 세계문자로 만들어 대한민국을 <교육 문화 강대국>으로 건설하면서, 우리 다함께 인터넷, 컴퓨터, 휴대폰 세상을 호령하는 기개를 펼쳐보지 않으시렵니까? 대한문화제국<Korean Cultural Empire 코리언 걸쳐럴 엠파이어> 건설의 '엠파이어 빌더'(Empire Builder)가 되어보지 않으시렵니까?
아래 파일을 보시면 아시겠지만, 이번 2011년 3월 초순경에 온 국민을 상대로 우리 회사((주)온누리한글예슬)의 사업 비전을 발표하려고 준비를 하고 있습니다. 제 회사가 중심이 되지만, 한글 IT와 관계된 다른 회사 및 연구소 10개 정도가 서로 손잡고 '문화콘텐츠 산업' 중심의 거대한 신성장 동력산업을 창출할 것임을 국민 여러분 모두에게 천명할 것입니다.
문화관광체육부, 지식경제부, 교육과학기술부 등의 정부 기관은 말할 것도 없고, 기업은행, 국민은행, 신한은행 등의 금융기관, 진대제 전 정통부 장관이 운영하는 <스카이레이크 인큐베스트> 같은 투자기관으로부터도 수천억원의 투자금을 유치하는 등, 거대 자금을 모아 그야말로 온 국민이 <가슴뛰는 삶>을 영위하도록 만반의 준비를 다할 것입니다.
마지막으로 인도의 시인 라빈드라나드 타고르(Rabindranath Tagoreㆍ1861~1941)의 <동방의 등불(燈燭)>(원제 The Lamp of the East)을 올리면서 글을 마무리할까 합니다. 국민 여러분들의 적극적인 동참과 뜨거운 성원을 부탁 드립니다. 대단히 고맙습니다.
일찍이 아시아의 황금 시기에
빛나던 등불의 하나 코리아.
그 등불 다시 한 번 켜지는 날에
너는 동방의 밝은 빛이 될지니.
마음에는 두려움이 없고
머리는 높이 쳐들린 곳
지식은 자유스럽고
좁다란 담벽으로 세계가 조각조각 갈라지지 않는 곳
진실의 깊은 곳에서 말씀이 솟아나는 곳
끊임없는 노력이 완성을 향해 팔을 벌리는 곳
지성의 맑은 흐름이
굳어진 습관의 모래 벌판에 길 잃지 않는 곳
무한히 퍼져 나가는 생각과 행동으로 우리들의 마음이 인도되는 곳
그러한 자유의 천국으로
내 마음의 조국 코리아여 깨어나소서.
(타고르(1861~1941)는 인도의 시인이며, 사상가요, 교육자다. 그는 1913년 동양인으로는 최초로 ‘기탄자리(신에게 바치는 송가)’로 노벨 문학상을 받았으며, 인도문학의 정수를 서양에 소개하는 데 지대한 공헌을 했다. 그는 조국 인도와 비슷한 처지의 한국에 대한 애정과 관심이 각별했다고 전해지는데, 사실 그 관심의 수준은 확인되지 않으며 다만 '동방의 등불'이란 시 하나로 모든 걸 유추할 뿐이다.
'동방의 등불'은 그가 1929년 일본을 방문했을 때 당시 동아일보 도쿄지국장이 한국에도 방문해줄 것을 요청하자 그에 응하지 못함을 아쉬워하며 대신 한국인에게 보낸 격려의 시로 알려져 있다. 그해 4월 2일자 동아일보에 시를 받게 된 경위와 함께 주요한의 번역본이 실려 실의에 빠진 우리 국민들에게 큰 감동을 불러일으켰음은 물론이다. 지금은 비록 일제강점으로 그 등불이 꺼져있어 동방의 한쪽이 어둡지만 언젠가는 등불이 다시 밝혀질 날이 올 것이라는 확신을 주며 용기를 북돋워 주었다.)
------------------------------------------------------------------------------------
위의 파일은 제가 2011년 3월 초순에 계획하는 사업설명회의 개요입니다. 우선 우리 [훈민정음]이 한국어만을 적는 문자의 위상을 넘어, 전 세계 모든 언어를 적는 문자가 될 수 있다, 즉 [세계문자]가 될 수 있다는 사실을 국민들에게 알리는 것이 중요하다고 봅니다.
[훈민정음]이 로마자를 제치고 세계문자가 된다는 것은 우리가 새로운 문명세계를 건설한다는 뜻 아닙니까? 세계 모든 나라 모든 민족이 서로 협조하면서 교류하고 공동의 선을 추구하기 위해서는 이른바 서로 [소통]이 되어야 합니다. 소통이 된다는 것은 말이 통한다는 뜻이고, 이 말이 통한다는 뜻은 서로 상대방의 언어를 빨리 이해하도록 해야 한다는 것 아니겠어요? 우리 한글 즉,[훈민정음]이 그 역할을 하는 때가 왔다는 것입니다.
위에서 우리말로 [사과]를 일본말로는 [린고], 중국말로는 [핑궈], 영어로는 [애플ㄹ](여기서 '플ㄹ'이라는 글자가 깨지죠? 이게 안 깨지게 해야 한다는 말입니다. 즉, 이 글자가 유니코드에 들어가서 떡하니 자리를 잡게 해야 한다는 뜻입니다)입니다.
로마자는 그냥 낱자들을 옆으로 주욱 나열하기만 하면 되지만, 우리 한글은 낱자들이 의존적 글자이기 때문에 옆으로 나열하면 안 되고 '음절'(syllable) 형태로 모아써야 합니다. 그러다 보니 유니코드에 등재되지 않은 글자들은 깨질 수밖에 없지 않습니까? 이것을 안 깨지도록 하는 작업을 해야 합니다. 즉, 다른 나라 말을 적기 위해서는 - 그것이 영어든, 중국어든, 무문자 언어든 - 이 유니코드 개정 작업을 꼭 해야 합니다. 그래야 우리 훈민정음이 로마자를 제치고 '세계문자'가 되는 것입니다.
이 작업(훈민정음으로 다른 나라 말을 표기하는 방법)은 언어학을 연구하는 학자들에 의해서 거의 다 이루어져 있습니다. 문제는 지경부 산하의 <기술표준원-ISO10646>이나 <유니코드 컨소시움>에 등재하는 우리들의 인식과 노력(특히 IT 전문가들의 협조가 필요)이 절대적으로 필요합니다.
자! 그러면 우리는 우리 [훈민정음] 글자로 전 세계 언어들을 적게 되고 위의 경우처럼 학습교재를 만들어서 가르칠 수도 있지 않습니까?
미국이나 영국, 프랑스, 독일의 언어교육학자들은 자기들의 말을 적는 문자, 즉 로마자로 다른 나라 말들을 적으면서 공부합니다. 그리고 이것을 '표준'으로 만들어 다른 나라 사람들이 공부하게 합니다(그 '다른나라 사람들'이 자기 언어를 표기하는 문자가 로마자이든 아니든 개의치 않고). 그러니까 지난 20세기까지는 [로마자]가 거의 [세계문자]의 역할을 해 온 셈입니다. 우리 글자보다 못한 로마자 알파벳이 말이에요!! 이 알파벳을 쓰는 나라와 민족들이 19세기, 20세기의 세상을 지배해 왔다고 해도 과언이 아니잖습니까?
이제는 우리가 [훈민정음]을 가지고 세상을 이끌어가는 주인공이 되자는 것입니다. 전 세계 사람들이 그것이 어떤 언어이든지 간에 그 언어를 한글로 적은 교재, 즉, 우리가 만든 외국어 학습 교재를 사용하게 하자는 것입니다.
이를테면, 제가 위의 방식으로 만든 [한중영일 완전정복]이라는 학습 교재와 프로그램을 중국 사람도, 러시아 사람도, 일본 사람도, 미국 사람도, 그 누구든지 사서 공부하게 하자는 것입니다. 이해가 되시죠? 그러한 상황이 실제로 일어나게 해야 하고, 또 일어날 것이라고 장담합니다. 어째서? 우리 한글이 훌륭하니까요!! 즉 우리 한글이 로마자보다 어떤 언어든지 그 발음을 더 정확하게 적어주니까요!!!
위에서 한국말로 '어머니'라는 단어를 다른 나라 말로 배울 때, 그 다른 나라 말의 '발음'을 우리 한글로 적어 배우면 훨씬 좋겠죠? '어머니'가 중국말로는 '마마'인데, 이 말의 '발음'을 굳이 'mama'라고 적어서 가르치고 배워야 하나요?
영어로는 mother라고 하는데, 이 mother라고 쓰는 영어의 '발음'이 무엇인가를(언어학자 소쉬르의 용어로 '씨니피앙'을) [므ㅏ ㅇ더](여기서도 글자가 깨지죠?!)라고 표기해서 가르쳐 주자는 것입니다. 아주 정확한 발음의 한글표기입니다.
영어 모음 'ʌ'가 들어간 'mʌ'의 발음을 어떻게 하느냐를 가르칠 때, '머'보다는 입을 더 크게 벌려라, '마'보다는 입을 더 작게 벌려라 하는 식보다는 '므ㅏ'를 발음하라, 즉 '므'와 'ㅏ'를 빨리 연이어 발음하라고 하는 것이 더 낫다는 것입니다. 즉, 로마자나 로마자를 변형해서 만든 발음기호(국제음성기호)보다는 우리 [훈민정음]이 훨씬 좋은 '발음기호'요, '음소문자'인 것입니다.
영국의 언어학자인 제프리 쌤슨이 1985년에 쓴 [Writing Systems]라는 책이 있습니다. 이 학자가 이 책에서 뭐라고 했느냐 하면, 세종대왕이 만든 [한글]은 단순히 음소문자(phoneme letter)의 차원을 넘은 자질문자(featural letter)라고 표현했습니다. 낱글자들을 유심히 살펴보고는, "와! 기가 막힌다!!! ㄱ(평음)에 획을 하나 더 그으니 ㅋ(격음) 이 되고, 겹쳐서 쓰니 ㄲ(경음)이 되는구나!! 세상에! 어쩜 이런 글자가 다 있단 말인가?!!" 라고 감탄을 한 것입니다.
로마자를 사용하는 자기 입장에서 아무리 생각해 봐도 한글이 로마자보다 낫다고 인정을 한 것입니다.
'존 맨'이라는 작가는 자기가 쓴 '알파베타'라는 책에서, '21세기에는 한글이 모든 인류가 꿈꾸는 알파벳'이 될 것이라고 했습니다.
우리는 일반 사람들 모두 '한글이 좋은 문자'다, '훌륭한 문자'라고 말하고 자랑스러워 합니다. 그런데 한글을 '세계문자'로 만들려고 노력하는 학자들이 많지 않습니다. 심지어 자포자기하는 심정으로, "로마자와 영어가 판치는 세상에 한글을 어떻게 세계문자로 만들어?!" 또는 "이미 모든 게 영어 세상이 되었는데 한글이 되겠어? 괜히 헛고생이나 하는 거지..."라고 말합니다.
제가 중국어를 한글로 표기하는 방안을 연구하고 논문을 써서 발표하는 것을 보고 뭐라고 하는 줄 아세요? 특히 논문 심사를 맡은 중문학 전공 교수들이 "왜 한어병음자모(로마자)를 잘 사용하고 있는데, 이상한 한글 표기를 들고 나와서 '중국어 교육계'를 혼란에 빠뜨리려고 하느냐?" 이겁니다.
여러분! 한자, 한문 공부해 봤지만 그리 만만하던가요? 한자 2,000자, 3,000자 배우기가 절대로 쉬운 게 아닙니다. 머리 좋고 똑똑한 사람들이야 잘 배우고 쓸 지 몰라도 보통 사람들은 익히기가 매우 어렵습니다. 중국의 문맹률이 높은 것은 중국사람들이 다 바보 등신들이기 때문일까요? 그렇지 않습니다. 한자라는 글자가 익히기 어렵기 때문입니다. 초등교육도 못 받은 중국의 노년층들이 어찌 신문을 보고, 책을 읽고 하겠습니까?
[아큐정전]이나 [광인일기](최초로 '백화'로 쓴 소설임)를 쓴 중국의 유명한 근대 작가 '노신'을 아시죠? 그가 1920년대에 뭐라고 한 줄 아세요? 漢字不滅 中國必亡(한자불멸 중국필망-한자를 없애지 않으면 중국은 반드시 망한다)라고까지 하면서 중국어를 로마자로 쓰자고 주장을 한 것입니다.
민중들을 불쌍히 여기는 마음이 있었기에 노신은 그런 주장을 한 것입니다. 노신은 '문자개혁'을 주장하면서 이렇게 부르짖었습니다. "우리 한족이 왜 천 년 이상을 내려오면서 몽고족이나 만주족 같은 이민족의 노예가 된 줄 아느냐? 백성들이 '무식했기' 때문이다. 지금 우리 한족은 겨우 만주족 청나라의 지배에서 벗어나 나라를 세우고 자립하려고 안간힘을 쓰고 있지만, 아직도 인민의 90%가 문맹자가 아니냔 말이냐?!!!"
우리는 다시금 세종대왕이 [훈민정음]을 창제한 깊은 철학을 되새겨 보아야 할 시점에 온 것입니다.
우리가 우리 말 '한자어'를 '한글'로 적듯이, 중국말(한자어)을 '한글'로 적자, 그렇게 해서 우리나라 사람들이나 중국사람들이 중국말(한자어)을 빨리 배울 수 있도록 하자, 나아가 전 세계 사람들이 '한글'로 적은 중국어 학습교재를 가지고 공부하게 하자고 주장하는 이유가 여기에 있습니다. 위의 '할아버지'라는 뜻의 중국말을 굳이 'yeye'라고 쓰서 가르치지 말고 '예예'라고 써서 가르치자는 것입니다. '漢字'하고 우리 '한글' 글자가 1:1 대응이 되지 않습니까?
어떠세요? 여러분!! 제 얘기에 공감을 하세요? 영어가 되었건, 일본어가 되었건, 인도어가 되었건, 아랍어가 되었건, 어떤 외국 말이든지 우리는 그 언어의 발음을 우리 한글로 적어서 가르치고 배워야 합니다. 그래야 학습 효율성이 뛰어납니다.
요새 4대강 개발 사업으로 엄청 시끄러운데, 혹시 공사하는 데 가 보셨나요? 준설작업을 할 때, 강바닥을 삽으로 파던가요? 포크레인으로 공사를 하죠? 여러분! 로마자나 키릴문자나 그리스문자나 인도문자나 아랍문자나 이것들이 다 '삽'이라면, 우리 한글은 '포크레인'입니다. 한글은 그야말로 '군계일학'(群鷄一鶴)입니다!!!ㅎㅎㅎ
위의 예문을 한번 잘 봐 주세요! 여러분!
중국에서는 휴대폰으로 문자를 보낼 때, (1)번의 [친구야, 다음 주에 너는 어디 가고 싶니?][나는 한국에 가고 싶어!]라는 뜻의 문장을 (2)번처럼 로마자(한어병음자모)로 입력하여 한자로 바꿉니다(컴퓨터나 인터넷에서 '워드프로세서'나 '메신저'를 사용할 때도 다 마찬가지입니다).
즉, 친구라는 뜻의 朋友(벗 붕, 벗 우)를 휴대폰 자판에서 직접 입력할 수 없으니까(많은 수의 표의문자를 자판에서 직접 입력하기는 당연히 쉽지 않겠죠. 누군가 입력 프로그램을 만들긴 했습니다만. 그렇다 해도 사람들이 이를 거의 안 씁니다), 로마자 pengyou를 칩니다. 그러면 휴대폰 자판(컴퓨터 자판도 마찬가지)에 朋友가 나타납니다. 그러면 이를 클릭해서 바꿉니다. 그렇게 해서 (3)번의 문장의 한자들을 일일이 바꿉니다.
많은 번거러움이 따르겠죠? 그렇다면 朋友를 입력하는 방안으로 로마자밖에 없습니까? 우리 한글로 '펑요'라고 치고 朋友가 튀어나오게 할 수 있지 않습니까? 그죠? 저는 바로 이걸 해낸 것입니다. 즉, 중국의 어떤 '말'을 우리 '훈민정음'(당연히 성조 부호도 표시됨)으로 어떻게 표기할 것이냐를 연구한 것입니다. 그리고 그 입력 프로그램을 연구소 연구원들이 개발한 것입니다. 위의 문장을 보면 현행 한글로 다 쓸 수 있지만, 우리말에 없는 중국어의 권설음이라든가 설치음, 순치음, 이중모음들을 어떻게 적을 것인가에 대해서는 소위 언어학적, 음운론적(phonological) 연구를 해야 합니다.
그런데 아까 위의 그림에 나왔던 문장들(평요, 샤거 싱치 니 샹 취날? 워 샹 취 한궈!)은 우리가 지금 사용하는 글자들로 구성되어 있지만, '안녕, 당신 참 예쁘네요!'라는 문장에 해당하는 중국어를 한글로 표기한 글자들은 우리가 안 쓰는 글자들이죠? 이 글자들이 바로 '유니코드'에 등재되게 해야 한다는 것입니다. 제가 작년 5월 25일날, 국회 이명수 의원님이 발의한 [한글의 세계 공용문자화 지원에 관한 법률안](현재 상임위원회<문광위>에 계류중임)을 놓고 정책토론회를 할 때 주장하였지만, 이 법률안이 통과되면 유니코드 개정을 본격적으로 할 수 있습니다. 즉, 위의 중국말을 적는 글자들(하ㅗ, 퍄ㅗ ㄹ량)이 안 깨지고 온전하게 유니코드에 들어가게 됩니다.
여러분!!!거의 모든 프로그래밍 언어에서 사용하는 데이타 기본형으로 char가 있습니다. 이것이 8개의 비트(bit), 즉 1바이트(bite)로 이루어져 있다는 것은 모두 알고 계시죠? 왜 하필 8비트였을까요? 당시의 메모리 사용환경이라든지(지금의 컴퓨터 성능과 비교해 본다면 많이 열악했을 겁니다), CPU 연산속도 때문이라든지(애니악의 경우 폰노이만보다 계산속도가 느렸다는 이야기가 있습니다) 이런 이유들 때문이었을까요? 가장 궁극적인 원인은 컴퓨터를 만든 사람들에게 있어서 8비트(실제로는 7비트)면 자신들의 언어(영어)를 모두 표현할 수 있었다는 데 있을 것입니다.
즉 7비트이면 27(128)개의 코드를 표현할 수 있는데, 26x2(알파벳 대소문자 52자) + 10(숫자) + 특수문자 + 통제문자 등등을 모두 합쳐서 128개 이하로 표현이 가능합니다.
세상 모든 사람들이 영어만 쓴다면 Unicode를 만들겠다는 생각을 아무도 하지는 않을 것입니다(훗날 외계인들이 오고 또 그들의 언어를 수용한다면 모를까...ㆅㆅㆅ). 1바이트로 모든 문자를 표현할 수 없는 언어를 사용하는 국가, 즉 한국, 중국, 일본 등에서는 각각 자신들만의 인코딩 방법으로 이용하여 문자를 표현해 왔습니다.
한국의 경우 KSC 5601 표준(완성형)이 대표적이죠. 그러다 보니 한글, 한자, 일본어 등을 섞어 쓸 수 있는 방법이 매우 어려웠을 것입니다(제한적이나마 가능하긴 합니다만. 미국 사람들이 이 동양 나라들의 글자들을 보면서 골치가 아프기 시작한 겁니다). 그래서 소프트웨어 업체들이 생각한 것이 "그러면 세계의 모든 문자를 표현할 수 있는 코드 체계를 만들자!"라고 해서 만들어지기 시작한 게 UniCode입니다!!!
세상에 존재하는 모든 문자의 수가 216(65,536)개 이하라면 어떻게 될까요? char를 16비트로 증가시키면 간단하게 해결되겠죠? 처음에는 다들 그렇게 생각했을 겁니다. 유럽과 같이 로마자 알파벳을 쓰는 자잘한 언어들의 경우 몇 백자면 될 테고, 한글도 1만자 조금 넘고, 한자도 2만자 조금 넘게 주면 될 것 같고 말입니다. 모두 합쳐도 6만 字도 안되겠다고 생각한 것이죠. 그렇지 않습니까?. 그래서 유니코드는 16비트의 공간에 모든 문자를 집어넣으려고 했습니다. 이 16비트 영역을 기본 다중 언어판(BMP, Basic Multilingual Plane)이라고 부릅니다. Unicode 3.0버전까지는 여기에만 문자 코드가 부여되어 있었습니다.
그런데, 국민 여러분, 한번 생각해 보세요! 세상 일이란 그렇게 만만치가 않은 거죠. 한중일(韓中日) 세 나라에서 고문서(古文書)를 다루는 사람들도 컴퓨터를 사용해야 되지 않겠습니까? 우리말 고어(古語)는 어떻게 표현하고, 지금은 사용되지 않는 옛 한자(漢字)는 또 어떻게 하란 말입니까? 새로운 인코딩 방식을 별도로 만들어서 사용할까요? 이렇게 되면 유니코드라는 게 의미가 없어질 것입니다.
그래서 유니코드 3.0부터 보충언어판(Supplementary Planes)을 정의하였습니다. 이를 위해 BMP의 2,048자를 대행코드 영역(Surrogates)으로 할당하고 이중 1,024자를 상위대행(high surrogates), 1,024자를 하위대행(low surrogates)으로 정의하여 이 둘의 조합으로 다시 1백만여 자(字)의 - 1024x1024=1,048,576자 - 문자를 추가로 정의할 수 있도록 하였습니다. 유니코드 3.1부터는 실제로 이 영역에 문자를 정의했습니다. 가장 크게 할당 받은 것은 역시 한자로 4만여 자(字)가 추가로 정의되었습니다.
이러한 세계표준코드를 만들려는 움직임은 소프트웨어 업체들의 연합인 유니코드 컨소시엄외에도 있었습니다. 세계표준기구(ISO)가 바로 이 움직임의 주체였는데, 다행스럽게도 두 단체가 서로 합의하여 1991년 이후로 동일한 표준을 만들고 있습니다. 유니코드 표준과 동일한 세계표준기구의 표준안은 <ISO/IEC 10646>으로 명명되었습니다.
=================================================================================================================
========================================================================================================================
========================================================================================================================
========================================================================================================================
이제는 유니코드의 구조에 대해 대체로 감을 잡으셨을 줄 압니다. 유니코드의 구조는 크게 17개(1개의 기본언어판(BMP)와 16개의 보충언어판)의 언어판으로 구성되어 있습니다. 각 언어판은 216, 즉 65,536개의 문자를 지정할 수 있으니까 유니코드에서 지정할 수 있는 문자의 수는 17x65,536=1,114,112개입니다. 하지만 대행코드영역(Surrogates) 2048개를 제외해야 하니까 실제로는 1,112,064개의 문자를 지정할 수 있겠죠.
유니코드 표준 3.0에서는 49,194 문자가 정의되었고, 이들은 모두 BMP에 한정되어 정의되었으나, 3.1에서는 BMP에 2개의 문자를 추가하고, 보충언어판에 44,944개의 문자를 추가하였습니다. 새로 추가된 문자들은 음표, 고대문자, 한자(CJK Ideographic Extension B) 등입니다.
제 15, 16 언어판에 대한 설명이 조금 필요할 듯합니다. 이 두개의 언어판은 개인사용(Private Use)으로 지정되었습니다. 개발자들에게는 일종의 보너스라고 말하는 사람들도 있군요. 어쨌든 이 두 언어판은 상위대행코드 중 마지막 128개 코드와 하위대행코드의 조합으로 지정됩니다(UTF-16 인코딩의 경우). 이 때문인지 유니코드 3.1에서는 U+DB80 ~ U+DBFF 영역을 별도로 분리하여 High Private Use Surrogates라고 이름을 붙였더군요.
2002년 1월에 Unicode Standart 3.2 베타판이 발표되었습니다.
유니코드 용어에 대한 이해
유니코드 관련 문서를 읽다보면 가장 많이 마주치는 용어들이 UCS2, UCS4, UTF8, UTF16, UTF32 등과 같은 단어들입니다. 사람들이 아주 많이 헷갈릴 것 같은 이 용어들에 대한 정리를 하고자 합니다.
· 기본언어판, BMP
BMP는 Basic Mulitilingual Plane의 약자입니다. 유니코드의 첫 65,536개의 코드를 의미합니다.
· 언어판, Plane
256x256 즉, 65,536 개씩의 코드 묶음을 이릅니다. 유니코드에서는 현재 17개의 언어판을 사용할 수 있습니다. 모두 그룹 00에 포함됩니다.
· 언어판 그룹, Group
256개씩의 언어판을 묶어 하나의 그룹으로 명명합니다. 유니코드의 17개 언어판은 모두 Group 00에 있습니다. 유니코드는 17개의 언어판에 한정되어 정의됩니다. 반면 ISO 표준(UCS-4)에서는 모두 128개의 언어판 그룹이 정의될 수 있습니다.
· 1 Plane = 65,536 code points
· 1 Group = 256 planes = 256x65,536 = 16,777,216 code points
· UCS-4 = 128 groups = 128x16,777,216 = 2,147,483,648 code points
· 인코딩, Encoding
문자집합을 표현하는 방식을 말합니다. 유니코드는 코드체계 또는 문자집합을 명명하는 것이며, 이를 표현하기 위해서는 UTF-8, UTF-16, UTF-32 등과 같은 인코딩이 필요합니다.
· UCS-2 : Universal Character Set2(octets)
좀더 정확하게는 Universal Multipe-Octet Coded Character Set 2입니다. ISO/IEC 10646의 용어로 BMP의 65,536 코드를 정의하며, 2바이트로 표현됩니다. 1개의 언어판, 즉 BMP만이 이에 해당합니다. UCS-2는 인코딩 방법이 아니며 문자코드 자체입니다. 인코딩으로 봐도 무방하겠군요. 여기서 octet이라는 용어를 사용했는데 이 용어는 ISO쪽에서 사용하는 용어로, 유니코드 진영에서 사용하는 바이트와 같은 뜻입니다.
· UCS-4 : Universal Character Set4(octets)
ISO/IEC 10646의 용어로 4바이트로 표현됩니다. 모두 128개의 언어판 그룹, 즉 128*256 언어판 = 32,768 언어판을 정의합니다. 이는 대략 231=2,147,483,648개의 코드에 해당합니다. UCS-4는 인코딩 방법이 아니며 문자코드 자체입니다.
· UTF-8 : UCS Transformation Format, 8-bit form
Unicode 표준의 인코딩 방식중의 하나입니다. 표준에서는 17개 언어판의 문자만을 표현할 수 있으나, 기술적으로는 UCS-4 전영역의 문자를 표현할 수 있습니다. 문자에 따라 1 ~ 4(또는 6) 바이트로 표현됩니다.
· UTF-16 : UCS Transformation Format, 16-bit form
유니코드 3.0에서는 16을 16비트로 해석한 것이 아니라, 그룹 00의 16개 언어판이라고 써 놓았군요. UTF-32의 32가 32비트를 지칭하므로 통일성을 위해 16비트로 이해하시는 게 좋습니다. 16비트로 표현한다는 점에서는 UCS-2와 흡사하지만, 대행문자영역(Surrogates)을 이용하여 16개의 보충 언어판 코드를 표현할 수 있는 인코딩입니다. 대행문자영역 2개로 16개의 보충 언어판을 표현할 수 있습니다. UCS-2에서는 65536개의 코드만을 정의할 수 있으나 UTF-16에서는 1백만여 자를 더 표현할 수 있습니다.
· UTF-32 : UCS Transformation Format, 32-bit form
32비트 즉 4바이트로 각 문자를 표현합니다. 이 점에서 UCS-4와 동일하지만, 17개의 언어판만을 정의한다는 점에서는 UCS-4의 부분집합으로 간주하면 됩니다. UCS-4와 동일하나 0x00000000 ~ 0x0010FFFF 범위만을 문자코드로 간주한다고 이해하시면 됩니다.
표. 각 인코딩별 표현가능한 문자 수
<인코딩> |
<그룹> |
<언어판> |
<문자수(표준)> |
<문자수(이론적)> |
UCS-2 |
0 |
0(BMP) |
216=65,536 |
216=65,536 |
UCS-4 |
0 ~ 127 |
0 ~ 32,767 |
231=2,147,483,648 |
231=2,147,483,648 |
UTF-8 |
0 |
0 ~ 16 |
17*216-211=1,112,064 |
231=2,147,483,648 |
UTF-16 |
0 |
0 ~ 16 |
17*216-211=1,112,064 |
17*216-211=1,112,064 |
UTF-32 |
0 |
0 ~ 16 |
17*216-211=1,112,064 |
231=2,147,483,648
|
위의 표에서 ‘표준’이라 함은 ‘유니코드 표준’에서 정의하는 것을 의미하며, ‘이론적’이라는 것은 표준의 정의를 무시할 때 표현할 수 있는 문자의 수를 의미합니다. 211을 뺀 부분이 있는데, 이것은 상위대행코드(high surrogates) 1,024개와 하위대행코드(low surrogates) 1,024개의 합입니다. UCS-2에서는 이들이 하나의 문자로 취급되지만, UTF-8, UTF-16, UTF-32의 인코딩에서는 보충언어판의 코드를 지정하는 데 사용되므로 코드로 취급할 수 없습니다.
유니코드 인코딩(Unicode Encodings)이란 무엇인가?
유니코드에서 지원하는 인코딩 방식은 UTF-8, UTF-16, UTF-32의 세 가지 방식입니다. UTF는 UCS Transformation Format의 약자이며, 뒤에 붙은 숫자는 인코딩에 사용되는 단위의 비트수를 의미합니다. 즉 UTF8은 8비트 단위, UTF16은 16비트 단위, UTF32는 32비트 단위로 문자를 표현합니다. 세 가지 방식의 공통점이라면 16개의 보충언어판에 위치한 1,048,576개의 코드를 표현할 때는 4바이트를 사용한다는 점입니다. 하지만 그 방식은 모두 다릅니다. UTF8은 4개의 바이트로, UTF16은 2개의 16비트로, UTF32는 1개의 32비트 단위로 표현합니다. 이제 각 인코딩 방식에 대해 좀 더 상세하게 알아보도록 할까요?.
5.1 UTF-8
가장 완벽하게 유니코드 표준을 표현하는 인코딩 방식은 UTF-16이라고 할 수 있습니다. 그런데 이 인코딩에서는 16비트 단위로 하나의 문자가 표현되기 때문에 전통적인 char 형과는 맞지 않는 부분이 있습니다. UTF-16으로 문자열을 표현했을 때 전통적인 char 형으로 이 문자열을 취급하게 되면 중간에 널(null, 0)값이 들어가게 되어 문제가 발생합니다. 즉 유니코드를 지원하려면, 지금까지 개발된 모든 프로그램을 재개발해야 한다는 부담이 발생합니다. 현실적으로 이것은 거의 불가능한 일이라고 할 수 있습니다.
이의 대안으로 제시된 인코딩이 바로 UTF8입니다. UTF-8은 문자열의 중간 바이트에서 0이 나타나지 않도록 고안되었습니다. 이를 위해 각 유니코드 문자는 1바이트에서 4바이트까지 가변적으로 인코딩되도록 하고 있습니다. UTF-8에서는 U+0000 ~ U+007F까지의 128자는 1바이트로 표현되는데 이는 ASCII와 동일합니다. 또 U+0080 ~ U+07FF까지는 두 바이트, U+0800 ~ U+FFFF까지는 세 바이트로 표현됩니다. 즉 BMP내의 모든 문자는 1 ~ 3바이트로 표현됩니다. 그리고 나머지 16개의 보충언어판에 위치하는 1,048,576개의 코드는 네 바이트로 인코딩됩니다. 다음 표에서 UCS-4와 UTF-8간의 변환 방법을 나타내고 있습니다.
표. UTF-8과 UCS-4간의 변환 규칙
<UCS-4> |
<UTF-8> |
0x00000000 - 0x0000007F |
0xxxxxxx |
0x00000080 - 0x000007FF |
110xxxxx 10xxxxxx |
0x00000800 - 0x0000FFFF |
1110xxxx 10xxxxxx 10xxxxxx |
0x00010000 - 0x001FFFFF |
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
0x00200000 - 0x03FFFFFF |
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
0x04000000 - 0x7FFFFFFF |
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
위의 표에서는 UCS-4와 UTF-8간의 변환 규칙을 보여주고 있습니다만, UCS-4의 모든 영역에 대해서 보여주고 있습니다. 그러나 빨간색으로 칠한 부분을 0x0010FFFF로 변경하고 나머지는 삭제해야 정확한 유니코드의 UTF-8 인코딩이라고 할 수 있습니다. 이를 모두 표현한 것은 6바이트까지 확장하면 UTF-8로도 UCS-4의 전역을 인코딩할 수 있음을 보여주기 위한 것입니다. 아마도 1백만 자(字)의 코드이면 지구상에 존재했거나 존재하는 모든 문자를 표현하기에 충분할 것으로 예상됩니다. 우주의 모든 언어코드를 표현해야 할 때가 오면 0x00110000 이후의 영역도 사용할 가능성이 조금이나마 있을까요? ㅎㅎㅎ
어쨌든, 현재 유니코드 표준에서는 UTF-8이 4바이트까지로 인코딩됩니다. 유니코드에 정의된 각 코드는 반드시 다음과 같은 범위에서 인코딩되어야 합니다. 다음 표는 UTF-8 인코딩에서 각 바이트에 올 수 있는 값을 보여주고 있습니다.
어쨌든, 현재 유니코드 표준에서는 UTF-8이 4바이트까지로 인코딩됩니다. 유니코드에 정의된 각 코드는 반
드시 다음과 같은 범위에서 인코딩되어야 합니다. 다음 표는 UTF-8 인코딩에서 각 바이트에 올 수 있는
값을 보여주고 있습니다. (이하 생략)
표. 올바른 UTF-8 바이트 배열
<Code Points> |
1st Byte |
2nd Byte |
3rd Byte |
4th Byte |
U+0000 ~ U+007F |
00 ~ 7F |
|
|
|
U+0080 ~ U+07FF |
C2 ~ DF |
80 ~ BF |
|
|
U+0800 ~ U+0FFF |
E0 |
A0 ~ BF |
80 ~ BF |
|
U+1000 ~ U+CFFF |
E1 ~ EC |
80 ~ BF |
80 ~ BF |
|
U+D000 ~ U+D7FF |
ED |
80 ~ 9F |
80 ~ BF |
|
U+D800 ~ U+DFFF |
ill-formed (surrogate 부분이므로 인코딩되어서는 안됨) | |||
U+E000 ~ U+FFFF |
EE ~ EF |
80 ~ BF |
80 ~ BF |
|
U+10000 ~ U+3FFFF |
F0 |
90 ~ BF |
80 ~ BF |
80 ~ BF |
U+40000 ~ U+FFFFF |
F1 ~ F3 |
80 ~ BF |
80 ~ BF |
80 ~ BF |
U+100000 ~ U+10FFFF |
F4 |
80 ~ 8F |
80 ~ BF |
80 ~ BF |
.
================================================================================
========================================================================================================================
========================================================================================================================
========================================================================================================================
========================================================================================================================
대학원 제자들-주로 중국, 일본, 태국, 러시아 등에서 유학 온 학생들입니다!!!
국민 여러분!!!
끝까지 읽어주셔서 감사합니다!!!
우리 한국인들이 세계에서 제일 예쁘다고 합니다.
즉, 한국엔 미남 미녀들이 아주 많다고 합니다.
그런데 더 중요한 것은 인구 비례당 천재들이 가장
많은 나라가 우리 대한민국이라는 사실입니다.
어째서 천재들이 많으냐고요?
인간의 인지능력이 잘 발달하기 위해서는 자기
모국어의 표기문자를 얼마나 빨리 배우느냐가 중요한
관건이 됩니다. 인간은 만 3세부터 말을 하기 시작해서
만 5세가 되면 완벽하게 자기 모국어를 문법적 오류
없이 구사합니다.
이때부터 모국어 표기 문자를 가르쳐서 글을 읽을 수
있는 능력을 함양하는 것입니다.
그런데 우리나라는 부모들이 대체적으로 자녀가
만3세가 되면 글을 가르치기 시작합니다. 5세가 되어
유아/유치원에 들어가면서부터 책을 읽기 시작하지
않습니까? 한번 생각해 보세요!!!
초등학교 들어가기 전에 평균 500권 이상의 책을 읽는
아이들은 지구상에서 우리 대한민국 어린이들밖에
없습니다!!!
어릴 때부터 다양한 분야의 많은 책을 읽으면서
지적 능력을 키워왔기 때문에,
1960년대 후반(박정희 대통령께서 '국민교육헌장'을
선포하고, '한글전용 정책'을 실시한 시기) 이후에
태어난 세대들, 즉 10대, 20대, 30대를 포함한
지금 40대 중반까지의 나이 대에 이르는 사람들 중에
천재들이 엄청 많은 것입니다!!!
두고 보세요!!!
(앞으로 10년 정도쯤 지나면,
미국에 한국인 출신 대통령이 반드시 나옵니다.
뿐만 아니라,
지금 우리보다 못 사는 후진국들에 가서 국가 지도자가
될 인물들이 부지기수로 나옵니다!!!)
이들은 어릴 때부터 한글을 익혀서 기본적인 인문학적
소양을 쌓고, 나아가 예체능 분야 및 자연과학 분야에
이르기까지 학문적, 창의적 능력을 함양해 온 것입니다.
국민 여러분! 어떠세요?!
제 얘기에 공감하시죠?
이제 한글(훈민정음)은 우리들만의 문자로 안주해
있기에는 너무나 좋은 문자이지 않습니까?
즉, 한글은 문자가 어렵거나, 아예 문자가 없는 민족들의
문자가 되도록 해야 하지 않습니까?
세계문자가 되어야 하지 않느냐 이말입니다.
그야말로 '한글문화 대제국'을 건설할 수 있는 때가
되지 않았습니까?
한글은 세계 최고의 문자입니다!!!
한글이 세계문자가 되고,
한국어가 세계어가 될 때가 온 것입니다.
새 천년의 문화의 시대는
우리 한민족이 이끌어가는 시대가
되어야 합니다!!!!!!!!!!!!!!!!!
'종교 > 좋은 글방' 카테고리의 다른 글
등 좀 밀어 주실래요? [삶의 향기] (0) | 2013.11.22 |
---|---|
나 좀 늙게 내버려둬 (0) | 2013.11.22 |
[스크랩] 조선의 백과사전-조선왕조실록(동영상) (0) | 2013.09.10 |
[스크랩] 견우직녀설화(牽牛織女說話) 이야기 (0) | 2013.08.16 |
[스크랩] 감동이 찡한 글 모음 (0) | 2013.08.02 |