《通用规范汉字表》终于由国务院发布了。这不仅是国家语言生活的大事,也是对信息技术进一步发展的有力推动。
在当今世界,汉字已经成为国际文字,这已是不争的事实。下至iPhone、iPad,上至云端的搜索系统,汉字已经无所不在。汉字国际化、标准化的重要标志是ISO/IEC 10646的重要组成部分-中日韩汉字统一编码(CJK Unified Ideographs)。由于中国两岸四地专家与美国、日本、韩国、越南、新加坡等国专家长期以来的通力合作,CJK已成为国际上最先进、最富权威性的编码字符集标准。CJK在计算机与通讯领域的实现与应用已成为多文种文明发展的基础和象征。
在真实世界存在的每一个汉字都应在计算机世界有其对应的“代表”,或代码。在ISO属下的汉字组(IRG)领导下,国际标准已编码汉字业已逼近8万,相当充分地反映了中文汉字的需求,并且正在向甲骨文、金文等古文字方面拓展。毫无疑问,这项巨大的文字整理工程有着深远的经济、文化和技术意义。中国各主管部门也一直在支持这项工作。
但在另一方面,对现代语言生活而言,由于语言的复杂性和ISO工作的优先级问题,CJK有两方面较重要的工作始终悬而未决:
第一,面对巨大的超级字符集,亟需基于海量分类加权语料库的现代字频统计、权威性地指明一个通用的子集;以利于基础教育和各项一般社会应用在各个层级的信息化实现。防止“大而全”的倾向,合理地利用资源。
第二,CJK完成了各个国家与地区的汉字形态上的认同,但是没有指明未认同的汉字之间的字意上的关联(简繁、正异、新旧字形等等)。
现在,由于《通用汉字规范表》的颁布,可以说上述“通用子集”和“关联字”两大问题都在很大程度得到了的完满解决。
当今,国际互联网正在迈入一个新的阶段,IPv4地址枯竭而IPv6正在启用,以开辟更大的地址空间,不仅国家与地区的顶级域名(ccTLD)、通用顶级域名(gTLD)等一系列新域名都在迅速国际化(IDN)。可以说,这是互联网上的“第二代”身份证问题。国际域名分配机构ICANN正在密锣紧鼓地研究顶级域名国际化的异体字问题,以中国CNNIC为组长的专家工作组正在与各国家地区的专家一起重点探讨中文异体字的问题。从文字角度,这实质上是包括简繁、正异、新旧字形在内的广义的异体字问题。作为专家工作组的成员,对于《通用规范字表》可以说是“翘首以盼”。首先,8000字规模的通用子集,具有法律上的权威性,大大地缩小待处理的异体字的范围,使之更适应现代生活;其次,字表附表1—《规范字与繁体字、异体字对照表》收录了3120个规范字,并分别列出了相应的繁体字、异体字。这对于互联网国际化域名异体字的处理,也不啻是场“及时雨”,对于中文域名问题的解决,构筑实用的中文域名异体字表,有重要指导意义。
作为长期从事汉字国际标准与中文典籍数字化的老科技工作者,我由衷乐见汉字规范化、信息化的这些新进展及其相互促进。(张轴材,男,北京书同文数字化公司总裁。)
版权所有:中华人民共和国教育部 中文域名:教育部.政务
京ICP备10028400号-1 京公网安备11010202007625号 网站标识码:bm05000001