更多
当前位置: 首页 > 资讯

大美视点|87887个汉字,你能认识多少?

发布时间:2023-08-07 13:13:48 来源:顶端新闻

4月份,微博话题“因姓氏太罕见全村集体改姓鸭”登上热搜,引发热议。据报道,村民原姓“nià”(见右图)是上下结构,上半部分是少了一横的“鸟”,下半部分是“甲”。这个字当前绝大部分电脑系统均无法识别。

所以,不得已,村民只能改姓“鸭”。在接受媒体采访时,52岁的鸭新贵反复强调:“你不改,出门不方便,坐火车、坐飞机,啥票都买不了。”同村的鸭正高也说:“我们村里姓nià的都改成鸭了。遗憾也没有用,不改甚至卡里的钱都没法提现。”

不过,这种情况从今年8月1日往后,随着《信息技术 中文编码字符集》(GB18030-2022强制性中文信息标准)的正式实施,或许会得到改善。


(资料图片)

从6763个汉字开始

说起GB18030,大多数人可能十分陌生。不过,谈起它的前辈GB2312,从事文字工作的人或许就十分熟悉了。

1980年,中国国家标准总局发布《信息交换用汉字编码字符集》,并于1981年5月1日起正式实施。这套字符集的标准号便是GB2312。

GB2312标准共收录了6763个汉字,其中一级汉字3755个,二级汉字3008个。此外,这套标准还收录了包括拉丁字母、希腊字母、日文平假名片假名字母、俄语西里尔字母在内的682个全角字符。

这套标准收录的汉字覆盖了中国大陆99.75%的使用频率,可以说基本满足了在电子世界使用汉字的需要。不过,在几千年的历史长河中,中华文明积累下汉字数量是庞大的,6763个汉字显然无法很好地承担文明传承的责任。在处理浩如烟海的古籍以及寄托父母美好期望的人名时,这套标准就显得捉襟见肘了。

比如,“啰嗦”的“啰”字,“瞭望”的“瞭”字,以及人名中常见的“玥”字等,均不在GB2312这套标准中,更不用提“書”“報”“齊”等繁体汉字了。因此,1995年推出了《汉字编码扩展规范》(GBK),将计算机字库中应当包含的汉字扩展到了20902个,满足了计算机显示和出版等领域的基本需要。

GB2312包含的字符和汉字

2000年,为了进一步支撑起中国中文信息处理和交换的需要,《信息技术 中文编码字符集》也就是GB18030标准正式发布。经过2005年的修订后,这套标准收录的汉字从最开始的27533字扩展到了70217字,基本满足了书籍出版、人名显示等专业领域的需求。

而此前的GB2312,从2017年改名为GB/T 2312-1980,转化为推荐性标准,不再强制执行。不过,这一标准并非不重要。现在,如果要制作一款字库,这6763个汉字仍是最低的要求。

新增1.7万生僻字,还有……

2005年的7万字不是终点。2022年7月28日,国家标准化管理委员会、工业和信息化部、国家语言文字工作委员会在北京联合发布《信息技术 中文编码字符集》(GB18030-2022)强制性国家标准。这一最新标准将从今年8月1日起,正式开始实施。

当前,GB18030是我国在汉字编码方面唯一一个强制性标准。最新的GB18030-2022版在此前2005版的基础上,大幅扩充中文编码字符数量,比上一版增加录入了1.7万余个生僻字,达到了87887个。其中就包括近年来反映较多的典型人名、地名等。

同时,这一标准覆盖了《通用规范汉字表》的全部汉字,还涵盖我国10种少数民族文种,包含蒙古文、藏文、维哈柯文、朝鲜文、德宏傣文、彝文、傈僳文、滇东北苗文、西双版纳新傣文、西双版纳老傣文等。

新国标将于8月1日开始实施

此外,最新的2022版标准还从条文强制改为全文强制。为满足不同用字需求,新版标准也设立了三档实现级别,即“任何适用的产品均应满足的实现级别1”“系统软件及支撑软件应满足的实现级别2”和最高等级“用于政务服务和公共服务的产品应满足的实现级别3”。

至此,这一标准可以说覆盖了我国绝大部分人名、地名用生僻字及古籍文献、科技等专业领域用字,不仅能在我国中文信息处理的统一化领域发挥重大作用,还将对我国户籍、银行业、保险业、道路运输、科技、农业、邮政、金融服务、土地管理、卫生、社会保障和服务等社会各方面起到中文信息标准化的重要基础和保障作用。

搭建一条文明与生活的桥梁

6763个字基本就可以覆盖日常生活中绝大部分的使用情况,还为何要收集几万个生僻字?这背后便关乎着中华文明的传承。

被称为“汉字叔叔”的美国学者、汉字字源数据库创始人西尔斯(Richard Sears)此前在中国新闻网的采访中说:“如果你看英文,500年以前的莎士比亚对美国人来说非常难读懂;800年以前的乔叟的文字,我们美国人完全看不懂。中文则不一样,如果我们看汉字,600年前唐诗中的汉字,今人还可以看得懂;2000多年以前的孔子、老子、庄子、孟子的文字,尽管跟现在的汉字不完全一样,现在的人还是可以看得懂。”

中国文字博物馆副研究馆员、学术研究中心主任杨军辉也在中国新闻网的采访中表示,汉字对中华文明和中华民族共同体的形成,起到的作用非常大。“从文明起源的角度,作为一种文明的形式,汉字的萌芽和形成,实际上是中华文明形成的一个非常重要的标志。汉字可以超越时空,可以促进不同地域间的人们进行沟通,也可以促进古今知识观念的传递。用汉字记录的很多中华典籍使我们优秀的传统文化得以永续传承,并且不断地创新发展。从汉字本身来说,它也不仅仅是一种记录语言的符号,实际上还是一种文化现象。通过汉字,我们可以研究中国古代的社会历史状态,特别是早期的社会历史状态,从中探寻中华文化早期的一些观念。”

新国标中包含的部分生僻字

经过历史的沉淀,每一个汉字背后都讲述着中华民族的故事,是活着的中华文明的见证。比如,前文所述作为姓氏的“nià”,虽然是生僻字,但并非“无续无统”的生造字,《康熙字典》收录,在汉文典籍里它也是“鸭”的异体字。而从当地村民的文化传统来看,它代表的也是有着悠久历史的姓氏图腾。

汉字文化博大源远。相比于书写、印刷等技术,计算机字体作为新技术,在当今时代建起了一座新的连接中华文明过去、现在和未来,连接生活与文明本身的桥梁,已然成为了承载汉字文化的重要载体。因此,作为计算机字库的标准,绝不能为了“简便”做减法。

生僻字收集小程序界面截图

幸运的是,“中文编码字符集”一直在不断扩充着。从最开始的6763个,到现在的87887个,越来越多的汉字被收录其中,可以被输入和显示在电脑、手机等终端设备和信息系统中。但这远非终点,收集整理生僻字的工作仍将持续进行下去。因为,这不仅是尽可能地方便每一个使用汉字的人,更是对每一个汉字的尊重,对中华文明的传承。(本报记者 王岗飞)

上一篇:北京查处非法销售不合格电动三轮车案!明年起还要封杀老头乐

下一篇:最后一页