交流评论、关注点赞

  • Facebook Icon脸书专页
  • telegram Icon翻墙交流电报群
  • telegram Icon电报频道
  • RSS订阅禁闻RSS/FEED订阅

为更多汉字编码,中国的数字化软实力

2016年10月26日 15:04 PDF版 分享转发

纽黑文——看着中文字,你可能会对18世纪耶稣会传教士的说法感同身受:“完全是出于对上帝的爱,一个人才能忍受学习它的痛苦。”那份虔诚可能已经消失,但这样的抱怨,中国人已经听了四百多年,如今他们终于决定做点什么。

本月,中国政府计划推出大约3000个中文字符的编码,此举属于“中华字库工程”的一部分。这个宏大的工程将把以前没有电子形式的50万个字符进行数字化。到目前为止,国际计算标准Unicode已经对80388个进行了编码。

该项目包含全国56个民族的10万个字符,以及来自中国书面语料库的另外10万个生僻字和古文字。该项目动员了近30家公司、机构和大学,是有史以来规模最大的政府资助数字化项目。

这些字符长期囿居于蒙尘的古旧手稿上,它们将在数字媒体中获得新生。扩展到网上之后,中国和世界各地的人可以更加方便地接触这些文稿,这将有助于中国语言和文化的传播。

Ad:美好不容错过,和家人朋友一起享受愉快时光,现在就订票

全球信息架构以使用西方字母表为主,给中国造成了一些困难。现代通信领域的重大创新——莫尔斯电码、打字机和ASCII(美国信息交换标准代码)编码标准——无一考虑到了中文字的使用。

几十年来,中国科学家一直在努力打破字母媒介的壁垒。1974年,中国政府指示工程师和数学家寻找一种方式,来使用美国的字母键盘。最终他们配置了数千个击键组合,以便在计算机的标准键盘上键入数以万计的字符。

长期以来,一直觉得他们在书面语言上具有优越性。北京政府认为,当前Unicode中编码字符的数量不足以代表中国古代文化的丰富性。通过字库工程,中国人将解锁他们的文稿宝库,从古代的甲骨文到少数民族语言文字,都将进行数字化。

通过孔子学院等方式在世界各地传播中国语言和文化,是北京过去十年提升软实力战略的组成部分。字库工程将把这个使命带入数字领域。

从学术论文到Twitter消息的任何内容,只要能被人看到,就会有助于扩大中文的覆盖面。随着越来越多的中文进入网络空间,就会有更多的人开始使用它,其地位也将随着可见度的增加而上升。

这个数字化项目也可以为很多中国人解决一个大难题,他们对中文数字化的不完善感到不满意。

去年,中国一家媒体报道了一个10岁男孩的故事。他有一个寓意吉祥的名字,使用了一个由“龍”和“天”组成的生僻字。校方在计算机系统中找不到这个字符,当他通过了一个重要考试后,他的姓名在证书上却只剩下一个普通而平淡的字——“皓”,意思是“白色”。他不能充分证明自己通过了考试,这让他的父亲很不满。

还有很多其他影响更严重的例子:一些人因为身份证件上无法显示正确的姓名而无法使用医保或取钱。过去,人们可以通过手动填写生僻字来解决这个问题。如今,如果姓名没有正确的电子形式,这个名字可能也就不存在了。

像这样的案例实在太多,以至于中国在本世纪初开始指定哪些字可用于起名。当局规定,超出指定的那1605个字的姓名必须改名。新增加的这些文字将在不限制家长的起名权的情况下解决这些令人头痛的问题。

尽管扩大中文在数字世界的版图好处很多,但依然有理由保持警惕。从项目发言人的表述看,负责该项目的机构,同时也在负责审查与信息交流的控制,其目的是重塑互联网上以西方为主导的数字内容。为避免政府审查而使用生僻字表达隐秘或玩笑意思的网民,可能会发现可用的词越来越少。

近年来,随着官方的网络监视机构规模扩大,网民们找到了通过双关语、使用变体或古文字以及台湾等地区研发的非标准化电子字体攻击政府的途径。字库工程将实现语言的标准化,并且随着用于保密的文字进入官方数据库,颠覆性语言将更容易检测。新近被数字化的文字将帮助中国更好地追踪民众的动向、财务状况以及在公开场合和私底下的言论。

但该项目的作用远不仅限于此。把最大的词汇表放到网上被称作“借船出海”,这是一项利用他国的网络、基础设施和资源让中国的议程走向全球的战略。

来源:纽约时报 转载请注明作者、出处並保持完整。

喜欢、支持,请转发分享↓Follow Us 责任编辑:宋伯明