统一字库到底有多难
一个不小的群体,经历着为“名”所累的难题。另一位名字里含有“韡”字的受访人对中国青年报·中青在线记者说:“现在技术这么发达,收录整本《新华字典》的汉字占不了多大空间,到底难在哪儿?”
据报道,今年两会,全国政协委员、中国科学院大连化学物理研究所洁净能源国家实验室主任李灿提交了《关于解决姓名中含有生僻字人员办证难问题的提案》,建议国家相关部门统一升级字库。
李灿在他的提案中称,据不完全统计,在全国13亿人口中,名字中有生僻字的超过6000万人次,这类问题涉及的并非极少数人,这还不包括少数民族名字中的分隔符问题。
这位政协委员建议指定机构、指定网站更新汉字总字库,在身份信息核定的初始机关使用统一汉字库,并保证该字库内的字都是通过常用输入法输入,避免需要身份识别的机构无法识别户籍系统录入的信息,实现信息共享。需要核实身份信息的机构,要同步更新字库、升级系统,使各级职能部门电脑字库在规定时间升级并保持一致。
某种程度上,钟韡是不同部门之间“信息孤岛”的一位难民。国务院总理李克强表示,过去较长时期一些地方和部门的信息化建设各自为政,形成“信息孤岛”和“数据烟囱”,严重制约政府效能提升,给企业群众办事创业造成很大不便。去年12月,李克强签批了《“十三五”国家信息化规划》并明确表示,“信息孤岛要坚决打通,起码政府系统不应再有”。
关于生僻字带来的困扰,搜狗输入法高级总监杨磊表示:“随着数字时代和效率优先的步伐越走越快,各种输入工具只重视多数人利于交流的便利,确实忽略掉了少数生僻字的录入。”
他介绍,汉字中的生僻字有4万多个,且大部分很少使用。在字符编码上,这些汉字需要4字节编码,而微软WINDOWS系统默认仅支持2字节编码的汉字。虽然可以采用自造字的技术支持,但受限于系统自造字的码位限制,仅能加入几千个字,“所以我们会在收集到用户缺字反馈时酌情加入。”
杨磊表示,搜狗输入法收录生僻字的工作一直都在进行,3年前启动“一字千金”活动,向全民征集生僻字、缺字,征集了大概4万多个;两年前的生僻字版本上线,先期上线了6000多个。“未来,我们还会通过各种手段,一方面尽量解决用户在输入上的困难;另一方面也会通过多种活动在社会层面引发大家对生僻字、对汉字文化的关注。”
钟韡关心的问题在于,明明在公安部门能显示出的名字,为什么换一个部门就显示不出来?
公安部在官方网站回复网民“关于咨询有关身份证等证件上的生僻字问题”时解释,为解决少数公民姓名中使用了生僻汉字、计算机系统无法识别录入的问题,公安机关从2002年开始研究、开发统一的人口信息专用字库和冷僻字解决方案。截至目前,包含3.2万个汉字的人口信息专用汉字字库已在公安人口信息管理系统中使用。新发现的冷僻字,凡符合国家语言文字规范和标准的,统一增补到专用字库中,尽可能满足公民办理户籍和居民身份证的需要。
公安部还提醒说,由于冷僻字不属于国家通用规范汉字,即使公安机关通过专门手段实现了户籍信息的录入等问题,并不表示在其他部门和行业领域能够通行,建议公民在取名时尽量使用通用规范汉字,“避免给自己的经济社会生活带来不必要的麻烦”。
为了帮生僻字统一“通行证”,2016年5月,公安部会同国家民委、教育部、工信部等14个部委联合发布了《关于在政府管理部门和社会公共服务信息中统一姓名采集应用规范的通知》,要求实现对国家标准编码汉字全覆盖的要求,加快信息系统升级改造。
2016年7月,公安部联合工信部、人社部、住建部、卫计委、人民银行、中国民用航空局、中国铁路总公司等部门,推动姓名中含有冷僻字的身份证在各用证部门特别是基层窗口单位全面正常使用。
就在这一系列文件下发的几个月之后,钟韡还是把名字改了,“我实在是等不起了。”
现在,他叫钟玮。少了那份长辈所希冀的“光明和美好”,他恋恋不舍,家人也不太开心。
对新的“钟玮”来说,麻烦还没有结束。他此前20多年的人生,已经与那个生僻字绑定在一起,留下了无数的记录和证件,不知何时就会冒出来,等着他逐一修改。他只是用新的麻烦替换了旧的麻烦。
原标题:信息孤岛上一群难民为“名”所累