> 快讯 >

支持最新国标8万生僻字,CFCA升级手写识别系统

时间:2023-02-08 10:00:56       来源:中国电子银行网


(资料图片)

新年伊始,中国金融认证中心(CFCA)重磅发布第六代手写笔迹识别系统,实现了对最新国标8万生僻汉字的兼容,攻克了手写生僻字自动识别比对的应用难点。

CFCA第六代手写笔迹识别系统采用前沿深度学习中的“元学习”技术,能在少量样本甚至无样本情况下识别罕见的手写体生僻字,符合2022年最新的国家标准GB18030-2022 《信息技术 中文编码字符集》,为国内首款完全支持此标准的手写识别系统,同时也支持最新的行业标准《金融服务 生僻字处理指南》(JR/T 0253—2022)。

信息系统的生僻字支持工作是“我为群众办实事”理念的有力体现,从2021年底包括工信部在内的多个国家部委大力推进各行业系统升级,其中金融行业更是重点领域,2022年6月人行正式发布《金融服务 生僻字处理指南》金融行业标准并召开宣讲会,在银行、保险等领域大力推进。传统的生僻字支持通常指汉字字符能够正常地显示、录入、传输、保存,其主要工作在于对老旧系统的字符集、字体、输入法升级检查,工作量较大但在技术上没有特别大的难点。

CFCA第六代手写笔迹识别系统支持所有已知生僻字

典型的电子保单办理抄录风险须知的场景

但是在近年来流行的电子合同签署过程中,常常涉及对用户手写签字、手写抄录条款内容的识别,防止恶意签署他人姓名等异常行为,其中对手写体生僻字的识别一度存在技术难点,目前市场上极少有能够支持识别手写生僻字的系统,涉及到生僻字时需要由人工介入审核,降低了业务效率和用户体验。这是因为传统的文字识别技术依赖于较多的样本数据,而由于生僻字本身的罕见性,收集到能够满足机器学习训练任务所需的手写生僻字数据量几乎是不可能的任务。

元学习模型具备快速学会新任务的能力

为了解决这一难题,CFCA引入人工智能前沿技术元学习(Meta-learning),这一种方法可以帮助机器学习算法更好地处理少量数据甚至无数据的情况,通过对许多不同的学习任务进行训练,旨在使模型能够自主地根据所给的任务学习到“知识”从而能处理新的任务。

比如给模型设定的目标不再是直接识别每一个字符的分类任务,而是设定笔画、偏旁部首、结构、相似性分析等多个目标协作训练,使得模型具有根本的手写字形特征识别的能力,从而可以通过一个文字样本完成识别(one-shot),甚至在无样本的情况下识别(zero-shot),经实验验证,该系统不仅能识别所有已知汉字,也支持对英日韩等文字、特殊字符的识别。

古老的汉字遇到年轻的人工智能,“笔走龙蛇”的个性化书写将更好地融入标准化的交互终端,实现中国人“见字如面”的理想。未来,CFCA将继续推进人工智能相关研发,让用户享受前沿科技带来的便利,让企业更加合规地开展在线业务。

标签: 识别系统 人工智能 机器学习