搭建易扩展的小语种识别系统实践 ——以旧蒙文识别为例

搭建易扩展的小语种识别系统实践 ——以旧蒙文识别为例

蒙古网站king2019-10-08 0:19:568598A+A-


搭建易扩展的小语种识别系统实践

——以旧蒙文识别为例


近年来,我国着重发展各地区文化特色,鼓励恢复少数民族传统风俗,推动对少数民族语言的研究。其中,在内蒙古地区蒙古族人口为421.1万人,占内蒙古总人口的17.65%,主要使用蒙古和汉语。与蒙古国与俄罗斯部分地区使用的新蒙语不同,我国内蒙古地区使用的依旧是传统蒙语。同时,随着越来越多的蒙古文古迹的发掘,对蒙古族文化的研究越来越深入。为了更加便捷的对蒙古族文化进行研究与宣传,高效的将蒙古文资料与文献转化为图像形式,建立智能的文字识别系统,是科技潮流的大势所趋也是社会与市场的迫切需要。



现有的蒙古文识别研究在技术与素材上受到了较多限制。现有主流的方法还主要是基于图像处理形态学方法,对蒙古文进行切割与倾斜校正等,或使用较为简单的神经网络进行蒙古文字的识别,其效率与正确率往往无法达到工业化水平要求。
相比于传统方法,我司基于先进的人工智能技术,设计并完成了两套针对蒙古文图像的文字识别方法,分别为:高效的深度学习卷积神经网络方法,与针对蒙古文词语特性设计的融合深度学习模型方法。
由于蒙文属于阿尔泰语系,其文字的拼写方式、书写格式均与我们处理的汉字、英文等目标不同,因此这两套方法分别设计了对应的解决方案。



蒙古文排版方式

与文字示例


针对蒙古文的文字形态特性,及其区别于汉语、英文等的排版方式,我们设计并构建了应对此情况的深度学习卷积神经网络。此网络不同于研究领域中使用的超深度网络结构,并非使用大量卷积模块的堆叠,而是使用更加轻便高效的网络模块组合。在保证了对文字特征的深度挖掘基础上,拓展了网络的宽度,确保挖掘到的图像特征更具代表性和有效性,结构示意图如下图所示:


深度学习卷积神经网络方法结构示意图


针对蒙古文字图像呈“竖长条”形状,本网络中没有单纯使用常见的nxn核尺寸,而是使用wxh、nxn两种核尺寸的组合策略。此策略充分考虑了蒙古文图像的形状特性,保证图像在经过深度网络后,能够挖掘到充分且平衡的特征数据,从而有效提升本网络对蒙古文字的正确识别概率。同时,为了更有效的克服同种单词的不同字体情况,本网络在拓展网络深度的同时,延展了网络的宽度。与一味加深网络深度相比,宽度的增加为特征学习带来了更多的角度与可能,从而有效提升网络对抗复杂字体的能力。
根据蒙古文所属语系特点,其每个单词均由单个或多个字母组成。同时在组成的过程中,字母还可能出现不同程度的形变。根据此种特点,我们设计了一种融合深度学习网络模型。通过将两种不同结构的神经网络模型进行融合,实现对蒙古文单词中每个字母的对应识别。在传统的卷积神经网络识别任务中,通常只能获得该文字的类别,却无法分析其组成字母,未能给后续研究提供更多的素材支持。为了解决这一缺憾,我们借鉴自然语言处理与语音处理的经验,使用循环神经网络模型对卷积网络挖掘的特征,进行更进一步的分析与学习,结构如下图所示:


融合深度学习模型方法结构示意图


在使用卷积神经网络挖掘图像内特征前提下,对特征进行时序上的分析与学习。本网络结果不仅对图像内文字、单词的形态等特征进行了学习,同时也对其上下文的特征联系进行了学习,模拟了人类大脑在学习与读写蒙古文字的过程。值得注意的是,由于蒙古文的语言特性,字母在拼接成单词的过程中,时常会出现畸变等情况,通过对特征上下文的深度学习,使得融合深度学习模型在处理该情况时,具有较好的鲁棒性。
经过与处理蒙古文的传统切分识别方法对比,这两种方法都更具优势。特别是在处理不同字体的蒙古文时,深度学习卷积神经网络模型方法平均正确识别率达到95%,融合深度学习模型方法平均正确识别率达到85%。传统方法无法适应多样字体带了的结构变化,但我们提出的俩种方法能够较好的适应这种形变。值得指出的是,融合深度学习模型方法的正确率虽然小于卷积神经网络模型方法,但其在广阔的数据范围下,更具鲁棒性。
现有基于深度学习模型方法的自动化全篇蒙文识别系统已经完成工业化实现,识别界面与结果如下图所示:



识别界面与结果展示


旧蒙文识别系统是少数民族文字识别的实际案例,而旧蒙文是少数民族文字里较为复杂的一种,旧蒙文是竖写文字,存在同形异读现象,字体特殊性大,因此识别的难度较大,系统提供了旧蒙文识别的解决方案,达到较好的可应用的识别精度;在旧蒙文识别上验证了解决方案的有效性,更重要的是,本系统采用的解决方案具有对各种语言的可移植性,可推广至其他少数民族文字的识别应用,快速解决类似问题。



来源:CNKI智能图文


0
0
打赏
0
点击这里复制本文地址

支持Ctrl+Enter提交
qrcode

蒙文软件|蒙古软件|蒙古软件下载|蒙文手机|蒙古网站|蒙科立||Mongolian Software|Mongolian Software Download|Mongolian Phone|Mongolia Website|Mongolia| © All Rights Reserved.  蒙ICP备13001995号-4蒙公网安备15052402000125号
Powered by Z-BlogPHP Themes by 蒙古文软件大全
联系我们| 关于网站| 免责声明