新译科技官网上线维吾尔语、藏语、蒙古语、哈萨克语对汉语的实时翻译系统
近日,新译科技官网(www.newtranx.com)正式上线维吾尔语、藏语、蒙古语、哈萨克语对汉语的实时翻译系统。该系统相比较以往的机器翻译系统翻译质量大大提高,且基于真实大数据的模型训练是该系统的一大突破,能够提高少数民族语言办公自动化、网页互译、论文学习、古籍整理等方面的效率和质量。
从语言的系属来看,我国56个民族使用的语言分别属于五大语系:汉藏语系、阿尔泰语系、南岛语系、南亚语系和印欧语系。相对汉语而言,少数民族语言文字训练素材不足,如何利用有效的算法提升低资源下的翻译效果,历来是机器翻译产业界和学界探索的重大课题。
此次新译科技官网上线维吾尔语、藏语、蒙古语、哈萨克语对汉语的实时翻译系统,在前期引擎训练中,新译科技研发团队采用基于自注意力的Transformer框架作为基准模型结构,使用了更大的模型参数,还组织相关专业翻译人员精译了3万句的各个少数民族语言例句,并在使用大量伪数据和真实数据合并的数据进行预训练时对真实数据赋予更高权重,同时适当降低了伪数据的权重,从而达到模型更偏向真实数据的目的。
图:维吾尔语和汉语翻译示例
图:藏语和汉语翻译示例
图:蒙古语和汉语翻译示例
图:哈萨克语和汉语翻译示例
即日起,具有少数民族语言翻译需求的用户可以登录新译科技网站的智能翻译界面体验相关语言服务产品了。点击推文底部“阅读原文”按钮或复制以下网址到浏览器打开:https://fanyi.newtranx.com/#/onTrans,即可进入新译官网智能翻译界面。欢迎大家反馈使用中的问题,提供意见和建议,新译科技将不断改进、完善,推出更优质、更快捷、更好用的智能翻译引擎。
小贴士
从语言的系属来看,我国56个民族使用的语言分别属于五大语系:汉藏语系、阿尔泰语系、南岛语系、南亚语系和印欧语系。
汉藏语系分为汉语和藏缅语族、侗台语族、苗瑶语族。属于藏缅语族的有藏、嘉戎、门巴、仓洛、珞巴、羌、普米、独龙、景颇、彝、傈僳、哈尼、拉祜、白、纳西、基诺、怒苏、阿侬、柔若、土家、载瓦、阿昌等语言;属于苗瑶语族的有苗、布努、勉等语言;属于壮侗语族的有壮、布依、傣、侗、水、仫佬、毛南、拉珈、黎、仡佬等语言。
阿尔泰语系分为蒙古、突厥、满—通古斯三个语族。属于蒙古语族的有蒙古、达斡尔、东乡、东部裕固、土、保安等语言;属于突厥语族的有维吾尔、哈萨克、柯尔克孜、乌孜别克、塔塔尔、撒拉、西部裕固、图佤等语言;属于满—通古斯语族的有满、锡伯、赫哲、鄂温克、鄂伦春等语言。
属于南岛语系的是台湾高山族诸语言,还有海南回族的回辉话。
属于南亚语系孟高棉语族的有佤、德昂、布朗、克木等语言。
属于印欧语系的是属斯拉夫语族的俄语和属伊朗语族的塔吉克语。朝鲜语的系属尚未取得统一意见。
——摘自教育部发布的《中国语言文字概况(2021年版)》