文章 | 基于深度学习的蒙古语 AI 合成主播
摘要
Abstract
目前,汉文 AI合成主播已被运用于新闻内容生产和传播,为传统新闻媒体行业开了新的发展路径,但蒙古语 AI合成主播技术的研究仍处于起步阶段。为了研发蒙古语 AI合成主播系统,本文采用深度学习技术提出了基于嘴型分类的蒙古语 AI合成主播模型。首先采用 bamaNet 模型构建了蒙古语 AI合成主播基线系统,因为基线系统的时间开销大,提出了基于嘴型分类的蒙古语 AI合成主播模型,此方法使用9种嘴型标签代表所有的嘴型状态,将得到的语音特征同步到不同的嘴型,根据得到的嘴型选择候选帧,得到 AI主播合成视频。文章构建了蒙古语 AI合成主播视频语料库,并以此为基础进行了实验比较。结果表明,文中提出的模型可以生成自然度较好的蒙古语 AI合成主播视频。
模型与方法
Model And Methods
结论与展望
Conclusion And Prospect
对蒙古语视频语料库稀缺的问题,本文设计并搭建了蒙古语视频语料库。基于 ObamaNet 实现了蒙古语 AI合成主播的基线系统,并参考 MOS 制定了本文蒙古语 AI合成主播实验的主观评测标准本文提出了基于嘴型分类的蒙古语 AI合成主播模型,根据二维动画的思想,将嘴型归类为若干典型嘴型,由语音生成嘴型标签序列,并提前合成了嘴型标签对应的候选帧,提高了合成速度和嘴型同步度。
通过对蒙古语 AI合成主播的研究,实现了蒙古语 AI合成主播的合成任务,但合成效果距离真实主播仍存在一定的差距,在未来工作中,可以对人像生成模型结构进行改进优化,增强对面部纹理、嘴唇牙齿等细节的处理,合成更加高清的高分辨率人像,从而最直观地在图像质量方面提升合成效果,针对目前表情单一且略显僵硬的问题,融入情感合成技术,根据不同的语义生成表情信息,合成带有情感的表情。
—— END ——
点击“阅读原文”获取文章信息~