您所在的位置: 成果库 一种自监督模型的舌部超声图像合成语音方法

一种自监督模型的舌部超声图像合成语音方法

成果类型:: 发明专利

发布时间: 2023-09-26 17:10:50

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-10-10 14:31:10
本案涉及一种自监督模型的舌部超声图像合成语音方法,属于电子信息技术领域。本案旨在通过深度学习技术,直接通过超声成像方法找出人说话时舌头运动的特征,建立超声舌部图像与语音之间的映射关系,从而实现端到端的语音合成。该方法不易受环境影响,保密性较强。针对训练时的需要监督数据多,模型收敛难度大的问题,采用一种自监督的学习框架,它可以在训练阶段掩盖部分视频或音频的输入,并预测自动发现和迭代细化的多模态隐藏单元,增强模型的泛化能力,适当降低使用的训练数据,并让模型更容易收敛。
权利要求 1.一种自监督模型的舌部超声图像合成语音方法,其特征在于,所述方法如下: 通过获取舌部超声图像序列,利用训练好的学生网络预测舌部超声图像序列对应的一段声学特征,并合成语音; 所述学生网络在训练时,结合教师网络训练,与教师网络构成自监督学习框架,采用掩码策略自动发现并预测无标签数据集中的有用信息。 2.根据权利要求1所述的方法,其特征在于: 学生网络与教师网络均包括编码器、解码器、音频特征提取单元; 音频特征提取单元,用于分离舌部超声视频中的音频部分,将音频波形转换为梅尔频谱; 编码器使用3D-CNN网络提取舌部图像的视觉特征; 解码器使用Transformer模块处理编码器输出的隐藏状态特征向量,所述隐藏特征向量用于推测梅尔频谱并合成语音。 3.根据权利要求2所述的方法,其特征在于: 学生网络包括第一视听融合模块,位于学生网络中的Transformer模块之前; 教师网络包括第二视听融合模块,位于教师网络中的Transformer模块之前; 第一视听融合模块和第二视听融合模块用于接收视觉特征和视觉特征一一对应的梅尔频谱两种模态数据;

无声语音接口技术的基本原理:通过传感器获取人体发音器官例如舌头,唇部的运动信号,并对信号进行处理和编码,然后选择恰当的模型与算法进行解码,最后合成、重建语音。这实现了非声学信号到声学信号的转换,用来达到无声交流的目的。

近年来,形成了不少解决无声语音接口技术相关问题的研究,其中一种为基于图像、视频流的唇部光学图像或舌部超声图像的语音合成方法。这种方法获取数据是非侵入式,具有临床安全性,可以获得大量的自然数据,以作为训练样本。但直接通过唇部视频合成语音的方法,在与智能设备交互时,易受环境影响,有一定局限性;如光照条件较差或是使用者戴口罩时将不能达到很好的效果。此外,对有唇语经验的人,直接使用唇部视频也有个人信息被泄露的风险,保密性较弱。此类技术一般使用编码器-解码器框架的序列模型作为解决方法。但这些神经网络的训练往往需要大量的视频-音频同步数据监督训练,模型也往往难以收敛。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

作为上述技术方案的进一步改进,通过对学生网络的训练输入数据音频,添加随机噪声以增强模型的鲁棒性,即学生网络的训练输入数据是添加随机噪声的音频、与添加随机噪声前的音频一一对应的舌部图像序列,而教师网络的训练输入数据是完全干净的音频,即教师网络的输入数据分别是纯音频、与纯音频一一对应的舌部图像序列。

技术合作

软件程序实现是更佳的实施方式。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。