一种自监督模型的舌部超声图像合成语音方法

本案涉及一种自监督模型的舌部超声图像合成语音方法，属于电子信息技术领域。本案旨在通过深度学习技术，直接通过超声成像方法找出人说话时舌头运动的特征，建立超声舌部图像与语音之间的映射关系，从而实现端到端的语音合成。该方法不易受环境影响，保密性较强。针对训练时的需要监督数据多，模型收敛难度大的问题，采用一种自监督的学习框架，它可以在训练阶段掩盖部分视频或音频的输入，并预测自动发现和迭代细化的多模态隐藏单元，增强模型的泛化能力，适当降低使用的训练数据，并让模型更容易收敛。

权利要求 1.一种自监督模型的舌部超声图像合成语音方法，其特征在于，所述方法如下：通过获取舌部超声图像序列，利用训练好的学生网络预测舌部超声图像序列对应的一段声学特征，并合成语音；所述学生网络在训练时，结合教师网络训练，与教师网络构成自监督学习框架，采用掩码策略自动发现并预测无标签数据集中的有用信息。 2.根据权利要求1所述的方法，其特征在于：学生网络与教师网络均包括编码器、解码器、音频特征提取单元；音频特征提取单元，用于分离舌部超声视频中的音频部分，将音频波形转换为梅尔频谱；编码器使用3D-CNN网络提取舌部图像的视觉特征；解码器使用Transformer模块处理编码器输出的隐藏状态特征向量，所述隐藏特征向量用于推测梅尔频谱并合成语音。 3.根据权利要求2所述的方法，其特征在于：学生网络包括第一视听融合模块，位于学生网络中的Transformer模块之前；教师网络包括第二视听融合模块，位于教师网络中的Transformer模块之前；第一视听融合模块和第二视听融合模块用于接收视觉特征和视觉特征一一对应的梅尔频谱两种模态数据；

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力，推动我国自主知识产权新工业的建立，成为国际一流的工业研究院。深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统，由九个研究平台，国科大深圳先进技术学院，多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究，促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

点击查看

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站