一种基于mean-SAP池化模型的说话人识别方法及系统

本发明公开了一种基于mean‑SAP池化模型的说话人识别方法及系统，该方法及系统通过线性注意力机制产生每帧帧级特征的重要性权重，并通过产生的重要性权重生成统计向量，然后将帧级特征和统计向量的残差与重要性权重加权平均生成话语级特征。最后将话语级特征与数据库中的说话人特征进行欧式距离比较，以确定说话人身份。本发明通过线性注意力机制及引入统计向量的方式，弥补了Self‑attention pooling(SAP)池化模型捕捉有效帧不准确生成的话语级特征鲁棒性弱的问题，提高了说话人识别的准确率。

高性能的说话人特征提取：该方法使用深度神经网络（DNN）或卷积神经网络（CNN）等先进的特征提取模型，能够从语音信号中提取出高质量的说话人特征。这些特征具有较强的区分度和鲁棒性，为后续的说话人识别提供了可靠的基础。基于mean-SAP池化的特征聚合：mean-SAP池化是一种有效的特征聚合方法，它通过对多帧说话人特征进行加权平均，得到更稳定和可靠的表示。与传统的max-pooling或average-pooling相比，mean-SAP池化在利用特征信息的同时保留了更多的上下文相关性，提高了说话人识别的准确性。端到端系统设计：该方法采用端到端的系统设计，将特征提取、特征聚合和说话人分类等步骤整合在一个统一的系统中。这种端到端的设计简化了整个识别流程，提高了系统的效率和可扩展性。强大的泛化能力：基于mean-SAP池化模型的说话人识别方法具有良好的泛化能力，能够应对多样化的语音数据和环境条件。它可以适应不同噪声环境、语速变化以及不同的语音录制设备，具有较强的鲁棒性和可靠性。

成都理工大学是国家首批“双一流”建设高校。其前身是创办于1956年的成都地质勘探学院，是共和国建国初期的三所地质院校之一。1958年更名为成都地质学院，1993年更名为成都理工学院，2001年更名为成都理工大学。学校先后由地质部、地质矿产部、国土资源部直属，2000年划转地方，实行中央与地方共建、以四川省人民政府管理为主的办学体制。2010年学校成为国土资源部与四川省人民政府共建高校，2019年成为教育部与四川省共建的“双一流”建设高校。2022年学校入选国家第二轮“双一流”建设高校。在半个多世纪的办学历程中，成都理工大学矢志报国、上下求索，风雨兼程、耕耘不辍，为社会培养了近30万名优秀人才，为我国经济建设和社会发展作出了重要贡献；他们当中涌现出一批知名学者、专家和管理人才，其中有两院院士5人。学校在长期的办学实践中形成了“穷究于理、成就于工”的校训、“艰苦奋斗、奋发图强”的优良传统、“不甘人后、敢为人先”的进取精神。

评价单位：- (-) 评价时间：2023-08-02

顾城天

电子科技大学成都学院

教授

综合评价

综上，适合推广。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站