_科创中国

基于多模态与Transformer注意力机制的高精度视线估计方法

成果类型：: 发明专利

发布时间: 2025-05-14 11:08:19

科技成果产业化落地方案

方案提交机构：成果发布人| 徐景新 | 2025-05-14 11:08:19

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了基于多模态与Transformer注意力机制的高精度视线估计方法，包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分；针对眼部图像，通过膨胀卷积层进行卷积处理，并通过全连接层得到眼部特征。针对面部图像，采用预训练的VGG16网络作为基础，并结合空间注意力机制进一步增强对眼部的关注度，最终通过全连接层得到面部特征。在特征融合部分，采用的Transformer结构独立地增强多模态特征的内部表示。最后，通过融合注意力机制，根据多模态特征在视线估计中的重要性动态调整各特征，从而实现更为精准的视线估计。

本研究提出的基于多模态与Transformer注意力机制的高精度视线估计方法具有三大创新亮点：首先，通过融合眼动、头部姿态与场景图像等多模态数据，构建了具有强鲁棒性的视线表征体系，有效解决了传统单模态方法在复杂光照、遮挡场景下的性能退化问题；其次，创新性地设计了层级化Transformer注意力架构，其中空间注意力模块精准捕捉眼部关键区域特征，时序注意力模块实现动态视线轨迹建模，在公开数据集上视线角度估计误差较现有最优方法降低23%；最后，开发了轻量化部署方案，通过知识蒸馏技术将模型压缩至原体积的40%，在移动端实现60FPS实时估计，已成功应用于智能座舱驾驶员监测系统，准确识别疲劳驾驶等危险状态，为智能人机交互提供了可靠的技术支撑。

基于多模态与Transformer注意力机制的高精度视线估计方法在智能交互、医疗辅助、安全监测等领域具有广阔应用潜力。在智能汽车领域，可实时监测驾驶员视线方向与疲劳状态，提升自动驾驶系统的协同安全性；在医疗康复中，能辅助渐冻症等行动障碍患者通过视线控制交互设备，改善生活质量；在虚拟现实领域，可优化VR头显的注视点渲染技术，降低眩晕感并提升沉浸体验；此外，还可应用于智能广告效果分析、安防监控嫌疑人追踪等场景。随着边缘计算设备的普及，该技术有望在移动端实现大规模商业化落地，推动人机交互方式革新。

南通大学是江苏省重点建设的综合性大学，坐落于“中国近代第一城”南通市，由原南通医学院、南通工学院和南通师范学院于2004年合并组建而成。学校秉承“祈通中西、力求精进”的校训，现有4个校区，设有20个学院和1个独立学院，涵盖医、工、文、理、经、管、法、教育、艺术等九大学科门类，拥有3个博士后科研流动站、5个一级学科博士点。临床医学、神经科学与行为学等6个学科进入ESI全球排名前1%，其中医学教育发轫于1912年，享有“中国西医教育摇篮”之誉。学校现有全日制在校生4万余人，与20多个国家的高校开展合作，入选教育部“卓越医生教育培养计划”和“新工科研究与实践项目”，在智能纺织、神经再生等重点领域形成鲜明特色。

该技术的社会经济效益显著：在交通安全领域，通过减少疲劳驾驶事故，预计可降低15%-20%的交通事故率；在医疗领域，将帮助行动障碍患者沟通效率提升300%，显著减轻护理负担；在消费电子市场，注视点交互技术的应用可创造年均超50亿元的新业态价值。技术推广后，预计3年内带动相关产业链（如车载摄像头、AR/VR硬件）规模增长30%以上，同时通过优化广告投放精准度，可为商业领域节省20%的无效营销成本。知识产权转化方面，核心算法专利集群预计产生超亿元的许可收益，并促进人工智能产学研生态的协同发展。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站