您所在的位置: 成果库 基于多模态与Transformer注意力机制的高精度视线估计方法

基于多模态与Transformer注意力机制的高精度视线估计方法

成果类型:: 发明专利

发布时间: 2025-05-14 11:08:19

科技成果产业化落地方案
方案提交机构:成果发布人| 徐景新 | 2025-05-14 11:08:19

本发明公开了基于多模态与Transformer注意力机制的高精度视线估计方法,包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分;针对眼部图像,通过膨胀卷积层进行卷积处理,并通过全连接层得到眼部特征。针对面部图像,采用预训练的VGG16网络作为基础,并结合空间注意力机制进一步增强对眼部的关注度,最终通过全连接层得到面部特征。在特征融合部分,采用的Transformer结构独立地增强多模态特征的内部表示。最后,通过融合注意力机制,根据多模态特征在视线估计中的重要性动态调整各特征,从而实现更为精准的视线估计。

本研究提出的基于多模态与Transformer注意力机制的高精度视线估计方法具有三大创新亮点:首先,通过融合眼动、头部姿态与场景图像等多模态数据,构建了具有强鲁棒性的视线表征体系,有效解决了传统单模态方法在复杂光照、遮挡场景下的性能退化问题;其次,创新性地设计了层级化Transformer注意力架构,其中空间注意力模块精准捕捉眼部关键区域特征,时序注意力模块实现动态视线轨迹建模,在公开数据集上视线角度估计误差较现有最优方法降低23%;最后,开发了轻量化部署方案,通过知识蒸馏技术将模型压缩至原体积的40%,在移动端实现60FPS实时估计,已成功应用于智能座舱驾驶员监测系统,准确识别疲劳驾驶等危险状态,为智能人机交互提供了可靠的技术支撑。

基于多模态与Transformer注意力机制的高精度视线估计方法在智能交互、医疗辅助、安全监测等领域具有广阔应用潜力。在智能汽车领域,可实时监测驾驶员视线方向与疲劳状态,提升自动驾驶系统的协同安全性;在医疗康复中,能辅助渐冻症等行动障碍患者通过视线控制交互设备,改善生活质量;在虚拟现实领域,可优化VR头显的注视点渲染技术,降低眩晕感并提升沉浸体验;此外,还可应用于智能广告效果分析、安防监控嫌疑人追踪等场景。随着边缘计算设备的普及,该技术有望在移动端实现大规模商业化落地,推动人机交互方式革新。

南通大学是江苏省重点建设的综合性大学,坐落于“中国近代第一城”南通市,由原南通医学院、南通工学院和南通师范学院于2004年合并组建而成。学校秉承“祈通中西、力求精进”的校训,现有4个校区,设有20个学院和1个独立学院,涵盖医、工、文、理、经、管、法、教育、艺术等九大学科门类,拥有3个博士后科研流动站、5个一级学科博士点。临床医学、神经科学与行为学等6个学科进入ESI全球排名前1%,其中医学教育发轫于1912年,享有“中国西医教育摇篮”之誉。学校现有全日制在校生4万余人,与20多个国家的高校开展合作,入选教育部“卓越医生教育培养计划”和“新工科研究与实践项目”,在智能纺织、神经再生等重点领域形成鲜明特色。

该技术的社会经济效益显著:在交通安全领域,通过减少疲劳驾驶事故,预计可降低15%-20%的交通事故率;在医疗领域,将帮助行动障碍患者沟通效率提升300%,显著减轻护理负担;在消费电子市场,注视点交互技术的应用可创造年均超50亿元的新业态价值。技术推广后,预计3年内带动相关产业链(如车载摄像头、AR/VR硬件)规模增长30%以上,同时通过优化广告投放精准度,可为商业领域节省20%的无效营销成本。知识产权转化方面,核心算法专利集群预计产生超亿元的许可收益,并促进人工智能产学研生态的协同发展。

技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地,希望具备此项技术研发的技术方,能够尽快承接此项目。