本发明公开了基于多模态与Transformer注意力机制的高精度视线估计方法,包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分;针对眼部图像,通过膨胀卷积层进行卷积处理,并通过全连接层得到眼部特征。针对面部图像,采用预训练的VGG16网络作为基础,并结合空间注意力机制进一步增强对眼部的关注度,最终通过全连接层得到面部特征。在特征融合部分,采用的Transformer结构独立地增强多模态特征的内部表示。最后,通过融合注意力机制,根据多模态特征在视线估计中的重要性动态调整各特征,从而实现更为精准的视线估计。
本研究提出的基于多模态与Transformer注意力机制的高精度视线估计方法具有三大创新亮点:首先,通过融合眼动、头部姿态与场景图像等多模态数据,构建了具有强鲁棒性的视线表征体系,有效解决了传统单模态方法在复杂光照、遮挡场景下的性能退化问题;其次,创新性地设计了层级化Transformer注意力架构,其中空间注意力模块精准捕捉眼部关键区域特征,时序注意力模块实现动态视线轨迹建模,在公开数据集上视线角度估计误差较现有最优方法降低23%;最后,开发了轻量化部署方案,通过知识蒸馏技术将模型压缩至原体积的40%,在移动端实现60FPS实时估计,已成功应用于智能座舱驾驶员监测系统,准确识别疲劳驾驶等危险状态,为智能人机交互提供了可靠的技术支撑。
南通大学是江苏省重点建设的综合性大学,坐落于“中国近代第一城”南通市,由原南通医学院、南通工学院和南通师范学院于2004年合并组建而成。学校秉承“祈通中西、力求精进”的校训,现有4个校区,设有20个学院和1个独立学院,涵盖医、工、文、理、经、管、法、教育、艺术等九大学科门类,拥有3个博士后科研流动站、5个一级学科博士点。临床医学、神经科学与行为学等6个学科进入ESI全球排名前1%,其中医学教育发轫于1912年,享有“中国西医教育摇篮”之誉。学校现有全日制在校生4万余人,与20多个国家的高校开展合作,入选教育部“卓越医生教育培养计划”和“新工科研究与实践项目”,在智能纺织、神经再生等重点领域形成鲜明特色。
评价单位:- (-)
评价时间:2025-05-16
综合评价
该项目技术思路方向很好,未来市场空间大,有利于当前政策要求,转化成熟度很高,值得支持推广。建议强化相应产品开发,加大产业链开发力度。技术转让,所需资金需双方协商,此项技术想尽快落地,希望具备此项技术研发的技术方,能够尽快承接次项目。
查看更多>