面向真实场景的手语识别方法
价格 双方协商
地区: 辽宁省 沈阳市 和平区
需求方: 辽宁***公司
行业领域
电子信息技术
需求背景
手语(Sign Language)是一种使用视觉—手势模式,即主要通过手部的运动轨迹和手型变化,辅以面部表情、唇动、眼神等来传递信息的一种语言。它是听觉功能障碍者或言语功能障碍者之间最主要的沟通交流方式,也是听障、语障人士学习知识技能的重要手段。
在长期的发展过程中,手语和其他自然语言一样,产生了规范的词汇、语法和表意体系。然而,由于大部分健听人缺乏系统的手语学习,难以准确理解手语语义,使得听障人士在日常交流、学习、公共服务等场景中常面临诸多障碍。同时,我国现有高水平手语翻译人员严重不足,国内拥有国家资质认证的手语翻译员人数不足百人,从事手语特殊教育的教师人数更是少之又少。这些都为手语研究、教育和传播带来了诸多困难。
需解决的主要技术难题
① 看不清:未考虑开放复杂场景下环境因素的影响。现有手语识别任务大多基于实验室环境下拍摄的数据实现。目前的主流手语识别数据集,如RWTH-PHOENIX-Weather 2014、CSL等数据集大多以单一纯色白墙或蓝布为背景。而在真实应用场景中,环境因素是一个开放变量,光照、背景、表演者的服饰、体态等等手语无关因素的变化会对识别结果产生很大影响。这就导致在针对实验室环境数据设计、训练的算法难以适应真正的应用需求。
② 看不全:未有效利用面部等多视角信息。目前大多数手语识别方法实际上可以看作手势识别算法的任务迁移,其本质仍然只关注于手部区域,缺乏对人体其他区域,特别是面部的关注。即使有也只是将手部和面部作为两个独立的区域分别识别处理。而唇语、表情等面部变化在手语识别中同样有着非常重要的作用,它可以作为辅助聋人理解手语手势语义的一种上下文信息。因此,有必要通过一个统一架构,充分利用手部、面部及人体其他区域之间的一致性关联关系来实现手语的准确识别。
期望实现的主要技术目标
面向听障人士的手语学习和交互需求,以开放真实环境下手语识别为基本问题,针对识别过程中模型易受到背景、光照等手势无关因素干扰的问题,基于信息瓶颈理论,分离手语相关/无关的特征,获得手语核心特征,提升识别正确率;为充分利用在手语表示时表演者面部、手部等不同视角的信息,基于骨骼数据构建了多粒度层级网络,从粗到精、从整体到局部学习不同层级特征及其关联关系对手语识别的影响,并基于顶点注意力机制进一步学习底层每个局部视角的特征;面向开放场景,基于域自适应迁移和相似性度量,构建半监督学习框架,以充分、综合利用少量有标签数据和互联网上海量无标签数据,提升模型的泛化能力,为真实场景中的基于手语的人际交流及人机交互奠定基础。
需求解析
解析单位:“科创中国”物联网产业科技服务团(中国电子学会) 解析时间:2023-12-08
周涛
中国电子学会物联网专家委员会
项目主管、高工
综合评价
解析单位:“科创中国”物联网产业科技服务团(中国电子学会) 解析时间:2023-12-08
周涛
中国电子学会物联网专家委员会
项目主管、高工
综合评价