您所在的位置: 需求库 技术需求 面向真实场景的手语识别方法

面向真实场景的手语识别方法

发布时间: 2023-12-04
截止日期:2023-12-04

价格 双方协商

地区: 辽宁省 沈阳市 和平区

需求方: 辽宁***公司

行业领域

电子信息技术

需求背景

手语(Sign Language)是一种使用视觉手势模式,即主要通过手部的运动轨迹和手型变化,辅以面部表情、唇动、眼神等来传递信息的一种语言。它是听觉功能障碍者或言语功能障碍者之间最主要的沟通交流方式,也是听障、语障人士学习知识技能的重要手段。

在长期的发展过程中,手语和其他自然语言一样,产生了规范的词汇、语法和表意体系。然而,由于大部分健听人缺乏系统的手语学习,难以准确理解手语语义,使得听障人士在日常交流、学习、公共服务等场景中常面临诸多障碍。同时,我国现有高水平手语翻译人员严重不足,国内拥有国家资质认证的手语翻译员人数不足百人,从事手语特殊教育的教师人数更是少之又少。这些都为手语研究、教育和传播带来了诸多困难。

需解决的主要技术难题

 看不清:未考虑开放复杂场景下环境因素的影响。现有手语识别任务大多基于实验室环境下拍摄的数据实现。目前的主流手语识别数据集,如RWTH-PHOENIX-Weather 2014CSL等数据集大多以单一纯色白墙或蓝布为背景。而在真实应用场景中,环境因素是一个开放变量,光照、背景、表演者的服饰、体态等等手语无关因素的变化会对识别结果产生很大影响。这就导致在针对实验室环境数据设计、训练的算法难以适应真正的应用需求。

 看不全:未有效利用面部等多视角信息。目前大多数手语识别方法实际上可以看作手势识别算法的任务迁移,其本质仍然只关注于手部区域,缺乏对人体其他区域,特别是面部的关注。即使有也只是将手部和面部作为两个独立的区域分别识别处理。而唇语、表情等面部变化在手语识别中同样有着非常重要的作用,它可以作为辅助聋人理解手语手势语义的一种上下文信息。因此,有必要通过一个统一架构,充分利用手部、面部及人体其他区域之间的一致性关联关系来实现手语的准确识别。

期望实现的主要技术目标

面向听障人士的手语学习和交互需求,以开放真实环境下手语识别为基本问题,针对识别过程中模型易受到背景、光照等手势无关因素干扰的问题,基于信息瓶颈理论,分离手语相关/无关的特征,获得手语核心特征,提升识别正确率;为充分利用在手语表示时表演者面部、手部等不同视角的信息,基于骨骼数据构建了多粒度层级网络,从粗到精、从整体到局部学习不同层级特征及其关联关系对手语识别的影响,并基于顶点注意力机制进一步学习底层每个局部视角的特征;面向开放场景,基于域自适应迁移和相似性度量,构建半监督学习框架,以充分、综合利用少量有标签数据和互联网上海量无标签数据,提升模型的泛化能力,为真实场景中的基于手语的人际交流及人机交互奠定基础。

需求解析

解析单位:“科创中国”物联网产业科技服务团(中国电子学会) 解析时间:2023-12-08

周涛

中国电子学会物联网专家委员会

项目主管、高工

综合评价

采集和扩充真实场景下的手语数据集,包括各种光照、背景、服饰和体态的变化。可以利用众包平台或合作伙伴进行数据采集和标注工作。 改进手语识别算法,引入正则化、Dropout等技术来提高模型泛化能力。同时,研究基于迁移学习的策略,利用大规模预训练模型(如BERT、Transformer等)来提升手语识别性能。 设计一个多模态融合架构,将手部、面部及其他人体区域的信息进行有效整合。可以采用基于注意力机制的方法来实现动态权重调整,以充分利用不同模态之间的互补性。 提高手语识别算法对光照、背景等变化因素的鲁棒性。可以采用图像增强和归一化等方法来对输入数据进行预处理,同时研究基于GANs的数据生成策略来扩充模型对不同环境的适应能力。 建立评估体系,对改进后的手语识别算法进行性能评估。可以与其他主流方法进行对比实验,以验证所提方案的有效性。
查看更多>

解析单位:“科创中国”物联网产业科技服务团(中国电子学会) 解析时间:2023-12-08

周涛

中国电子学会物联网专家委员会

项目主管、高工

综合评价

采集和扩充真实场景下的手语数据集,包括各种光照、背景、服饰和体态的变化。可以利用众包平台或合作伙伴进行数据采集和标注工作。 改进手语识别算法,引入正则化、Dropout等技术来提高模型泛化能力。同时,研究基于迁移学习的策略,利用大规模预训练模型(如BERT、Transformer等)来提升手语识别性能。 设计一个多模态融合架构,将手部、面部及其他人体区域的信息进行有效整合。可以采用基于注意力机制的方法来实现动态权重调整,以充分利用不同模态之间的互补性。 提高手语识别算法对光照、背景等变化因素的鲁棒性。可以采用图像增强和归一化等方法来对输入数据进行预处理,同时研究基于GANs的数据生成策略来扩充模型对不同环境的适应能力。 建立评估体系,对改进后的手语识别算法进行性能评估。可以与其他主流方法进行对比实验,以验证所提方案的有效性。
查看更多>
更多