您所在的位置: 成果库 基于多路图采样聚合神经网络的词义消歧方法

基于多路图采样聚合神经网络的词义消歧方法

发布时间: 2022-11-28

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
电子信息技术,计算机及网络技术
成果介绍
本发明涉及一种基于多路图采样聚合(Graph SAmple and aggreGatE,GraphSAGE)神经网络的词义消歧方法。本发明首先对包含歧义词的语句进行分词、词性标注、语义类标注和偏旁部首标注处理。以包含歧义词的句子,以及句中所包含的词形、词性、语义类和偏旁部首作为消歧特征并作为节点来构建四种词义消歧特征图,使用Word2Vec工具、Bi‑LSTM网络和Attention机制对特征进行向量化处理。用训练语料优化多路GraphSAGE神经网络。用优化后的多路GraphSAGE神经网络,对测试语料进行词义消歧,可得到歧义词汇在各个语义类别下的概率分布。把概率最大值对应的语义类作为歧义词汇的语义类。本发明具有较好的词义消歧效果,更准确地判断歧义词汇的真实含义。
成果亮点
1.本发明是一种基于多路图采样聚合神经网络的词义消歧方法。对汉语句子进行词汇切分、词性标注、语义类标注和偏旁部首标注。使用Word2Vec工具以及Bi-LSTM和Attention网络对消歧特征进行向量化。所提取的消歧特征具有较高的质量。 2.本发明所使用的模型为GraphSAGE神经网络,最大的特点是借助图结构来迭代节点特征,每个节点只采样自己的一部分邻接节点来迭代更新自己的特征。通过构建四种词义消歧特征图,利用多路GraphSAGE神经网络,可以得到较好的分类效果。 3.本发明使用的分类器为softmax分类器,不仅能解决二分类问题,而且能够解决多分类问题。 4.在训练模型时,采用梯度下降方法对模型的聚合层里的权值矩阵参数进行更新。通过损失函数计算误差,使用梯度下降更新模型参数,得到优化的多路GraphSAGE神经网络,使消歧准确率有所提高。
团队介绍
材料科学与化学工程学院现有教职工170人,其中新世纪百千万人才工程国家级人选1人,教育部新世纪人才1人,全国优秀教师1人,龙江学者3人,省杰青4人,省思政名师1人,省级教学师德标兵4人,黑龙江省研究生优秀导师团队2个,博士生导师25人,硕士生导师106人。
成果资料
产业化落地方案
点击查看
成果综合评价报告

评价单位:“科创中国”黑龙江科技服务团 (黑龙江省科学技术协会) 评价时间:2023-11-11

张海刚

哈尔滨工程大学

副院长

综合评价

技术前景广阔,具备技术成果转移转化要求。
查看更多>

评价单位:“科创中国”黑龙江科技服务团 (黑龙江省科学技术协会) 评价时间:2022-12-08

宋奇慧

千慧科技咨询服务有限公司

总经理

综合评价

根据权利要求1所述的多路图采样聚合神经网络的词义消歧方法,其特征在于,所述步骤2中,对句子特征进行向量化处理,对词形、词性、语义类和偏旁部首特征进行向量化处理,获取训练数据和测试数据,具体步骤为: 步骤2-1使用Bi-LSTM和Attention网络对提取的句子特征进行向量化处理,使用Word2Vec工具分别对提取的词形、词性、语义类和偏旁部首特征进行向量化处理,经过向量化处理后,每个消歧特征对应于200维的特征向量; 步骤2-2将处理好的SemEval-2007:Task#5中的训练语料作为训练数据,将处理好的SemEval-2007:Task#5中的测试语料作为测试数据。 4.根据权利要求1所述的基于多路图采样聚合神经网络的词义消歧方法,其特征在于,所述步骤3中,构建四种词义消歧特征图,具体步骤为: 步骤3-1将带有歧义词汇w的句子以及w左右两个邻接词汇单元的词形作为句子-词形图中的节点;将带有w的句子以及w左右两个邻接词汇单元的词性作为句子-词性图中的节点;将带有w的句子以及w左右两个邻接词汇单元的语义类作为句子-语义类图中的节点;将带有w的句子以及w左右两个邻接词汇单元的偏旁部首作为句子-偏旁部首图中的节点;
查看更多>
更多