您所在的位置: 成果库 一种短文本特征提取与分类方法

一种短文本特征提取与分类方法

发布时间: 2022-06-27

来源: 科创项目库

基本信息

合作方式: 技术服务
成果类型: 实用新型专利
行业领域:
新兴行业
成果介绍

本发明公开了一种短文本特征提取与分类方法,属于信息处理技术领域。通过对词频、集中度标准差、关联度高的关键词进行加权系数的奖励,再综合三者,得到关键词的特征指数;根据特征指数对初始关键词库进行优化,删除关键词库中对识别文本所属的类别所起作用较小的一些字词,也即减少了会影响文本分类准确性的关键词,使得后续分类更准确。通过将关键词映射成二维坐标平面上的点,将文本数据与关键词库的匹配,得到文本数据对应的点集,将其中的点顺序排列并连接,即得到文本的特征折线,通过特征折线的相似度反应文本的相似度,并对折线相似度算法进行了修正,利用邻居与当前文本的“相似度”来给每个邻居赋予不同的重要性,从而分类更准确。

成果亮点
团队介绍
成果资料