一种短文本特征提取与分类方法
发布时间: 2022-06-27
来源: 科创项目库
基本信息
本发明公开了一种短文本特征提取与分类方法,属于信息处理技术领域。通过对词频、集中度标准差、关联度高的关键词进行加权系数的奖励,再综合三者,得到关键词的特征指数;根据特征指数对初始关键词库进行优化,删除关键词库中对识别文本所属的类别所起作用较小的一些字词,也即减少了会影响文本分类准确性的关键词,使得后续分类更准确。通过将关键词映射成二维坐标平面上的点,将文本数据与关键词库的匹配,得到文本数据对应的点集,将其中的点顺序排列并连接,即得到文本的特征折线,通过特征折线的相似度反应文本的相似度,并对折线相似度算法进行了修正,利用邻居与当前文本的“相似度”来给每个邻居赋予不同的重要性,从而分类更准确。