您所在的位置: 成果库 文本相似度的统计方法及系统

文本相似度的统计方法及系统

发布时间: 2023-02-13

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
物理
成果介绍
本发明公开了一种文本相似度的统计方法,包括:获取需要判别相似度的第一和第二文本;以第一划分尺度将第一和第二文本分别分割成若干文本片段,计算第一划分尺度下第一与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例;自第一和第二文本中删除相同的文本片段,分别得到第一剩余文本和第二剩余文本;以第二划分尺度将第一和第二剩余文本分别分割成若干文本片段,计算第二划分尺度下第一与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例;计算第一文本与第二文本的综合相似度。本发明能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度,将被故意打乱了词序、句序、段序的相似文本检测出来。
成果亮点
一种文本相似度的统计方法,包括:获取需要判别相似度的第一文本和第二文本;以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段,将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较,计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1;自第一文本和第二文本中删除相同的文本片段,分别得到第一剩余文本和第二剩余文本;以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段,将第二划分尺度下第一剩余文本中全部的文本片段与第二剩余文本中全部的文本片段进行比较,计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1;所述第二划分尺度比第一划分尺度小;将x1乘以第一划分尺度在综合相似度中的权重,得到第一划分尺度的相似度,一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度,以计算第一文本与第二文本的综合相似度。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案
点击查看
成果综合评价报告

评价单位:- (-) 评价时间:2023-04-18

吴正斌

天津中科先进技术产业有限公司

总经理

综合评价

这个企业已经有一定的基础,建议与相关学会组织搭建平台,请学会以及研究所、大学和相关企业参与,可能会攻克难关,会对我们国家甚至世界所存在的问题提出解决的措施并做出贡献,前途可期。
查看更多>
更多