您所在的位置: 成果库 文本相似度的统计方法及系统

文本相似度的统计方法及系统

成果类型:: 发明专利

发布时间: 2023-02-13 09:53:15

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-03-17 13:37:34
本发明公开了一种文本相似度的统计方法,包括:获取需要判别相似度的第一和第二文本;以第一划分尺度将第一和第二文本分别分割成若干文本片段,计算第一划分尺度下第一与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例;自第一和第二文本中删除相同的文本片段,分别得到第一剩余文本和第二剩余文本;以第二划分尺度将第一和第二剩余文本分别分割成若干文本片段,计算第二划分尺度下第一与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例;计算第一文本与第二文本的综合相似度。本发明能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度,将被故意打乱了词序、句序、段序的相似文本检测出来。
一种文本相似度的统计方法,包括:获取需要判别相似度的第一文本和第二文本;以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段,将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较,计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1;自第一文本和第二文本中删除相同的文本片段,分别得到第一剩余文本和第二剩余文本;以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段,将第二划分尺度下第一剩余文本中全部的文本片段与第二剩余文本中全部的文本片段进行比较,计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1;所述第二划分尺度比第一划分尺度小;将x1乘以第一划分尺度在综合相似度中的权重,得到第一划分尺度的相似度,一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度,以计算第一文本与第二文本的综合相似度。

 现有技术中判断两个文本的相似度,一般是通过将两个文本进行分词,然后按照顺序判断两个文本中重复的字词句串。

但如果文本中字词句的顺序被故意打乱了,那么即使实质上是相似的(例如抄袭的)文本之间,按照现有的相似度统计方式得到的相似度较低,无法反映其本身的相似程度。

基于此,为了解决传统的文本相似度统计方法难以准确反映被人为打乱了字词句顺序的文本之间的相似程度的问题,有必要提供一种能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度的文本相似度的统计方法。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

 在其中一个实施例中,还包括判断模块,用于判断所述第一文本与第二文本的综合相似度是否大于相似度阈值,若是,则判定所述第一文本与第二文本相似。

 上述文本相似度的统计方法和系统,先后以文本的段、句、词为尺度,对文本进行分割-比较-删除后来计算文本之间的综合相似度,能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度,使得被故意打乱了词序、句序、段序的相似文本也可以被检测出来。

技术合作

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。