您所在的位置: 成果库 一种基于URL字符串信息学习的主题爬虫系统的实现方法

一种基于URL字符串信息学习的主题爬虫系统的实现方法

发布时间: 2022-05-07

基本信息

合作方式: 技术转让
成果类型: 发明专利
行业领域:
其他
成果介绍

本发明公开一种基于URL字符串信息学习的主题爬虫系统的实现方法,首先,改进了传统的主题爬虫的相关度判断方法,提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法,并采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,提高了目标URL主题相关度判断的准确性。最后,在不增加计算复杂度的同时,利用内容分析和链接分析相结合的爬虫策略,防止了主题爬虫陷入局部最优,提高了爬虫爬取时的全局性,改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。

成果亮点
团队介绍
成果资料