您所在位置:天津市滨海新区> 科技成果> 岩石科技的“岩石信息采集系统(R-Crawler)”
点赞

岩石科技的“岩石信息采集系统(R-Crawler)”

发布时间:2021-06-11

基本信息

  • 合作方式: 技术服务
  • 成果类型:软件著作权
价格 双方协商

行业领域

新一代信息技术产业,信息传输、软件和信息技术服务业

成果描述

产品简介

岩石信息采集系统,利用网络爬虫技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。系统采用分布式框架,提供web信息采集和全文检索功能。

简单易用,自动抓取

简单易用,通过模拟用户浏览网页的方式, 自动抓取互联网信息,通过集群采集、url去重、 元数据处理、网页解析及存储,完成互联网信息采集及存储。

海量大数据采集

海量的数据处理能力,能轻松应对大数据采集需要;多线程采集,采集结果可以直接保存到本地;支持断点续采,断网后重连后可自动续采;采集速度快,抛弃落后低效的正则匹配技术,使用自己研发的解析引擎。

全文检索,覆盖全网

采集方式的对象化,正文和回复内容能实现同时采集;借助全文搜索引擎,轻松实现覆盖全文的舆情信息监测;轻松从网络批量获取所需要的信息。

图片图片

平台架构

图片

图片图片

特色功能

操作简单

可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握,任何人适用,通过几次点击,即可快速完成采集。

所见即所得

所见即所得浏览器可见的内容都可以采集。采集的对象包括文字内容,图片,flash动画视频等等各类网络内容。支持图文混排对象的同时采集。

面向对象采集

面向对象的采集方式。正文和回复内容同时采集的能力,分页的内容可轻松合并,采集内容可以是分散在多个页面内。结果可以是复杂的父子表结构。

智能分析

利用搜索引擎的智能解析内核,实现对网页内容的仿浏览器解析、分解、内容提取、近似页面比对等等。

分布式集群采集

多机集群采集,支持负载均衡和数据分布式存储,提高性能和可靠性。

网页去重,自动解析

对解析后网页内容进行指纹计算,重复性认定更智能,支持对网页内容细粒度的解析,支持正则表达式解析规则,能在线调试表达。

调度监控

支持周期性调度,支持人工启动、暂停、停止;可在网页中监控爬取过程中的后台日志。

视觉模拟

采集软件会模拟人的视觉来分析网页,在此基础上利用参考(模板)页面实现采集匹配工作。

智能化辅助技术

利用智能化搜索引擎的解析内核,可以帮助用户自动找到分页链接、分离页面框架内容等等,努力减少用户的操作过程。

舆情监控

借助全部中文搜素引擎,轻松实现全网舆情信息的监测,信息覆盖面最广。

大数据采集

多个爬虫节点分布式部署,协同实现海量大数据实时抓取,海量数据处理能力,可以应付大数据采集的需要。

资料收集

轻松从网络中批量获取需要的信息,利用云采集功能,可以轻松绕开被采集网站的防采集机制。如58、赶集、百姓网、阿里巴巴、慧聪等等。

成果资料