中科院计算所福州分所

网站首页 > 科技成果

    分布式数据采集管理平台

    分布式数据采集管理平台分布式数据采集管理平台,采用分布式架构以实现采集系统的可伸缩性,集中信源管理配置提升采集的自动化能力,面向各类信息源的智能采集技术以有效获取信息,并针对性地研究动态内容获取与解析技术。

    1. 详细信息

    分布式数据采集管理平台

    分布式数据采集管理平台,采用分布式架构以实现采集系统的可伸缩性,集中信源管理配置提升采集的自动化能力,面向各类信息源的智能采集技术以有效获取信息,并针对性地研究动态内容获取与解析技术。平台主要功能特色:

    1、采集高性能,爬虫分布式部署,规模方便扩展;

    2、配置灵活,可以任意配置规则;

    3、支持对爬虫单独设置:执行周期、执行间隔等参数;

    4、支持代理采集,具有代理池功能,定时自动探测代理有效性;

    5、具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、清除空格等操作。

    图片关键词

    1  平台部分界面图