×
x
企业邮箱登录登录注册 服务电话:400-690-0504

请登录

请注册

当前位置:解决方案 > 大数据 > 分布式数据采集平台

分布式数据采集平台

2017.06.28

  • 方案概述

    经过多年数据采集经验和技术积累,我公司开发的高性能分布式数据采集平台,能够满足客户对互联网大数据的采集需求。该平台具有优化的采集算法,平滑的扩展性、良好的纠错和错误预警机制以及独特的代理变更算法。

  • 方案特点

    • 分布式部署,由调度服务器统一操控;

    • 多线程,充分利用服务器和带宽资源;

    • 定向解析网页标签结构算法,使得配置和维护更高效;

    • 错误预警机制,及时发现采集过程出现的问题;

    • Cookie通道机制,有效模拟登录过程,多个采集过程共用一个cookie信息;

    • 完全支持Web3.0,采集的范围更广阔;

    • 友好采集机制,降低目标服务器的负担;

    • 异常重试机制,增大每个链接的成功率;

    • 代理池机制,预先检测代理的速度,优先使用高速代理,提高采集效率;

    • 多种手段识别网页编码,减少乱码的出现概率;

    • 支持Https访问;

    • 支持采集策略和采集周期设置;

    • 具有防止重复采集机制。

  • 应用场景

    • 采集微博、微信、博客、论坛、新闻等媒体数据;

    • 采集各个电商商品价格、名称、规格等数据;

    • 采集金融数据,如季报,年报,财务报告, 包括每日最新净值自动采集;

    • 各大新闻门户网站实时监控,自动更新及上传最新发布的新闻;

    • 监控竞争对手最新信息,包括商品价格及库存;

    • 监控各大社交网站,博客,自动抓取企业产品的相关评论;

    • 收集最新最全的职场招聘信息;

    • 监控各大地产相关网站,采集新房二手房最新行情;

    • 采集各大汽车网站具体的新车二手车信息;

    • 发现和收集潜在客户信息;

    • 采集行业网站的产品目录及产品信息;

    • 在各大电商平台之间同步商品信息,做到在一个平台发布,其他平台自动更新;

    • 监控网站内容,防篡改并发出预警;

    • 监控指定的数据(比如:比价网监控价格)等;

    • 安全扫描 XSS漏洞扫描,跨站攻击检测;

    • 文件批量检索下载;

    • IDC机房非法关键词监控;

    • 未备案网站监控;

    • 出版物版权侵权识别;

    • 税务局精准监管股权转让等。

  • 010-62964618/5970/3260
  • lxty@longxintaiye.com
  • 北京市海淀区上地三街9号嘉华大厦F座706