阿布云

你所需要的，不仅仅是一个好用的代理。

分布式爬虫框架

发表于 2018-03-16

分布式爬虫系统，简单使用，高级配置。可扩展，减轻开发量，能 docker 化，适应各种急切需求核心框架：WebMagic, Spring Boot ，MongoDB, ActiveMQ ,Spring + Quartz，Spring Jpa ， Druid，Redis， Ehcache ，SLF4J、Log4j2， Bootstrap + Jquery 等，不详细列举了

YayCrawler 项目简介

项目目标在力所能及的情况下，最大限度的提高 Web 爬虫开发人员的生产力，爬虫框架里的一股清流

主要功能基于 WebMagic 开发的完整的分布式爬虫框架，该框架特点如下： 1、完全分布式：由管理端（Admin）、调度端（Master）和多个 Worker 组成，各个组件通过 Http 协议通信。 2、完全配置化：通过 Admin 端的页面配置规则就可以爬取任何网站的数据，当然不同网站的难度不一样，会有不同的组件分别针对处理登录、验证码、封 IP 等问题。 3、可扩展的任务队列：任务队列由 Redis 实现，根据任务的状态有四种不同的任务队列：初始、执行中、成功、失败。您也可以扩展不同的任务调度算法，默认是公平调度。 4、可定义持久化方式：爬取结果中，属性数据默认持久化到 MonogoDB，图片会被下载到文件服务器，当然您可以扩展更多的存储类型。 5、稳定和容错：任何一个爬虫任务都会重试和记录，只有任务真正成功了才会被移到成功队列，失败会有失败的原因描述。

技术选型 ● 核心框架：Webmagic Spring boot ● 任务调度：Spring + Quartz ● 持久层框架：Spring Jpa ● 数据库 & 连接池：Alibaba Druid MongoDB MySql ● 缓存框架：Redis Ehcache ● 日志管理：SLF4J、Log4j2 ● 前端框架： Bootstrap + Jquary

开发环境配置：

1. 安装 JDK8 2. 安装 mysql 数据库，用作存储解析规则等数据，需要创建一个 “yayCrawler” 的数据库实例，并执行 quartz 相关的数据库脚本：quartz.sql（见发布包或源码）。 3. 安装 redis 4. 安装 mongoDB 用于存放结果数据 5. 安装 ftp 服务器软件 ftpserver（可选，用于存放下载图片）

启动说明：

导入项目，maven install 安装 Admin,Worker,Master 模块。然后生成的 Jar 拷贝到 crawler.worker / deploy 目录中，记住改配置文件里面的 Redis,mysql mogodb 的 IP , 点击 start.bat 启动。

（Linux & Windwos） java -jar worker.war –spring.config.location=worker_local.properties

关闭命令： (Windows) for /f “tokens=1-5 delims=” %%a in (‘”netstat -ano|findstr”:8086″”‘) do taskkill /f /pid %%e

各组件通信说明：

一、Admin Admin 层主要负责页面抽取规则配置，页面 Site 配置，资源管理和任务发布

二、Master 分布式爬虫的控制中心，接受 Admin 发布的任务，并分派任务给 worker 执行。 2.1、接收发布任务 2.2、接受 Worker 的注册三、Worker 真正干事情的苦逼青年，接受 Master 分派的任务并执行，定时向 Master 汇报心跳

Docker 镜像：制作中。。。。。.。。

开发者交流群号

YayCrawler 爬虫技术交流 559745472

install jar : https://git.oschina.net/shentong_012

抓取过于频繁，服务器返回429.这个时候需要切换代理IP了，推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.

来源：https://geekspider.org/

新闻中心