阿布云

你所需要的,不仅仅是一个好用的代理。

分布式爬虫框架

阿布云 发表于

分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能 docker 化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等,不详细列举了

YayCrawler 项目简介

项目目标 在力所能及的情况下,最大限度的提高 Web 爬虫开发人员的生产力,爬虫框架里的一股清流

主要功能 基于 WebMagic 开发的完整的分布式爬虫框架,该框架特点如下: 1、完全分布式:由管理端(Admin)、调度端(Master)和多个 Worker 组成,各个组件通过 Http 协议通信。 2、完全配置化:通过 Admin 端的页面配置规则就可以爬取任何网站的数据,当然不同网站的难度不一样,会有不同的组件分别针对处理登录、验证码、封 IP 等问题。 3、可扩展的任务队列:任务队列由 Redis 实现,根据任务的状态有四种不同的任务队列:初始、执行中、成功、失败。您也可以扩展不同的任务调度算法,默认是公平调度。 4、可定义持久化方式:爬取结果中,属性数据默认持久化到 MonogoDB,图片会被下载到文件服务器,当然您可以扩展更多的存储类型。 5、稳定和容错:任何一个爬虫任务都会重试和记录,只有任务真正成功了才会被移到成功队列,失败会有失败的原因描述。

技术选型 ● 核心框架:Webmagic Spring boot ● 任务调度:Spring + Quartz ● 持久层框架:Spring Jpa ● 数据库 & 连接池:Alibaba Druid MongoDB MySql ● 缓存框架:Redis Ehcache ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary

开发环境配置:

1. 安装 JDK8 2. 安装 mysql 数据库,用作存储解析规则等数据,需要创建一个 “yayCrawler” 的数据库实例,并执行 quartz 相关的数据库脚本:quartz.sql(见发布包或源码)。 3. 安装 redis 4. 安装 mongoDB 用于存放结果数据 5. 安装 ftp 服务器软件 ftpserver(可选,用于存放下载图片)

启动说明:

导入项目,maven install 安装 Admin,Worker,Master 模块。 然后生成的 Jar 拷贝到 crawler.worker / deploy 目录中,记住改配置文件里面的 Redis,mysql mogodb 的 IP , 点击 start.bat 启动。

(Linux & Windwos) java -jar worker.war –spring.config.location=worker_local.properties

关闭命令: (Windows) for /f “tokens=1-5 delims=” %%a in (‘”netstat -ano|findstr”:8086″”‘) do taskkill /f /pid %%e

各组件通信说明:

一、Admin Admin 层主要负责页面抽取规则配置,页面 Site 配置,资源管理和任务发布

二、Master 分布式爬虫的控制中心,接受 Admin 发布的任务,并分派任务给 worker 执行。 2.1、接收发布任务 2.2、接受 Worker 的注册 三、Worker 真正干事情的苦逼青年,接受 Master 分派的任务并执行,定时向 Master 汇报心跳

Docker 镜像: 制作中。。。。。.。。

开发者交流群号

YayCrawler 爬虫技术交流 559745472

install jar : https://git.oschina.net/shentong_012

抓取过于频繁,服务器返回429.这个时候需要切换代理IP了,推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.

 

来源:https://geekspider.org/