阿布云

你所需要的,不仅仅是一个好用的代理。

豆瓣电影、书籍、小组、相册、东西等爬虫

阿布云 发表于

 

豆瓣电影、书籍、小组、相册、东西等爬虫集 writen by Python.

PS: 哎, 八个月后自己尝试设计了下爬虫框架, 感觉 doubanspiders 代码简直糟蹋了 Scrapy, 阿弥陀佛!

### 依赖服务

  1. MongoDB

### 依赖包

  1. pip install scrapy
  2. pip install pybloom
  3. pip install pymongo

### 运行豆瓣电影爬虫

  1. 进入 douban/movie 目录
  2. 执行 scrapy crawl movie

### 运行豆瓣相册爬虫

  1. 进入 douban/album 目录
  2. 执行 scrapy crawl album
  •  抓取过于频繁,服务器返回429.这个时候需要切换代理IP了,推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.
    文章 :https://geekspider.org