阿布云

你所需要的，不仅仅是一个好用的代理。

豆瓣读书爬虫

发表于 2018-03-16

Python 所写，豆瓣读书的爬虫，方便大家搜罗各种美美书！

最近爬下了豆瓣所有的图书信息（3088633 本，2138386KB），并做了一个界面方面与数据库交互来搜罗好书。注：这里的代码不是爬下所有书籍所用的代码，仅供参考。有机会的时候再公开代码和爬下的所有数据。

交互界面截图示例：

查询结果截图示例：

最近爬书发现豆瓣的页面规则发生了变化，导致不能爬到评价人数，由此对代码进行了相应的更新，并爬了一些新的数据 (并不全)。

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到 Excel 中，可方便大家筛选搜罗，比如筛选评价人数 > 1000 的高分书籍；可依据不同的主题存储到 Excel 不同的 Sheet

4 采用 User Agent 伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封（更新于 2015-5-20）

试着小小运行了下，爬了七八万本书，结果在 book_list.xlsx 中，截图如下：

抓取过于频繁，服务器返回429.这个时候需要切换代理IP了，推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.

文章:https://geekspider.org

新闻中心