你所需要的,不仅仅是一个好用的代理。
全球最大成人网站 PornHub 爬虫 (Scrapy、MongoDB) 一天 500w 的数据 https://github.com/xiyouMc/PornHubBot
开发语言: Python2.7
开发环境: MacOS 系统、4G 内存
数据库: MongoDB
启动前配置
数据库中保存数据的表是 PhRes。以下是字段说明:
video_title: 视频的标题, 并作为唯一标识. link_url: 视频调转到 PornHub 的链接 image_url: 视频的封面链接 video_duration: 视频的时长,以 s 为单位 quality_480p: 视频 480p 的 mp4 下载地址
1
2
3
4
5
video_title: 视频的标题, 并作为唯一标识.
link_url: 视频调转到 PornHub 的链接
image_url: 视频的封面链接
video_duration: 视频的时长,以 s 为单位
quality_480p: 视频 480p 的 mp4 下载地址
抓取过于频繁,服务器返回429.这个时候需要切换代理IP了,推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.