因为专业 · 所以简单

阿布云

你所需要的，不仅仅是一个好用的代理。

成人网站 PornHub怎么抓取

发表于 2018-03-16

全球最大成人网站 PornHub 爬虫（Scrapy、MongoDB）一天 500w 的数据 https://github.com/xiyouMc/PornHubBot

简介

项目主要是爬取全球最大成人网站 PornHub 的视频标题、时长、mp4 链接、封面 URL 和具体的 PornHub 链接
项目爬的是 PornHub.com，结构简单，速度飞快
爬取 PornHub 视频的速度可以达到 500 万 / 天以上。具体视个人网络情况, 因为我是家庭网络，所以相对慢一点。
10 个线程同时请求，可达到如上速度。若个人网络环境更好，可启动更多线程来请求，具体配置方法见 [启动前配置]

环境、架构

开发语言: Python2.7

开发环境: MacOS 系统、4G 内存

数据库: MongoDB

主要使用 scrapy 爬虫框架
从 Cookie 池和 UA 池中随机抽取一个加入到 Spider
start_requests 根据 PorbHub 的分类，启动了 5 个 Request，同时对五个分类进行爬取。
并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装 MongoDB, 并启动，不需要配置
安装 Scrapy
安装 Python 的依赖模块：pymongo、json、requests
根据自己需要修改 Scrapy 中关于间隔时间、启动 Requests 线程数等得配置

启动

python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表：

video_title: 视频的标题, 并作为唯一标识. link_url: 视频调转到 PornHub 的链接 image_url: 视频的封面链接 video_duration: 视频的时长，以 s 为单位 quality_480p: 视频 480p 的 mp4 下载地址

1

2

3

4

5

video_title: 视频的标题, 并作为唯一标识.

link_url: 视频调转到 PornHub 的链接

image_url: 视频的封面链接

video_duration: 视频的时长，以 s 为单位

quality_480p: 视频 480p 的 mp4 下载地址

抓取过于频繁，服务器返回429.这个时候需要切换代理IP了，推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.

来源：https://geekspider.org/

上一篇

新闻中心

下一篇