阿布云

你所需要的,不仅仅是一个好用的代理。

成人网站 PornHub怎么抓取

阿布云 发表于

 

全球最大成人网站 PornHub 爬虫 (Scrapy、MongoDB) 一天 500w 的数据 https://github.com/xiyouMc/PornHubBot

简介

  • 项目主要是爬取全球最大成人网站 PornHub 的视频标题、时长、mp4 链接、封面 URL 和具体的 PornHub 链接
  • 项目爬的是 PornHub.com,结构简单,速度飞快
  • 爬取 PornHub 视频的速度可以达到 500 万 / 天以上。具体视个人网络情况, 因为我是家庭网络,所以相对慢一点。
  • 10 个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]

环境、架构

开发语言: Python2.7

开发环境: MacOS 系统、4G 内存

数据库: MongoDB

  • 主要使用 scrapy 爬虫框架
  • 从 Cookie 池和 UA 池中随机抽取一个加入到 Spider
  • start_requests 根据 PorbHub 的分类,启动了 5 个 Request,同时对五个分类进行爬取。
  • 并支持分页爬取数据,并加入到待爬队列。

使用说明

启动前配置

  • 安装 MongoDB, 并启动,不需要配置
  • 安装 Scrapy
  • 安装 Python 的依赖模块:pymongo、json、requests
  • 根据自己需要修改 Scrapy 中关于 间隔时间、启动 Requests 线程数等得配置

启动

  • python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表:

video_title: 视频的标题, 并作为唯一标识. link_url: 视频调转到 PornHub 的链接 image_url: 视频的封面链接 video_duration: 视频的时长,以 s 为单位 quality_480p: 视频 480p 的 mp4 下载地址

1

2

3

4

5

video_title: 视频的标题, 并作为唯一标识.

link_url: 视频调转到 PornHub 的链接

image_url: 视频的封面链接

video_duration: 视频的时长,以  s  为单位

quality_480p:  视频 480p   mp4  下载地址

抓取过于频繁,服务器返回429.这个时候需要切换代理IP了,推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.

 

来源:https://geekspider.org/