还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！

郑重声明：本项目旨在学习Scrapy爬虫框架和MongoDB数据库，不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果，以及法律责任，均由个人承担！！！

在本次项目当中，我们将会用到PornHubBot项目，该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com，它的结构简洁，运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求，如果网速跟的上，可以启动多线程请求，以达到更快的爬取速度，具体的配置方法见 [启动前配置]。

环境、架构

开发语言: Python2.7
开发环境: MacOS系统、4G内存
数据库: MongoDB
主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。
并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装MongoDB,并启动，不需要配置
安装Scrapy
安装Python的依赖模块：pymongo、json、requests

根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表：

video_title:视频的标题,并作为唯一标识.
link_url:视频调转到PornHub的链接
image_url:视频的封面链接
video_duration:视频的时长，以 s 为单位
quality_480p: 视频480p的 mp4 下载地址

代码：GitHub：xiyouMc/WebHubBot

以上就是本文的全部内容了，由于代码过长，所以只给了链接，希望大家多多包涵，喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。

有需要Python学习资料，或者需要Python环境的老铁可以加群571799375，群里有免费发送给大家！（Python学习资料是2018年最新版）

本文来自网络，如有侵权，请联系小编删除！

原文地址：https://www.cnblogs.com/666fx/p/10173816.html

时间： 2024-08-21 22:58:33

还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！的相关文章

Python爬虫实战：爬取腾讯视频的评论

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于

一个简单的爬取b站up下所有视频的所有评论信息的爬虫

心血来潮搞了一个简单的爬虫,主要是想知道某个人的b站账号,但是你知道,b站在搜索一个用户时,如果这个用户没有投过稿,是搜不到的,,,这时就只能想方法搞到对方的mid,,就是 space.bilibili.com/9444976 后面的那一串数字.偶然看到这个人关注了某个主播,,想到可能这个人会回复主播的视频,于是想着爬到所有up下的视频的评论对应的用户,这样我就可以在数据库里检索昵称得到mid,,,嘿嘿嘿(然而失败了,,不是所有人都像我这么无聊,,,,有些人真的看视频不会回复,, 项目地址: h

爬虫小程序 - 王者荣耀全皮肤爬取

爬虫小程序 - 王者荣耀全皮肤爬取代码如下所示(可直接复制使用): import requests import re import os ''' ps: 出现 <Response [405]> 多运行几次就好了 ''' def Downloed_ksin(ename, **kwargs): # 英雄详情页 url = 'https://pvp.qq.com/web201605/herodetail/' + ename + '.shtml' html = session.get(url=ur

【Python爬虫】批量抓取网页上的视频

1.为何学python 编程语言方面,本科这几年一直都用C/C++,因为研究生方向与机器学习相关,所以最近大部分时间在学机器学习,看了<机器学习实战>这本书,里面的实例都是用python来写,并且目前来说,对机器学习算法支持得比较多的语言是python,matlab/octave当然也很适合用于机器学习,但是毕竟是学术工具,速度等方面肯定不如python,工业开发还是用python.c++. 总之对于学习机器学习,python以及NumPy库要熟悉. 所以这两天决定学一下python,就找了个

【爬虫问题】爬取tv.sohu.com的页面, 提取视频相关信息

尝试解决下面的问题问题: 爬取tv.sohu.com的页面, 提取视频相关信息,不可用爬虫框架完成何为视频i关信息?属性有哪些? 需求: 做到最大可能的页面覆盖率 *使用httpClient 模拟获取页面HtmlText源码信息,正则出源码视频URL解析类HtmlText2URLlist.ashx. 正则式:href=\"(.*?)\" 选择重要的信息进行存储选择合适的数据存储方式,便于后续使用数据库字段 ID.URL.IsSuccess.Title.Isdelete.Vide

还在纠结基金怎么买？Python手把手教你爬取2000多支优选基金！

人不理财,财不理你,码农每个月辛辛苦苦的加班熬夜,为了就是那一点加班费,没办法谁叫现在的房价高的离谱呢,手里捧着窝窝头,菜里没有一滴油!有一天在咖啡店遇到了一个叫彼得高手,聊了一些理财的观念,听完之后茅塞顿开,投资有道!比如70%来定存,30%的钱来买一些基金定投,长期坚持下去,收益会不错! 码农听完,两眼冒光,爬虫数据分析,这些对我是小菜一碟啊,说干就干!立马熬夜写了一个爬虫,把7000多支基金爬个遍.下面我们就爬取一批较好的基金,为下步投资分析做好准备. 01.页面分析我们的数据来源是东方

爬虫——使用多进程爬取视频数据

以梨视频为例分析页面请求抓取网页数据.本次抓取梨视频生活分类页面下的部分视频数据,并保存到本地. 一.分析网页打开抓取网页,查看网页代码结构,发现网页结构里面存放视频的地址并不是真正的视频地址. 进入视频详情页面查看后,可以在response中找到真正的视频地址.保存这个地址的并不是标签,而是一个变量,我们使用re来解析这个变量,提取信息. 二.代码实现 """使用多线程爬取梨视频视频数据""" import requests import r

Node 爬虫，批量爬取头条视频并保存

项目地址:GitHub 目标网站:西瓜视频项目功能:下载头条号[维辰财经]下的最新20个视频姊妹项目:批量下载美女图集简介一般批量爬取视频或者图片的套路是,使用爬虫获得文件链接集合,然后通过 writeFile 等方法逐个保存文件.然而,头条的视频,在需要爬取的 html 文件(服务端渲染输出)中,无法捕捉视频链接.视频链接是页面在客户端渲染时,通过某些 js 文件内的算法或者解密方法,根据视频的已知 key 或者 hash 值,动态计算出来并添加到 video 标签的.这也是网站的一种反爬

python爬虫公众号所有信息，并批量下载公众号视频

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 数据分析实战 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 主要功能如何简单爬虫微信公众号获取信息:标题.摘要.封面.文章地址自动批量下载公众号内的视频一.获取公众号信息:标题.摘要.封面.文章U

猜你喜欢

收藏一些实用的好帮助网站

实用的帮助网站 2016-01-06 在线API帮助文档 (包含很多技术的文档) 模板之家 (推荐) 模板无忧模板王 (推荐) Bootstrap (web前端开发框架) 教程参考菜鸟教程 W ...

Redis设计与实现 (二): 链表

Redis实现为双链表结构, 列表键的底层实现之一就是链表, 发布与订阅, 慢查询, 监视器等功能都用到了链表. Redis本身也使用链表维持多个客户端. 节点定义, 位于 adlist.h/lis ...

文件按修改时间和创建时间遍历

NSFileCreationDate和NSFileModificationDate两个属性分别代表文件创建时间和修改时间 NSArray *sortedPaths = [array sortedArr ...

进一步解 apt-get 的几个命令

用 apt-get 也非常久了,没多想它的实现,近期遇到 gstreamer 装不上的问题.才多看看了它 apt-get 就是从网上下载包,并安装到本地手工下载 dpkg 包,而后 "dp ...

暑假集训(4)第五弹——— 数论（hdu1222）

题意概括:那天以后,你好说歹说,都快炼成三寸不烂之舍之际,小A总算不在摆着死人脸,鼓着死鱼眼.有了点恢复的征兆.可孟子这家伙说的话还是有点道理,那什么天将降....额,总之,由于贤者法阵未完成,而小A ...

TCP客户/服务器程序概述

一个回射服务器: 1)客户从标准输入读入一行文本,并写给服务器 2)服务器从网络输入读入这行文本,并回射给客户 3)客户从网络输入读入这行回射文本,并显示在标准输出上回射输入行这样一个客户/服务器程 ...

Spring MVC 1

============================== 摘抄至<跟我学SpringMVC.pdf> =========================== 1.首先用户发送请求— ...

Last_IO_Errno: 1032

(一):更新找不到记录 1032 Last_SQL_Errno: 1032 Last_SQL_Error: Could not execute Update_rows event on table l ...

iOS 只取float类型值的小数点后两位

[self.btnEco setTitle:[NSString stringWithFormat:@"%0.1f",model.targetTemperature] forStat ...

Oracle 12cR2 RAC安装配置及一些坑

Oracle 12cR2版本已经发布有一段时间,一直想测试安装RAC,从上周末到今天用了两个周末和今天一天的时间终于把RAC安装成功了.这里记录了安装时对操作系统的配置,以及安装过程中遇到的一些坑. ...

收集网页设计的视觉，给设计者们带来不一样的灵感(持续更新)

导航栏左边宣传语右边导航设计背景不一样视觉就不一样 header上下结构,上一层logo急网站的一些宣传语或者其他重要信息,下层导航,配色不一样网站类型会显得不一样导航衔接顶部,显得格外大气规 ...

2016 acm香港网络赛 B题. Boxes

原题网址:https://open.kattis.com/problems/boxes Boxes There are N boxes, indexed by a number from 1 to N ...

increment/decrement/dereference操作符

1 #include<iostream> 2 using namespace std; 3 class INT 4 { 5 friend ostream& operator< ...

Java读写文化总结

Java读文件 package 天才白痴梦; import java.io.BufferedReader; import java.io.File; import java.io.FileInputS ...

Linux安装技巧--安装Uuntu与windows8/10共存

1.准备安装双系统所需工具. 系统: Linux有众多的衍生版本,选择一个自己喜欢的版本下载,建议新手上ubuntu吧,中文教程较多,出了问题容易解决,等到熟悉了再用其他的也行,新手的话ubuntu也 ...

nginx android app 慢网络请求超时

最近遇到了android 在慢网络下面请求服务器报 java.net.SocketException: recvfrom failed: ECONNRESET (Connection reset by ...

随机生成验证码

# import random # print(random.random()) #0-1的小数 # print(random.randint(1,3)) #包括1和3 # print("- ...

重温web服务器--细说Tomcat服务器

从大学开始接触java web的开发时就开始使用tomcat部署web项目,对它的理解仅仅停留在"这是个开源免费的servlet容器"的阶段,后来也接触了一些tomcat的体系,原 ...

企业架构（TOGAF）学习

自从听了公司内部的一堂<企业架构设计>培训,顿时觉得如获至宝. 先说下笔者,笔者是一名二流本科毕业,工作三年,基层的软件开发工程师,梦想着有朝一日成长成一名架构师.可是笔者对于如何成长成一 ...

HDU5863 cjj's string game（DP + 矩阵快速幂）

题目 Source http://acm.split.hdu.edu.cn/showproblem.php?pid=5863 Description cjj has k kinds of charac ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.