还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!

郑重声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果,以及法律责任,均由个人承担!!!

在本次项目当中,我们将会用到PornHubBot项目,该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com,它的结构简洁,运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求,如果网速跟的上,可以启动多线程请求,以达到更快的爬取速度,具体的配置方法见 [启动前配置]。

环境、架构

  • 开发语言: Python2.7
  • 开发环境: MacOS系统、4G内存
  • 数据库: MongoDB
  • 主要使用 scrapy 爬虫框架
  • 从Cookie池和UA池中随机抽取一个加入到Spider
  • start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
  • 并支持分页爬取数据,并加入到待爬队列。

使用说明

启动前配置

  • 安装MongoDB,并启动,不需要配置
  • 安装Scrapy
  • 安装Python的依赖模块:pymongo、json、requests

根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表:

  • video_title:视频的标题,并作为唯一标识.
  • link_url:视频调转到PornHub的链接
  • image_url:视频的封面链接
  • video_duration:视频的时长,以 s 为单位
  • quality_480p: 视频480p的 mp4 下载地址

代码:GitHub:xiyouMc/WebHubBot

以上就是本文的全部内容了,由于代码过长,所以只给了链接,希望大家多多包涵,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。

有需要Python学习资料,或者需要Python环境的老铁可以加群571799375,群里有免费发送给大家!(Python学习资料是2018年最新版)

本文来自网络,如有侵权,请联系小编删除!

原文地址:https://www.cnblogs.com/666fx/p/10173816.html

时间: 2024-08-21 22:58:33

还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!的相关文章

Python爬虫实战:爬取腾讯视频的评论

前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于

一个简单的爬取b站up下所有视频的所有评论信息的爬虫

心血来潮搞了一个简单的爬虫,主要是想知道某个人的b站账号,但是你知道,b站在搜索一个用户时,如果这个用户没有投过稿,是搜不到的,,,这时就只能想方法搞到对方的mid,,就是 space.bilibili.com/9444976 后面的那一串数字.偶然看到这个人关注了某个主播,,想到可能这个人会回复主播的视频,于是想着爬到所有up下的视频的评论对应的用户,这样我就可以在数据库里检索昵称得到mid,,,嘿嘿嘿(然而失败了,,不是所有人都像我这么无聊,,,,有些人真的看视频不会回复,, 项目地址: h

爬虫小程序 - 王者荣耀全皮肤爬取

爬虫小程序 - 王者荣耀全皮肤爬取 代码如下所示(可直接复制使用): import requests import re import os ''' ps: 出现 <Response [405]> 多运行几次就好了 ''' def Downloed_ksin(ename, **kwargs): # 英雄详情页 url = 'https://pvp.qq.com/web201605/herodetail/' + ename + '.shtml' html = session.get(url=ur

【Python爬虫】批量抓取网页上的视频

1.为何学python 编程语言方面,本科这几年一直都用C/C++,因为研究生方向与机器学习相关,所以最近大部分时间在学机器学习,看了<机器学习实战>这本书,里面的实例都是用python来写,并且目前来说,对机器学习算法支持得比较多的语言是python,matlab/octave当然也很适合用于机器学习,但是毕竟是学术工具,速度等方面肯定不如python,工业开发还是用python.c++. 总之对于学习机器学习,python以及NumPy库要熟悉. 所以这两天决定学一下python,就找了个

【爬虫问题】爬取tv.sohu.com的页面, 提取视频相关信息

尝试解决下面的问题 问题: 爬取tv.sohu.com的页面, 提取视频相关信息,不可用爬虫框架完成 何为视频i关信息?属性有哪些? 需求: 做到最大可能的页面覆盖率 *使用httpClient 模拟获取页面HtmlText源码信息,正则出源码视频URL解析类HtmlText2URLlist.ashx. 正则式:href=\"(.*?)\" 选择重要的信息进行存储 选择合适的数据存储方式,便于后续使用 数据库字段 ID.URL.IsSuccess.Title.Isdelete.Vide

还在纠结基金怎么买?Python手把手教你爬取2000多支优选基金!

人不理财,财不理你,码农每个月辛辛苦苦的加班熬夜,为了就是那一点加班费,没办法谁叫现在的房价高的离谱呢,手里捧着窝窝头,菜里没有一滴油!有一天在咖啡店遇到了一个叫彼得高手,聊了一些理财的观念,听完之后茅塞顿开,投资有道!比如70%来定存,30%的钱来买一些基金定投,长期坚持下去,收益会不错! 码农听完,两眼冒光,爬虫数据分析,这些对我是小菜一碟啊,说干就干!立马熬夜写了一个爬虫,把7000多支基金爬个遍.下面我们就爬取一批较好的基金,为下步投资分析做好准备. 01.页面分析 我们的数据来源是东方

爬虫——使用多进程爬取视频数据

以梨视频为例分析页面请求抓取网页数据.本次抓取梨视频生活分类页面下的部分视频数据,并保存到本地. 一.分析网页 打开抓取网页,查看网页代码结构,发现网页结构里面存放视频的地址并不是真正的视频地址. 进入视频详情页面查看后,可以在response中找到真正的视频地址.保存这个地址的并不是标签,而是一个变量,我们使用re来解析这个变量,提取信息. 二.代码实现 """使用多线程爬取梨视频视频数据""" import requests import r

Node 爬虫,批量爬取头条视频并保存

项目地址:GitHub 目标网站:西瓜视频项目功能:下载头条号[维辰财经]下的最新20个视频姊妹项目:批量下载美女图集 简介 一般批量爬取视频或者图片的套路是,使用爬虫获得文件链接集合,然后通过 writeFile 等方法逐个保存文件.然而,头条的视频,在需要爬取的 html 文件(服务端渲染输出)中,无法捕捉视频链接.视频链接是页面在客户端渲染时,通过某些 js 文件内的算法或者解密方法,根据视频的已知 key 或者 hash 值,动态计算出来并添加到 video 标签的.这也是网站的一种反爬

python爬虫公众号所有信息,并批量下载公众号视频

前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 数据分析实战 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 主要功能 如何简单爬虫微信公众号 获取信息:标题.摘要.封面.文章地址 自动批量下载公众号内的视频 一.获取公众号信息:标题.摘要.封面.文章U