百度网盘爬虫(如何爬取百度网盘)

因为要做去转盘网分类模式点我),所以一定要爬取网盘资源,本来想自己写一个爬虫挺不容易的,不想分享出来,但最后还是决定了拿给大家一起看吧,毕竟有交流才有进步,有兴趣的朋友也可以看看我写的其他日志或者关注我,会发现去转盘网的大部分技术现在可以说是公开状态,如有对你有帮助还是认真读读吧,下面是爬虫代码,我立马公开:

ps:不会python的孩子先去学学python,代码是python写的

我附上点资料:点我下载点我下载2

其实还有个磁力站,不过暂时技术不想公开出来,之后也想公开,喜欢的看看:ok搜搜

#coding: utf8

"""

author:haoning

create time: 2015-8-15

"""

import re #正则表达式模块

import urllib2 #获取URLs的组件

import time

from Queue import Queue

import threading, errno, datetime

import json

import requests #Requests is an Apache2 Licensed HTTP library

import MySQLdb as mdb

DB_HOST = ‘127.0.0.1‘

DB_USER = ‘root‘

DB_PASS = ‘‘

#以下是正则匹配规则

re_start = re.compile(r‘start=(\d+)‘) #\d 表示0-9 任意一个数字 后面有+号 说明这个0-9单个数位出现一到多次 比如21312314

re_uid = re.compile(r‘query_uk=(\d+)‘) #查询编号

re_urlid = re.compile(r‘&urlid=(\d+)‘) #url编号

ONEPAGE = 20 #一页数据量

ONESHAREPAGE = 20 #一页分享连接量

#缺少专辑列表

URL_SHARE = ‘http://yun.baidu.com/pcloud/feed/getsharelist?auth_type=1&start={start}&limit=20&query_uk={uk}&urlid={id}‘ #获得分享列表

"""

{"feed_type":"share","category":6,"public":"1","shareid":"1541924625","data_id":"2418757107690953697","title":"\u5723\u8bde\u58c1\u7eb8\u5927\u6d3e\u9001","third":0,"clienttype":0,"filecount":1,"uk":1798788396,"username":"SONYcity03","feed_time":1418986714000,"desc":"","avatar_url":"http:\/\/himg.bdimg.com\/sys\/portrait\/item\/1b6bf333.jpg","dir_cnt":1,"filelist":[{"server_filename":"\u5723\u8bde\u58c1\u7eb8\u5927\u6d3e\u9001","category":6,"isdir":1,"size":1024,"fs_id":870907642649299,"path":"%2F%E5%9C%A3%E8%AF%9E%E5%A3%81%E7%BA%B8%E5%A4%A7%E6%B4%BE%E9%80%81","md5":"0","sign":"1221d7d56438970225926ad552423ff6a5d3dd33","time_stamp":1439542024}],"source_uid":"871590683","source_id":"1541924625","shorturl":"1dDndV6T","vCnt":34296,"dCnt":7527,"tCnt":5056,"like_status":0,"like_count":60,"comment_count":19},

public:公开分享

title:文件名称

uk:用户编号

"""

URL_FOLLOW = ‘http://yun.baidu.com/pcloud/friend/getfollowlist?query_uk={uk}&limit=20&start={start}&urlid={id}‘ #获得订阅列表

"""

{"type":-1,"follow_uname":"\u597d\u55e8\u597d\u55e8\u554a","avatar_url":"http:\/\/himg.bdimg.com\/sys\/portrait\/item\/979b832f.jpg","intro":"\u9700\u8981\u597d\u8d44\u6599\u52a0994798392","user_type":0,"is_vip":0,"follow_count":2,"fans_count":2276,"follow_time":1415614418,"pubshare_count":36,"follow_uk":2603342172,"album_count":0},

follow_uname:订阅名称

fans_count:粉丝数

"""

URL_FANS = ‘http://yun.baidu.com/pcloud/friend/getfanslist?query_uk={uk}&limit=20&start={start}&urlid={id}‘ # 获取关注列表

"""

{"type":-1,"fans_uname":"\u62e8\u52a8\u795e\u7684\u5fc3\u7eea","avatar_url":"http:\/\/himg.bdimg.com\/sys\/portrait\/item\/d5119a2b.jpg","intro":"","user_type":0,"is_vip":0,"follow_count":8,"fans_count":39,"follow_time":1439541512,"pubshare_count":15,"fans_uk":288332613,"album_count":0}

avatar_url:头像

fans_uname:用户名

"""

QNUM = 1000

hc_q = Queue(20) #请求队列

hc_r = Queue(QNUM) #接收队列

success = 0

failed = 0

def req_worker(inx): #请求

s = requests.Session() #请求对象

while True:

req_item = hc_q.get() #获得请求项

req_type = req_item[0] #请求类型,分享?订阅?粉丝?

url = req_item[1] #url

r = s.get(url) #通过url获得数据

hc_r.put((r.text, url)) #将获得数据文本和url放入接收队列

print "req_worker#", inx, url #inx 线程编号; url 分析了的 url

def response_worker(): #处理工作

dbconn = mdb.connect(DB_HOST, DB_USER, DB_PASS, ‘baiduyun‘, charset=‘utf8‘)

dbcurr = dbconn.cursor()

dbcurr.execute(‘SET NAMES utf8‘)

dbcurr.execute(‘set global wait_timeout=60000‘) #以上皆是数据库操作

while True:

"""

#正则备注

match() 决定 RE 是否在字符串刚开始的位置匹配

search() 扫描字符串,找到这个 RE 匹配的位置

findall() 找到 RE 匹配的所有子串,并把它们作为一个列表返回

finditer() 找到 RE 匹配的所有子串,并把它们作为一个迭代器返回

百度页面链接:http://pan.baidu.com/share/link?shareid=3685432306&uk=1798788396&from=hotrec

uk 其实用户id值

"""

metadata, effective_url = hc_r.get() #获得metadata(也就是前面的r.text)和有效的url

#print "response_worker:", effective_url

try:

tnow = int(time.time()) #获得当前时间

id = re_urlid.findall(effective_url)[0] #获得re_urlid用户编号

start = re_start.findall(effective_url)[0] #获得start用户编号

if True:

if ‘getfollowlist‘ in effective_url: #type = 1,也就是订阅类

follows = json.loads(metadata) #以将文本数据转化成json数据格式返回

uid = re_uid.findall(effective_url)[0] #获得re_uid,查询编号

if "total_count" in follows.keys() and follows["total_count"]>0 and str(start) == "0": #获得订阅数量

for i in range((follows["total_count"]-1)/ONEPAGE): #开始一页一页获取有用信息

try:

dbcurr.execute(‘INSERT INTO urlids(uk, start, limited, type, status) VALUES(%s, %s, %s, 1, 0)‘ % (uid, str(ONEPAGE*(i+1)), str(ONEPAGE)))

#存储url编号,订阅中有用户编号,start表示从多少条数据开始获取,初始status=0为未分析状态

except Exception as ex:

print "E1", str(ex)

pass

if "follow_list" in follows.keys(): #如果订阅者也订阅了,即拥有follow_list

for item in follows["follow_list"]:

try:

dbcurr.execute(‘INSERT INTO user(userid, username, files, status, downloaded, lastaccess) VALUES(%s, "%s", 0, 0, 0, %s)‘ % (item[‘follow_uk‘], item[‘follow_uname‘], str(tnow)))

#存储订阅这的用户编号,用户名,入库时间

except Exception as ex:

print "E13", str(ex)

pass

else:

print "delete 1", uid, start

dbcurr.execute(‘delete from urlids where uk=%s and type=1 and start>%s‘ % (uid, start))

elif ‘getfanslist‘ in effective_url: #type = 2,也就是粉丝列表

fans = json.loads(metadata)

uid = re_uid.findall(effective_url)[0]

if "total_count" in fans.keys() and fans["total_count"]>0 and str(start) == "0":

for i in range((fans["total_count"]-1)/ONEPAGE):

try:

dbcurr.execute(‘INSERT INTO urlids(uk, start, limited, type, status) VALUES(%s, %s, %s, 2, 0)‘ % (uid, str(ONEPAGE*(i+1)), str(ONEPAGE)))

except Exception as ex:

print "E2", str(ex)

pass

if "fans_list" in fans.keys():

for item in fans["fans_list"]:

try:

dbcurr.execute(‘INSERT INTO user(userid, username, files, status, downloaded, lastaccess) VALUES(%s, "%s", 0, 0, 0, %s)‘ % (item[‘fans_uk‘], item[‘fans_uname‘], str(tnow)))

except Exception as ex:

print "E23", str(ex)

pass

else:

print "delete 2", uid, start

dbcurr.execute(‘delete from urlids where uk=%s and type=2 and start>%s‘ % (uid, start))

else: #type=0,也即是分享列表

shares = json.loads(metadata)

uid = re_uid.findall(effective_url)[0]

if "total_count" in shares.keys() and shares["total_count"]>0 and str(start) == "0":

for i in range((shares["total_count"]-1)/ONESHAREPAGE):

try:

dbcurr.execute(‘INSERT INTO urlids(uk, start, limited, type, status) VALUES(%s, %s, %s, 0, 0)‘ % (uid, str(ONESHAREPAGE*(i+1)), str(ONESHAREPAGE)))

except Exception as ex:

print "E3", str(ex)

pass

if "records" in shares.keys():

for item in shares["records"]:

try:

dbcurr.execute(‘INSERT INTO share(userid, filename, shareid, status) VALUES(%s, "%s", %s, 0)‘ % (uid, item[‘title‘], item[‘shareid‘])) #item[‘title‘]恰好是文件名称

#返回的json信息:

except Exception as ex:

#print "E33", str(ex), item

pass

else:

print "delete 0", uid, start

dbcurr.execute(‘delete from urlids where uk=%s and type=0 and start>%s‘ % (uid, str(start)))

dbcurr.execute(‘delete from urlids where id=%s‘ % (id, ))

dbconn.commit()

except Exception as ex:

print "E5", str(ex), id

dbcurr.close()

dbconn.close() #关闭数据库

def worker():

global success, failed

dbconn = mdb.connect(DB_HOST, DB_USER, DB_PASS, ‘baiduyun‘, charset=‘utf8‘)

dbcurr = dbconn.cursor()

dbcurr.execute(‘SET NAMES utf8‘)

dbcurr.execute(‘set global wait_timeout=60000‘)

#以上是数据库相关设置

while True:

#dbcurr.execute(‘select * from urlids where status=0 order by type limit 1‘)

dbcurr.execute(‘select * from urlids where status=0 and type>0 limit 1‘) #type>0,为非分享列表

d = dbcurr.fetchall()

#每次取出一条数据出来

#print d

if d: #如果数据存在

id = d[0][0] #请求url编号

uk = d[0][1] #用户编号

start = d[0][2]

limit = d[0][3]

type = d[0][4] #哪种类型

dbcurr.execute(‘update urlids set status=1 where id=%s‘ % (str(id),)) #状态更新为1,已经访问过了

url = ""

if type == 0: #分享

url = URL_SHARE.format(uk=uk, start=start, id=id).encode(‘utf-8‘) #分享列表格式化

#query_uk uk 查询编号

#start

#urlid id url编号

elif  type == 1: #订阅

url = URL_FOLLOW.format(uk=uk, start=start, id=id).encode(‘utf-8‘) #订阅列表格式化

elif type == 2: #粉丝

url = URL_FANS.format(uk=uk, start=start, id=id).encode(‘utf-8‘) #关注列表格式化

if url:

hc_q.put((type, url)) #如果url存在,则放入请求队列,type表示从哪里获得数据

#通过以上的url就可以获得相应情况下的数据的json数据格式,如分享信息的,订阅信息的,粉丝信息的

#print "processed", url

else: #否则从订阅者或者粉丝的引出人中获得信息来存储,这个过程是爬虫树的下一层扩展

dbcurr.execute(‘select * from user where status=0 limit 1000‘)

d = dbcurr.fetchall()

if d:

for item in d:

try:

dbcurr.execute(‘insert into urlids(uk, start, limited, type, status) values("%s", 0, %s, 0, 0)‘ % (item[1], str(ONESHAREPAGE)))

#uk 查询号,其实是用户编号

#start 从第1条数据出发获取信息

#

dbcurr.execute(‘insert into urlids(uk, start, limited, type, status) values("%s", 0, %s, 1, 0)‘ % (item[1], str(ONEPAGE)))

dbcurr.execute(‘insert into urlids(uk, start, limited, type, status) values("%s", 0, %s, 2, 0)‘ % (item[1], str(ONEPAGE)))

dbcurr.execute(‘update user set status=1 where userid=%s‘ % (item[1],)) #做个标志,该条数据已经访问过了

#跟新了分享,订阅,粉丝三部分数据

except Exception as ex:

print "E6", str(ex)

else:

time.sleep(1)

dbconn.commit()

dbcurr.close()

dbconn.close()

def main():

print ‘starting at:‘,now()

for item in range(16):

t = threading.Thread(target = req_worker, args = (item,))

t.setDaemon(True)

t.start() #请求线程开启,共开启16个线程

s = threading.Thread(target = worker, args = ())

s.setDaemon(True)

s.start() #worker线程开启

response_worker()  #response_worker开始工作

print ‘all Done at:‘, now()

时间: 2024-11-06 23:36:54

百度网盘爬虫(如何爬取百度网盘)的相关文章

[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索(二)

前情提要:最近使用PHP实现了简单的网盘搜索程序,并且关联了微信公众平台,名字是网盘小说.用户可以通过公众号输入关键字,公众号会返回相应的网盘下载地址.就是这么一个简单的功能,类似很多的网盘搜索类网站,我这个采集和搜索程序都是PHP实现的,全文和分词搜索部分使用到了开源软件xunsearch. 上一篇([PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索)中我重点介绍了怎样去获取一大批的百度网盘用户,这一篇介绍怎样获得指定网盘用户的分享列表.同样的原理,也是找到百度获取分享列表的接口,

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

python学习笔记之爬虫之爬取百度贴吧某一帖子

从大神这儿静觅 ? Python爬虫实战二之爬取百度贴吧帖子讲的很不错,按照步骤一步一步的做效果很明显.第一次真正做出一个小爬虫程序,所以在csdn写出来也是对自己的一种鞭策一种鼓励,不喜勿喷,还请大神不吝赐教. 因为大神博文讲的很详细(真心详细),所以步骤我就不一一细说了 先把自己的代码贴出来(大部分一样): #!/usr/bin/env python # coding=utf-8 import urllib2 import urllib import re class Tool(object

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有这条新闻,可以看到源文件里没有这条信息,这种情况爬虫是无法爬取到信息的 那么我们就需要抓包分析了,启动抓包软件和抓包

Python爬虫项目--爬取自如网房源信息

本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 2.获取单页源码 1 # -*- coding: utf-8 -*- 2 import requests 3 import time 4 from requests.exceptions import

python爬虫案例-爬取当当网数据

输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_useragent import UserAgent 5 import re 6 import csv 7 8 9 def get_page(key): 10 for page in range(1,50): 11 url = 'http://search.dangdang.com/?key=%s&act=in

爬虫,爬取百度贴吧图片,未完善,请指教

代码如下:用的 Python3.5—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————import urllib.requestimport reimport os # 打开网页def url_open(url): req = urllib.reques

python爬虫之爬取百度图片

##author:wuhao##爬取指定页码的图片,如果需要爬取某一类的所有图片,整体框架不变,但需要另作分析#import urllib.requestimport urllib.parseimport reimport os#添加header header=\ { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87

java的简单网络爬虫(爬取花瓣网的图片)

因为本人对爬虫比较感兴趣,加上之前也写过一些简单的python爬虫,所以在学完java基础后写了一个简单的网络图片爬虫.废话不多说直接上过程代码.(爬取的图源来自花瓣网:https://huaban.com/boards/favorite/beauty/) 源url页面分析 拿到爬取的源url,首先是分析页面哪些东西是要爬取的,这个页面是美女分类的画板页面,这里我们要爬的就是要爬取某个画板下面的所有图片.这里为了简单爬取我就选取了该页面推荐的几个画板.查看本页面源码可以很快找到推荐画板的url资

最最简单的python爬虫教程--爬取百度百科案例

from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#导入相关的包 his = ["/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711"]#初始化url#循环选取20百度百科的数据for i in range(20):url =