爬取任意两个用户在豆瓣上标记的想读的图书

爬虫的步骤：将要爬取的目标用户想读的图书的首页的url存储在元组中。通过urllib.request方法构造一个发送请求，在通过urllib.urlopen方法发出请求并取得响应（response）。通过response.read得到页面html，然后在通过beautifulsoup将html解析成beautiful结构soup。通过soup中的一系列方法得到每本图书的url存到set中，将此url和其余的信息存到一个dict中。

通过判断在当前页是否还有下一页存在（通过页面的标识寻找），如果存在就继续遍历，直至结束。然后通过set中的”与“运算符得到共同想读的书的url，存储在一个新的set中，如果此set的元素的长度为0，则说明两人没有共同想读的图书，如果不为0，则遍历这些url，然后在dict中找到与之对应的图书的具体信息。然后通过xlwt将图书的信息写在excel中保存。

在构造请求时遇到了发起请求后，服务器返回403。它表示服务器理解了客户的请求，但拒绝处理它。解决的办法是在请求的头部添加refer，refer来自通过浏览器访问目标页面时，通过f12在浏览器中找到的。其目的是模拟通过浏览器访问目标页面来爬取数据。有时候在爬取页面的信息时，需要暂停几毫秒，爬的过于频繁，会被服务器端监测到。

github地址：https://github.com/041240515lq/python_spider

原文地址：https://www.cnblogs.com/liquan/p/9020042.html

时间： 2024-10-10 00:07:52

爬取任意两个用户在豆瓣上标记的想读的图书的相关文章

爬取豆瓣上某个用户标记的想读的图书信息

一,程序的功能和适用人群程序的功能是爬取豆瓣用户标记的想读的图书,将图书信息保存为excel文件.适用于想备份在豆瓣上标记的图书的用户. 二,执行效果程序执行后会得到一个excel文件,保存了用户想要读的图书信息,如下图: 三,技术路线技术路线是选取用户在豆瓣上标记的想读的图书的首页url作为种子url,如下图遍历这一页中所有的图书信息,通过每本图书链接抓取每本图书的具体信息,以下左图是首页的图书信息,右图是通过左图的链接进入的要爬取的具体的图书信息. 在爬取首页的url中的所有图书时,

二、给定一个 n 行 m 列的地牢，其中 '.' 表示可以通行的位置，'X' 表示不可通行的障碍，牛牛从 (x0 , y0 ) 位置出发，遍历这个地牢，和一般的游戏所不同的是，他每一步只能按照一些指定的步长遍历地牢，要求每一步都不可以超过地牢的边界，也不能到达障碍上。地牢的出口可能在任意某个可以通行的位置上。牛牛想知道最坏情况下，他需要多少步才可以离开这个地牢。

给定一个 n 行 m 列的地牢,其中 '.' 表示可以通行的位置,'X' 表示不可通行的障碍,牛牛从 (x0 , y0 ) 位置出发,遍历这个地牢,和一般的游戏所不同的是,他每一步只能按照一些指定的步长遍历地牢,要求每一步都不可以超过地牢的边界,也不能到达障碍上.地牢的出口可能在任意某个可以通行的位置上.牛牛想知道最坏情况下,他需要多少步才可以离开这个地牢. 个输入包含 1 个测试用例.每个测试用例的第一行包含两个整数 n 和 m(1 <= n, m <= 50),表示地牢的长和宽.接下来的

爬取任意两个用户在豆瓣上标记的想读的图书

爬取任意两个用户在豆瓣上标记的想读的图书的相关文章

爬取豆瓣上某个用户标记的想读的图书信息

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB

23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等

Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)

Python爬虫从入门到放弃（十九）之 Scrapy爬取所有知乎用户信息(下)

运维学python之爬虫高级篇（七）scrapy爬取知乎关注用户存入mongodb

如何爬取了知乎用户信息，并做了简单的分析

爬取糗事百科用户地理位置，详细坐标