Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

先来看看页面长啥样的:https://book.douban.com/top250

我们将要爬取哪些信息：书名、链接、评分、一句话评价……

1. 爬取单个信息

我们先来尝试爬取书名，利用之前的套路，还是先复制书名的xpath：

得到第一本书《追风筝的人》的书名xpath如下：

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a

得到xpath，我们就可以按照之前的方法来尝试一下：

返回的竟然是空值，这就很尴尬了。

这里需要注意，浏览器复制的 xpath 信息并不是完全可靠的，浏览器经常会自己在里面增加多余的 tbody 标签，我们需要手动把这些标签删掉。

修改 xpath 后再来尝试，结果如下:

切记：浏览器复制 xpath 不是完全可靠，看到 tbody 标签特别要注意。

分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》的 xpath 信息进行对比：

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a
//*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div[1]/a
//*[@id="content"]/div/div[1]/div/table[3]/tbody/tr/td[2]/div[1]/a
//*[@id="content"]/div/div[1]/div/table[4]/tbody/tr/td[2]/div[1]/a

比较可以发现书名的 xpath 信息仅仅 table 后的序号不一样，并且跟书的序号一致，于是去掉序号（去掉 tbody），我们可以得到通用的 xpath 信息：

//*[@id=“content”]/div/div[1]/div/table/tr/td[2]/div[1]/a

好了，我们试试把这一页全部书名爬下来:

2.爬取多个信息

分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》评分的 xpath 信息进行对比：

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[2]/span[2]
//*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div[2]/span[2]
//*[@id="content"]/div/div[1]/div/table[3]/tbody/tr/td[2]/div[2]/span[2]
//*[@id="content"]/div/div[1]/div/table[4]/tbody/tr/td[2]/div[2]/span[2]

相信你已经可以秒写出爬取全部评分的xpath了：

//*[@id=“content”]/div/div[1]/div/table/tr/td[2]/div[2]/span[2]

把评分的xpath放入之前的代码，运行：

现在我们再把书名和评分同时爬取下来：

这里我们默认书名和评分爬到的都是完全的、正确的信息，这种默认一般情况没问题，但其实是有缺陷的，如果我们某一项少爬或多爬了信息，那么两种数据的量就不一样了，从而匹配错误。比如下面的例子:

书名xpath 后的@title 改为 text()，获取的文本数量与评分数量不一致，出现匹配错位。

如果我们以每本书为单位，分别取获取对应的信息，那肯定完全匹配。

书名的标签肯定在这本书的框架内，于是我们从书名的标签向上找，发现覆盖整本书的标签（左边网页会有代码包含内容的信息），把xpath 信息复制下来：

//*[@id="content"]/div/div[1]/div/table[1]

我们将整本书和书名的xpath进行对比

//*[@id=“content”]/div/div[1]/div/table[1]   #整本书
//*[@id=“content”]/div/div[1]/div/table[1]/tr/td[2]/div[1]/a   #书名
//*[@id=“content”]/div/div[1]/div/table[1]/tr/td[2]/div[2]/span[2]   #评分

不难发现，书名和评分 xpath 的前半部分和整本书的 xpath 一致的，
那我们可以通过这样写 xpath 的方式来定位信息：

file=s.xpath(“//*[@id=“content”]/div/div[1]/div/table[1]”)
title =div.xpath(“./tr/td[2]/div[1]/a/@title”)
score=div.xpath(“./tr/td[2]/div[2]/span[2]/text()”)

在实际的代码中来看一下：

刚刚我们爬了一本书的信息，那如何爬这个页面所有书呢？很简单啊，把 xpath 中<table>后面定位的序号去掉就ok。

终于看到庐山真面目了，不过，等等~

title = div.xpath("./tr/td[2]/div[1]/a/@title")[0]
score=div.xpath("./tr/td[2]/div[2]/span[2]/text()")[0]

为什么这两行后面多了个 [0] 呢？我们之前爬出来的数据是列表,外面带个方框，看着非常难受,列表只有一个值，对其取第一个值就OK。如果不熟悉列表的知识，可以回去补补。

接下来就是按照这样的方式多爬几个元素啦！

有一个点需要注意的是：

num=div.xpath("./tr/td[2]/div[2]/span[3]/text()")[0].strip("(").strip().strip(")")

这行代码用了几个 strip() 方法，()里面表示要删除的内容，strip(“(”) 表示删除括号， strip() 表示删除空白符。

嗯，已经把一个页面搞定了，接下来需要，把所有页面的信息都爬下来。

3.翻页，爬取所有页面信息

先来看一下翻页后url是如何变化的：

https://book.douban.com/top250?start=0    #第一页
https://book.douban.com/top250?start=25   #第二页
https://book.douban.com/top250?start=50   #第三页

url 变化的规律很简单，只是 start=() 的数字不一样而已，而且是以每页25为单位，递增25，这不正是每页的书籍的数量吗？于是，我们只需要写一个循环就可以了啊。

for a in range(10):
  url = 'https://book.douban.com/top250?start={}'.format(a*25)
  #总共10个页面，用 a*25 保证以25为单位递增

这里要强调一下 Python range() 函数

基本语法：range(start, stop, step)
start：计数从 start 开始。默认是从 0 开始。例如 range(5) 等价于range(0,5);
end：计数到 end 结束，但不包括 end。例如：range（0,5）是 [0,1,2,3,4] 没有5
step：步长，默认为1。例如：range(0,5) 等价于 range(0,5,1)

>>>range(10)    #从 0 开始到 10 （不包含）
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

>>> range(1, 11)    #从 1 开始到 11 (不包含)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 

>>> range(0, 30, 5)    #从0到30（不包含），步长为5 
[0, 5, 10, 15, 20, 25]

加上循环之后，完整代码如下：

from lxml import etree
import requests
import time

for a in range(10):
    url = 'https://book.douban.com/top250?start={}'.format(a*25)
    data = requests.get(url).text

    s=etree.HTML(data)
    file=s.xpath('//*[@id="content"]/div/div[1]/div/table')
    time.sleep(3)

    for div in file:
        title = div.xpath("./tr/td[2]/div[1]/a/@title")[0]
        href = div.xpath("./tr/td[2]/div[1]/a/@href")[0]
        score=div.xpath("./tr/td[2]/div[2]/span[2]/text()")[0]
        num=div.xpath("./tr/td[2]/div[2]/span[3]/text()")[0].strip("(").strip().strip(")").strip()
        scrible=div.xpath("./tr/td[2]/p[2]/span/text()")

        if len(scrible) > 0:
            print("{},{},{},{},{}\n".format(title,href,score,num,scrible[0]))
        else:
            print("{},{},{},{}\n".format(title,href,score,num))

来运行一下：

请务必要自己练习几遍，你觉得自己看懂了，还是会出错，不信我们赌五毛钱。

Python 的基础语法很重要，没事的时候多去看看：字符串、列表、字典、元组、条件语句、循环语句……

编程最重要的是实战，比如你已经能够爬TOP250的图书了，去试试TOP250电影呢。

好了，这节课就到这里！

原文地址：http://blog.51cto.com/13719825/2118344

时间： 2024-09-29 23:55:21

Python爬虫入门 | 4 爬取豆瓣TOP250图书信息的相关文章

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象.同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习. 总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~ 一. DOM树结构分析豆瓣Top250电影网址:https://movie.douban.com/top2

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果当你运行代码后,文件夹就会越来越多,如果爬完的话会有2

Python 爬虫入门(二)——爬取妹子图

Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 公众号:[智能制造专栏].欢迎关注,分享智能制造与编程那些事. 爬虫成果当你运行代码后,文件夹就会越来越多,如果爬完的话会有2000多个文件夹,20000多张图片.不过会很耗时间,可以在

爬虫入门-4-2.爬取豆瓣读书图片

一.利用lxml解析 from lxml import etree import os import requests PROXY = { 'HTTPS': '116.209.55.208:9999' } def spider(): url = 'https://book.douban.com/latest?icn=index-latestbook-all' response = requests.get(url, proxies=PROXY) html = etree.HTML(respons

Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/1.爬取租房标题按照惯例,先来爬下标题试试水,找到标题,复制xpath.多复制几个房屋的标题 xpath 进行对比: //[@id="page_list"]/ul/li[1]/div[2]/div/a/span//[@id="page_list"]/ul/li[2]/div[2]/div/a

Python 爬虫入门(一)——爬取糗百

爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关注. 本文目标掌握爬虫的基本概念 Requests 及 Beautiful Soup 两个 Python 库的基本使用通过以上知识完成糗百段子抓取爬虫基本概念爬虫也称网页蜘蛛,主要用于抓取网页上的特定信息.这在我们需要获取一些信息时非常有用,比如我们可以批量到美图网站下载图片,批量下载段子.

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要.它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科.它同时也提供对于相关生物医学资讯上相当全面的支援,像是生化学与细胞生物学. PubMed是因特网上使用最广泛的免费MEDLINE,该搜寻引

爬虫入门-4-3.爬取豆瓣电影

1 import requests 2 3 url = "https://movie.douban.com/cinema/nowplaying/changsha/" 4 proxy = { 5 'HTTP': '116.209.53.143:9999' 6 } 7 headers = { 8 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' 9 ' (KHTML, like Geck

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可