Python 爬虫实战（二）：使用 requests-html

Python 爬虫实战（一）：使用 requests 和 BeautifulSoup，我们使用了 requests 做网络请求，拿到网页数据再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一个新库 requests-html，Pythonic HTML Parsing for Humans?，它可以用于解析 HTML 文档的。requests-html 是基于现有的框架 PyQuery、Requests、lxml 等库进行了二次封装，更加方便开发者调用。

安装

Mac：

pip3 install requests-html

Windows：

pip install requests-html

实例

代码撸多了，让我们看会妹纸，爬的网站我选的是 http://www.win4000.com/zt/xinggan.html ，打开网站，观察到这是个列表，图片是缩略图，要想保存图片到本地，当然需要高清大图，因此得进入列表详情，进一步解析，完整代码如下：

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()

# 解析图片列表
def get_girl_list():
    # 返回一个 response 对象
    response = session.get('http://www.win4000.com/zt/xinggan.html')  # 单位秒数

    content = response.html.find('div.Left_bar', first=True)

    li_list = content.find('li')

    for li in li_list:
        url = li.find('a', first=True).attrs['href']
        get_girl_detail(url)

# 解析图片详细
def get_girl_detail(url):
    # 返回一个 response 对象
    response = session.get(url)  # 单位秒数
    content = response.html.find('div.scroll-img-cont', first=True)
    li_list = content.find('li')
    for li in li_list:
        img_url = li.find('img', first=True).attrs['data-original']
        img_url = img_url[0:img_url.find('_')] + '.jpg'
        print(img_url + '.jpg')
        save_image(img_url)

# 保持大图
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒级时间戳
    f = open('/Users/wuxiaolong/Desktop/Girl/%d.jpg' % t, 'ab')  # 存储图片，多媒体文件需要参数b（二进制文件）
    f.write(img_response.content)  # 多媒体存储content
    f.close()

if __name__ == '__main__':
    get_girl_list()

代码就这么多，是不是感觉很简单啊。

说明：

1、requests-html 与 BeautifulSoup 不同，可以直接通过标签来 find，一般如下：
标签
标签.someClass
标签#someID
标签[target=_blank]
参数 first 是 True，表示只返回 Element 找到的第一个，更多使用：http://html.python-requests.org/ ；

2、这里保存本地路径 /Users/wuxiaolong/Desktop/Girl/我写死了，需要读者改成自己的，如果直接是文件名，保存路径将是项目目录下。

遗留问题

示例所爬网站是分页的，没有做，可以定时循环来爬妹纸哦，有兴趣的读者自己玩下。

参考

requests-html

今天用了一下Requests-HTML库（Python爬虫）

公众号

我的公众号：吴小龙同学，欢迎交流～

原文地址：https://www.cnblogs.com/WuXiaolong/p/8570065.html

时间： 2024-10-05 08:36:18

Python 爬虫实战（二）：使用 requests-html

安装

实例

遗留问题

参考

公众号

Python 爬虫实战（二）：使用 requests-html的相关文章

Python爬虫实战二之爬取百度贴吧帖子

转 Python爬虫实战二之爬取百度贴吧帖子

python爬虫实战——5分钟做个图片自动下载器

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫（二）：向网页提交数据

Python爬虫实战（2）：爬取京东商品列表

Python爬虫进阶二之PySpider框架安装配置

Python爬虫实战七之计算大学本学期绩点

Python爬虫实战四之抓取淘宝MM照片