爬取糗事百科1到5页的图片并下载到本地

思路如下：

首先找到图片的节点

<div class="thumb">

<a href="/article/121672165" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12167/121672165/medium/NTDNQY3EJKUSRZ2X.jpg" alt="糗事#121672165" class="illustration" width="100%" height="auto">
</a>
</div>

找到爬取页面的url

https://www.qiushibaike.com/imgrank/

发起请求拿到响应,略

使用正则表达式来获取图片的src

re.compile(‘<div class="thumb">.*?<img src="(.*?)>".*?</div>‘, re.S)

最后持久化写入文件。

具体代码如下：

import requests
import re
import os

url = "https://www.qiushibaike.com/imgrank/page/"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",
}

pattern = re.compile(‘<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>‘, re.S)

if not os.path.exists("./imgs"):
    os.mkdir("imgs")

# 观察糗事百科的分页url,不需要传入参数
for page in range(1, 6):
    # 直接更新url切换页面
    new_url = url + "%s/" % page
    response = requests.get(url=new_url, headers=headers)
    page_text = response.text
    # 拿到所有图片的链接列表
    list_img = pattern.findall(page_text)

    # 持久化存储
    page_path = "pages%s/" % page
    os.mkdir("imgs/%s" % page_path)

    for my_url in list_img:
        # 将图片url补充完整
        url_img = "https:" + my_url
        print(url_img)
        # 拿到图片的二进制文件
        data_img = requests.get(url=url_img, headers=headers).content
        # 图片的名称
        name_img = my_url.split("/")[-1]
        print(name_img)
        # 写入到本地的文件的路径
        path_img = "imgs/" + page_path + name_img
        print(path_img)
        with open(path_img, "wb") as fp:
            fp.write(data_img)

原文地址：https://www.cnblogs.com/haoqirui/p/10658270.html

时间： 2024-10-07 09:21:49

爬取糗事百科1到5页的图片并下载到本地的相关文章

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩! 说干就干!首先确定思路获取HTML源码--->解析HTML--->保存到数据库没有什么难的 1.创建PHP文件"getDataToDB.php", 2.获取指定URL的HTML源码这里我用的是curl函数,详细内容参见PHP手册代码为 <span style="fo

使用Python爬取糗事百科热门文章

默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续.不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容.从热度最高开始显示到最低.实现代码如下: #!/usr/bin/python #coding:utf8 """ 爬取糗事百科热门文章 """ import urllib2 import re #模拟浏览器访问,否则无法访问 user_age

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看 python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误 http.client.RemoteDisconnected: Remote end closed connection without response 但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4) requests模块安装和使用,这里就不说

python爬取糗事百科段子

初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL 7 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/

爬取糗事百科的图片

小编,最近写了个单线程的爬虫,主要是爬取糗事百科的图片之类的,下面是源代码,小伙伴们可以拿去参照,学习 #!/usr/bin/env python# -*- coding:utf-8 -*-import requests,jsonimport requests,re,os,timeimport urllib.requestimport urllib.parseimport sslimport unittestfrom selenium import webdriver headers = {"U

多线程爬取糗事百科热门段子 (改写前天的博客)

利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list.发送请求.提取数据.保存数据 __init__方法添加三个实例属性队列分别存放:url.响应内容.处理后的数据改写原先每一个方法里的代码,需要的东西直接从队列中取出,此时方法都无需多余参数了每当从一个队列取出数据,记得执行task_done()方法,使计数减一 run()方法里把yaozhixing的事情都开启一个线程,比较慢的事情,比如网络请求,可以

爬虫实战爬取糗事百科

偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用select方法,先找到该文件,然获取下来并保存在txt文件里.比较枯燥. 直接贴代码吧 from bs4 import BeautifulSoup import lxml import request

Python爬虫实战-爬取糗事百科段子

1.本文的目的是练习Web爬虫目标: 1.爬去糗事百科热门段子 2.去除带图片的段子 3.获取段子的发布时间,发布人,段子内容,点赞数. 2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- coding:utf-8 -*- 2 import urllib 3 import urllib2 4 import re 5 6 page = 10 7 url = 'http://www

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评