Python:爬虫之利用Python获取指定网址上的所有图片—Jaosn niu

# coding=gbk
import urllib.request
import re
import os
import urllib

def getHtml(url):  #指定网址获取函数
    page = urllib.request.urlopen(url)
    html = page.read()
    return html.decode(‘UTF-8‘)

def getImg(html):  #定义获取图片函数
    reg = r‘src="(.+?\.jpg)" pic_ext‘
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    x = 0
    path = r‘F:\File_Python\Crawler‘
   # 将图片保存到F:\File_Python\Crawler文件夹中,如果没有Crawler文件夹,将会自动则创建
    if not os.path.isdir(path):
        os.makedirs(path)
    paths = path+‘\\‘     

    for imgurl in imglist:  #打开in集合中保存的imgurl图片网址,循环下载图片保存在本地
        urllib.request.urlretrieve(imgurl,‘{}{}.jpg‘.format(paths,x))
        x = x + 1
    return imglist
html = getHtml("https://tieba.baidu.com/p/2460150866?pn=10")#指定获取图片的网址路径
print (getImg(html)) 

原文地址:https://www.cnblogs.com/yunyaniu/p/8244490.html

时间: 2024-10-10 19:27:08

Python:爬虫之利用Python获取指定网址上的所有图片—Jaosn niu的相关文章

利用PHP获取一个页面上的链接信息

开发中我们可能会获取某个页面或是一段内容中的链接信息,下面我分享一个我写的函数给大家,希望能帮到大家. 函数功能: 1.获取一段内容中链接信息: 2.获取一个URL中链接信息: 3.剔除锚链等无效的链接 4.获取当前域下的链接信息 5.获取他域下的链接信息 6.保留链接的文本信息 代码: /** * +---------------------------------------------------------- * 功能:获取一个网页或一段内容里面的链接信息 * +------------

获取指定类上的@RequestMapping注解的请求信息

通过上一篇博客,我们能够轻松的得到制定类上的制定注解.现在,我们尝试获取指定类上的@RequestMapping注解,并获取该控制层的全部请求信息.在这里,提供一个实体类,用于存放请求的部分信息. public class RequestUrlInfo implements Comparable<RequestUrlInfo>{ private String name; //mapping的名称 private String value; //mapping的请求路径 private Requ

objectARX 获取指定图层上所有实体ID

2015-12-17 1 //获取指定图层上所有实体ID 2 AcDbObjectIdArray GetAllEntityId(const TCHAR* layername) 3 { 4 AcDbObjectIdArray entIds; 5 bool bFilterlayer = false; 6 AcDbObjectId layerId; 7 //获取指定图层对象ID 8 if (layername != NULL) 9 { 10 AcDbLayerTable *pLayerTbl = NU

Python实战:Python爬虫学习教程,获取电影排行榜

Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习Python这门语言. 本文是在前一部分Python基础之上程序员带你十天快速入门Python,玩转电脑软件开发(四),再次进行的Python爬虫实战课程. 正则表达式实例简单详解 正则表达式干什么用? 就是在字符串中提取我们需要的内容的. 记得哦,要先引用正则表达式模块的哦. re就是正则表达式相

Python爬虫入门案例:获取百词斩已学单词列表

百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住.我们来用Python来爬取这些信息,同时学习Python爬虫基础. 首先来到百词斩网站:http://www.baicizhan.com/login 这个网站是需要登录的,不过还好没验证码,我们可以先看下在登录过程中浏览器POST了哪些数据.打开浏览器开发工具(F12),以Chrome浏览器为例,记录登录过程中浏览器的Network情况: 我

【python爬虫】用python编写LOL战绩查询

介绍一个简单的python爬虫,通过Tkinter创建一个客户端,当输入要查询的LOL用户名称的时候,可以显示出当前用户的所在服务器,当前战力和当前段位. 爬取网页地址:http://lol.duowan.com/zdl/ python版本:2.7 需要用到的模块:Tkinter  urllib2  json sys 实例代码: import urllib2, json, threading from Tkinter import * import sys reload(sys) sys.set

Python爬虫入门 | 1 Python环境的安装

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~ 话不多说,正式开始我们的第一节课<Python环境的安装>吧~ 啦啦啦开课啦,看黑板,都看黑板~ 安装Anaconda 在我们的教学中,我们使用的版本是Python3,至于为什么要选Python3,哼哼!工欲善其事,必先利其器,在学习爬虫之前,你得先搭建自己的编程环境.废话不多说,按

获取指定路径下的所有图片文件名

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; namespace File_Test { class GetImages { /// <summary> /// 获取指定的文件夹中的图片文件 /// </summary> /// <param name="userId"&g

Python爬虫之利用正则表达式爬取内涵吧

首先,我们来看一下,爬虫前基本的知识点概括 一. match()方法: 这个方法会从字符串的开头去匹配(也可以指定开始的位置),如果在开始没有找到,立即返回None,匹配到一个结果,就不再匹配. 我们可以指定开始的位置的索引是3,范围是3-10,那么python将从第4个字符'1'开始匹配,只匹配一个结果. group()获得一个或多个分组的字符串,指定多个字符串时将以元组的形式返回,group(0)代表整个匹配的字串,不填写参数时,group()返回的是group(0). 1 import r