【Python】python3实现网页爬虫下载图片

import re
import urllib.request

# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("https://tieba.baidu.com/p/5352556650")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode(‘UTF-8‘)

# ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
    # ------ 利用正则表达式匹配网页内容找到图片地址 ------
    reg = r‘src="([.*\S]*\.jpg)"‘
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

imgList = getImg(html)
imgName = 0
for imgPath in imgList:
    # ------ 这里最好使用异常处理及多线程编程方式 ------
    try:
        f = open(‘D:\\Temp\\‘+ str(imgName)+".jpg", ‘wb‘)
        f.write((urllib.request.urlopen(imgPath)).read())
        print(imgPath)
        f.close()
    except Exception as e:
        print(imgPath+" error")
    imgName += 1

print("All Done!")

时间： 2024-10-09 12:08:45

【Python】python3实现网页爬虫下载图片的相关文章

Python学习---网页爬虫[下载图片]

爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.urlretrieve()下载图片,并且可以重新命名,利用%S 5.应该是运营商有所限制,所以未能下载全部的图片,不过还是OK的 URL分析: 源码: #coding=utf-8 import re import urllib def getHtml(url): page=urllib.urlopen(u

使用爬虫下载图片

import urllib#调用urllib模块 import re#调用正则模块 def getHtml(url): if url is None:#如果url为空的话直接return return html=urllib.urlopen(url)#使用urllib.urlopen打开网页 if html.getcode()!=200: return page=html.read()#返回网页信息 return page def getImg(page): if page is None: r

Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req

[python][爬虫]从网页中下载图片

说明:仅为测试下载图片.正则表达式测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子以下代码将第一页的图片全部下载到本程序根目录 #!/usr/bin/env python #! -*- coding: utf-8 -*- import urllib,urllib2 import re #返回网页源代码 def getHtml(url): html = urllib2.urlopen(url) srcCode = html.read() return srcCode def getImg(

Day3-scrapy爬虫下载图片自定义名称

学习Scrapy过程中发现用Scrapy下载图片时,总是以他们的URL的SHA1 hash值为文件名,如: 图片URL:http://www.example.com/image.jpg 它的SHA1 hash值为:3afec3b4765f8f0a07b78f98c07b83f013567a0a 则下载的图片为:3afec3b4765f8f0a07b78f98c07b83f013567a0a.jpg 目的是下载的图片为:image.jpg或者xxx.jpg 可以通过编写Pipeline来实现. 以

Python scrapy 实现网页爬虫

Python scrapy 安装和网页爬虫功能实现现在组内有个工作就是维护恶意URL库,然后这个维护工作,主要是通过从几个会发布恶意URL地址的网站获取恶意网址,每次都得花费半天,很乏味的事情.所以就想到能否用个爬虫搞定. 这两天研究了下python scrapy,发现利用scrapy的确很容易实现网址爬取功能. 一.scrapy安装简单的说明一下scrapy的安装过程 window安装先安装python,要提醒一下是环境变量的配置,只有环境变量配置对了,才能在命令行执行窗口找到pytho

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 # Author: xixihuang 5 # Date : 2016/08/28 10:12 AM 6 # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. 7 8 import os 9 import uuid 10 import urllib2 11 import cookielib 12 '''获取

PHP (爬虫)下载图片

原文地址:http://www.phpfensi.com/php/20140107/1128.html 通过图片地地址把图片保存到本址,这里我们直接通过readfile读取然后通过fopen保存即可,实例代码如下: <?php /** * 通过图片的远程url,下载到本地 * @param: $url为图片远程链接 * @param: $filename为下载图片后保存的文件名 */ function GrabImage($url,$filename) { if($url==""

Python网络爬虫 - 下载图片

下载博客园的logo from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.cnblogs.com") bsObj = BeautifulSoup(html, "html.parser") imageLocation = bsObj.find("div