python3 抓取图片

import reimport urllib.request# import urllibimport os

def getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return html.decode(‘UTF-8‘)

def getImg(html):    reg = r‘src="(.+?\.jpg)" pic_ext‘  # 要加括号,作为元组返回,抓取淘宝的图片png(先看源码中图片的地址路径)reg = r‘data-lazy="(.+?\.png)" ‘    imgre = re.compile(reg)    imglist = imgre.findall(html)    x = 0    path = ‘D:\\pythonTest\\images‘    if not os.path.isdir(path):        os.makedirs(path)    paths = path + ‘\\‘  # 保存在test路径下    for imgurl in imglist:        urllib.request.urlretrieve(imgurl, ‘{}{}.jpg‘.format(paths, x))        x = x + 1

html = getHtml("http://tieba.baidu.com/p/2460150866")  # 淘宝的:html = getHtml(r"http://www.taobao.com/")getImg(html)
时间: 2024-10-31 08:12:35

python3 抓取图片的相关文章

python3用BeautifulSoup抓取图片地址

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #抓取图片地址 from bs4 import BeautifulSoup import urllib.request html_doc = "http://tieba.baidu.com/p/2460150866" req = urllib.request.Request(html_doc) webpage = urlli

ffmpeg 从视频流中抓取图片

从视频中不断抓取图片的基本流程:打开视频流地址->获取视频流packt->解码成图片帧->输出图片 一.初始化Ffmpeg void ffmpegInit(){ av_register_all(); avformat_network_init(); av_log_set_level(AV_LOG_ERROR); } 如果你不想输出log,设置log级别为AV_LOG_PANIC. 二.打开视频. int Open(char* url) { context = avformat_alloc

Phantomjs+Nodejs+Mysql数据抓取(2.抓取图片)

概要 这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868880 后进行的第二部分,请各位读者在看这篇博客之前先浏览上一篇,因为这里面有部分代码会沿用到上一部分的抓取结果. 好,现在开始正式的抓取图片的讲解 首先,我们先来看看代码: var page =require('webpage').create(); var address='http://pro

网络爬虫(专门抓取图片)

xmfdsh我真是兴趣多多,怎么老是静不下心来搞定一方面的技术,再学点其他的东西,循序渐进,好吧,我又研究网络爬虫去了,这是一个简单版的,参考了网上很多资料,C#来编写,专门抓取图片,能够抓取一些需要cookie的网站,所以功能上还是挺完善的,xmfdsh只研究了三天,因此还有大把需要改进的地方,日后再 慢慢改进,在本文后面附上整个项目,在此献给喜欢研究C#的朋友们,让我慢慢地道来: #region 访问数据 + Request(int index) /// <summary> /// 访问数

python3抓取异步百度瀑布流动态图片(二)get、json下载代码讲解

制作解析网址的get 1 def gethtml(url,postdata): 2 3 header = {'User-Agent': 4 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0', 5 'Referer': 6 'http://image.baidu.com', 7 'Host': 'image.baidu.com', 8 'Accept': 'text/plain, */*; q=0

python3 抓取网页资源的 N 种方法

python3 抓取网页资源的 N 种方法 1.最简单  urllib.request response = urllib.request.urlopen() html = response.read() 2.使用 Request  urllib.request   req = urllib.request.Request() response = urllib.request.urlopen(req) the_page = response.read() 3.发送数据    urllib.pa

curl 抓取图片

/** * curl 抓取图片 * @param $url * @return mixed */ public static function downLoadImage($url) { $header = array('Expect:'); $ch = curl_init(); curl_setopt($ch, CURLOPT_CUSTOMREQUEST, 'GET'); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt(

使用python3抓取pinpoint应用信息入库

使用python3抓取pinpoint应用信息入库 Pinpoint是用Java编写的大型分布式系统的APM(应用程序性能管理)工具. 受Dapper的启发,Pinpoint提供了一种解决方案,通过在分布式应用程序中跟踪事务来帮助分析系统的整体结构以及它们中的组件之间的相互关系. pinpoint api: /applications.pinpoint 获取applications基本信息 /getAgentList.pinpoint 获取对应application agent信息 /getSe

python3 简单抓取图片2

import urllib.requestimport re response = urllib.request.urlopen("http://tieba.baidu.com/p/2460150866")page = response.read()page = page.decode('utf-8') imageList = re.findall(r'src="(.*?\.(jpg|png))" pic_ext',page) j = 1for i in image