Python爬虫--抓取单一页面上的图片文件学习

#！/usr/bin/python
import sys
#正则表达式库
import re

import urllib
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.=?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
    x += 1
    return imglist

if __name__ = "__main__":
    if len(sys.argv) < 2:
        sys.exit(-1)

    htmurl = sys.argv[1]
    html = getHtml(htmlurl)
    imglist = getImg(html)
    print imglist

时间： 2024-10-20 04:21:10

Python爬虫--抓取单一页面上的图片文件学习的相关文章

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/ 0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

python爬虫抓取站长之家IP库，仅供练习用！

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

Python爬虫抓取技术的门道

web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展.然而,正所谓成也萧何败也萧何,开放的特性.搜索引擎以及简单易学的html.css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介:但如今作为商业化软件,web这个平台上的内容信息的版权却毫无保证,因为相比软件客户端而言,你的网页中的内容可以被很低成本.很低的技术门槛实现出的一些抓取程序获取到,这也就是这一系列文章将要探讨的话题-- 网络爬虫 . 有很多人认为web应当始终遵循开放的精神,呈现在页面

python 爬虫抓取 MOOC 中国课程的讨论区内容

一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy 框架,惊呆了,真棒! 网上很多关于 selenium 库的详细介绍,这里略过此方法. 二: requests 库编写一个爬虫小脚本,requests 库极为方便.接下来进入正题,如何抓取 MOOC 中国上课程的讨论内容! 1. 分析网页数据打开你需要抓取数据的课程页面,点击讨论区之后页面加载讨

python爬虫抓取哈尔滨天气信息

python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip install requests:pip install BeautifulSoup4) 代码:(亲测可以正确执行) 1 # coding:utf-8 2 """ 3 总结一下,从网页上抓取内容大致分3步: 4 1.模拟浏览器访问,获取html源代码 5 2.通过正则匹配,获取指定

Python爬虫——抓取贴吧帖子

抓取百度贴吧帖子按照这个学习教程,一步一步写出来,中间遇到很多的问题,一一列举首先, 获得标题和贴子总数 # -*- coding:utf-8 -*- #!/user/bin/python import urllib import urllib2 import re class BDTB: #初始化,传入基地址,是否只看楼主的参数 def __init__(self, baseUrl, seeLZ): self.baseURL = baseUrl self.seeLZ = '?see_

使用python+phantomjs抓取动态页面

前一段时间公司需要爬取部分web页面的数据使用.但是页面中的主要数据是ajax load出来的,传统的抓取方法是拿不到数据的.后来在网上发现了phantomjs,在无界面的情况下运行js,渲染dom.用这个工具抓取ajax load出来的数据再方便不过啦. 系统环境:CentOS release 6.5 (Final) phantomjs版本:1.9.8 phantomjs抓取加载完整的dom结构.说到phantomjs怎么把数据传递给处理程序,我看到网上很多人是写一个本地文件,然后具体的处理程

猜你喜欢

Codeforces Round#361(div 2)

A题题目意思很简单,问一种拨号的方式(拨号手势)是不是能拨出唯一的号码(例如253就不是唯一的,因为586也是可以的) 记录电话上每个格子上下左右是否还有格子,一个拨号手势是唯一的当且仅当,所拨号码的 ...

（DFS）noip2004——虫食算

1 #include <cstdio> 2 #include <cstring> 3 #include <cstdlib> 4 char a[4][28]; 5 b ...

20160327javaweb 之JSP入门

一.什么是JSP? JSP全称是Java Server Pages,它和servle技术一样,都是SUN公司定义的一种用于开发动态web资源的技术. JSP这门技术的最大的特点在于,写jsp就像在写h ...

优酷真实视频地址解析2015-11-24

11月24日起优酷视频破解算法又发生了变化,相比以前几个月改一次,这个算法维持了1年多,也算是蛮良心的,23333. 今早起来发现优酷的视频都播不了了,一查究竟,原来是算法中的一步又改了.目前优酷视频 ...

JS 2016-09-30T22:04:27.5220743+08:00 转换为日期

1.转换代码 1 new Date(item.CreatedDate).Format("yyyy-MM-dd hh:mm") 2.需要拓展的方法 1 // 对Date的扩展,将 D ...

Flash, Flex, Air, Flashplayer之间的相互关系是什么？

著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:曾嵘链接:http://www.zhihu.com/question/20001256/answer/15565376来源:知 ...

Sublime编辑器的替换字符串

Ctrl+F可以查找数据. Ctrl+H可以开启替换面板,可以通过正则表达式进行匹配数据蓝色框的变量 $1, 就是正则匹配到的数据(红色标示):多个正则表达式则依次类推 $1,$2,$3等.

Adaptive device-initiated polling

A method includes periodically sending a polling call to an enterprise system outside the firewall a ...

java 复习-字符型变量

在java中,字符型变量用char 表示,用来存储字母.数字.标点符号等字符.占两个字节,用unicode编码,可以表示中文和英文.字符要用单引号包围.比如 'A' '我' 注意事项: 有些 ...

Spring MVC和Struts2的区别

1. 机制:spring mvc的入口是servlet,而struts2是filter,这样就导致了二者的机制不同. 2. 性能:spring会稍微比struts快.spring mvc是基于方法的设 ...

unit 7

########unit.7########### 1.什么是进程进程就是系统正在做的事 2.进程的状态运行休眠停止继续结束僵尸进程 3.图形中如何查看进程 gnome-system-m ...

C/C++中问号冒号表达式的陷阱

C/C++中问号冒号表达式的陷阱搬运自我的百度空间在做一个工程,遇到奇怪的bug,问题类似如下 int a=1,b=2,c=3,d; d=a*b + c ? 1: 0; 问d结果是多少? 设 ...

Windows安全标识符(SID)概述

Windows每一个主体,如电脑,账户,服务等,都有一个安全标识符(Security Identifier,SID);一般来说,安全标识符是一串特殊的字符串,它代表着某一安全主体. 安全标识符有以下几 ...

js中为什么非要alert一下下一步才会执行

多数原因为界面ajax中动态添加的元素还没被添加上,就执行了js函数(js函数要调用动态元素),解决办法:ajax方法中添加 async:false,同步,作用为,在ajax执行完毕后才执行之后的js ...

问题解答

在PS里选中文字的时候怎么查看文字的高度 a.使用PS自带的标尺,快捷键Ctrrl+R,将鼠标移动到标尺上方,往下拖拽 b.PS较高的版本,在移动的时候都会出现移动距离显示.选择"矩形选框& ...

VS2013+cocos2dx游戏开发环境

工具:VS2013Ultimate,cocos2d-x3.10,Python2.7.7(说明:本人的安装顺序是如上的顺序) 安装VS2013:官网下载+百度KEY 安装cocos2d-x:官网下载安 ...

[转]SpringMVC Controller介绍及常用注解

一.简介在SpringMVC 中,控制器Controller 负责处理由DispatcherServlet 分发的请求,它把用户请求的数据经过业务处理层处理之后封装成一个Model ,然后再把该Mo ...

codeforces 148E Porcelain

E. Porcelain During her tantrums the princess usually smashes some collectable porcelain. Every furi ...

2015从此篇博文开始

不知不觉接触Linux已经有一年多了,回想过去一年,从学习最基本的命令到学会编写脚本语言再到配置各种服务,每天都能学到很多新知识.但是在学习新知识的时候,往往容易忽略了一个很重要的问题,即是知识的沉淀 ...

标志枚举

public enum Emergency { A = 1, B = 2, C = 4, D = 8 } public class UnitTest1 { [Fact] public void Tes ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.