python写网络爬虫

#!/usr/bin/evn python

-- coding: cp936 --

import re #导入正则表达式模块
import urllib #导入urllib模块，读取页面与下载页面需要用到
def getHtml(url): #定义getHtml()函数，用来获取页面源代码
page = urllib.urlopen(url) #urlopen()根据url来获取页面源代码
html = page.read() #从获取的对象中读取内容
return html
def getImage(html): #定义getImage()函数，用来获取图片地址并下载
reg = r‘src="(.*?.jpg)" width‘ #定义匹配图片地址的url的正则表达式
imgre = re.compile(reg) #对正则表达式进行编译，运行效率更高
imagelist = imgre.findall(html) #使用findall()查找html中匹配正则表达式的图片url
x = 0
for imageurl in imagelist:
urllib.urlretrieve(imageurl,‘picture_%s.jpg‘ % x) #urlretrieve()下载文件
x +=1
uri = raw_input("请输入网址： ")
r = r‘^http://‘
if re.match(r,uri):
html2 = getHtml(uri)
else:
html2 = getHtml("http://" + uri)
getImage(html2)
运行脚本test.py

原文地址：http://blog.51cto.com/xiaogongju/2061744

时间： 2024-10-07 23:29:35

python写网络爬虫的相关文章

用Python写网络爬虫-云图

<用Python写网络爬虫>作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法.此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染.管理cookie.通过提交表单从受验证码保护的复杂网站中抽取数据等.本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取. <用Python写网络爬虫>介绍了如下内容: 通过跟踪链接来爬取网站:使用lxm

2018用Python写网络爬虫（视频+源码+资料）

课程目标实现Python写网络爬虫入门适用人群数据零基础爱好者,职场新人 ,在校大学生课程简介1.基本Http请求以及验证方式分析 2.Python用于处理Html格式数据beautifulsoup模块3.Pyhton的requests模块的使用并实现爬取B站.网易云.微博.内涵段子等网站4.异步IO模块的使用,如:asyncio.gevent.aiohttp.twisted.torando 5.自定义异步IO模块 6.Scrapy框架的使用以及应用下载地址:百度网盘原文地址:http://

用Python写网络爬虫（高清版）PDF

用Python写网络爬虫(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1kdRFAEuze-A9ToWVXHoCXw 提取码:8ib1 复制这段内容后打开百度网盘手机App,操作更方便哦内容简介 · · · · · · 作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站. <用Python写网络爬虫>作为使用Python来爬取网络数据的杰出指南,

《用Python写网络爬虫》pdf

<用Python写网络爬虫>高清PDF 链接: https://pan.baidu.com/s/10hVcfmcbY3wWpdcoRPjeww 提取码: gnje ? 内容简介 · · · · · · 作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站. <用Python写网络爬虫>作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来

python写网络爬虫的环境搭建

网上找了好多资料,都不全,通过资料的整理,包括自己的测试,终于把环境打好了,真是对于一个刚接触爬虫的人来说实属不易,现在分享给大家,若有不够详细之处,希望各位网友能补充. 第一步,下载python, 这里有一个巨坑,python2.x与python3.x变化实在是太大,博主开始用的python2.7,后来发现很多模块版本太新,根本没办法使用,兼容性出了问题,索性把python2.7给卸了,然后下了python3.4,如果你习惯了用python2.x,就不要轻易升级,如果你是刚学python,建议

《用Python写网络爬虫》示例网站搭建（框架+本书pdf+章节代码）

所用到的代码及工具示例网站源码+框架+本书pdf+章节代码链接: https://pan.baidu.com/s/1miHjIYk 密码: af35 环境 python2.7 win7x64 示例网站搭建 wswp-places.zip 书中站点源码web2py_src.zip 站点所使用的框架 1 解压web2py_src.zip2 然后到web2py/applications目录下 3 将wswp-places.zip解压到applications目录下 4 返回上一层目录,到web2p

Python即时网络爬虫：API说明

API说明--下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试.如果要从一个网页上提取很多字段,逐个调试XPath将是十分耗时的.通过这个接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得. 这个XSLT提取器可以是您用MS

手把手教你写网络爬虫（1）：网易云音乐歌单

把之前发表在微信公众号的爬虫系列文章迁移过来,热热身,就当备份了. 手把手教你写网络爬虫(1) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 大家好,<手把手教你写网络爬虫>连载开始了!在笔者的职业生涯中,几乎没有发现像网络爬虫这样的编程实践,可以同时吸引程序员和门外汉的注意.本文由浅入深的把爬虫技术和盘托出,为初学者提供一种轻松的入门方式.请跟随我们一起踏上爬虫学习的打怪升级之路吧! 介绍什么是爬虫? 先看看百度百科的定义: 简单的说网络爬虫(Web crawler)也叫做

手把手教你写网络爬虫（3）：开源爬虫框架对比

手把手教你写网络爬虫(3) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 介绍大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过<手把手>系列的前两篇,那么今天的内容就非常容易理解了.细心的读者也许会有疑问,为什么不学出身名门的Apache顶级项目Nutch,或者人气飙升的国内大神开发的Pyspider等框架呢?原因很简单,我们来看一下主流爬虫框架在GitHub上的活跃度: Project Language Star Watch Fork Nutch Java 1

猜你喜欢

Mac OSX (EI Capitan)搭建Caffe环境并配置python接口

Caffe是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的贾扬清.Caffe是纯粹的C++/CUDA架构,支持命令行.Python和MATLAB接口:可以在CPU和GPU直接 ...

2015多校第7场 HDU 5379 Mahjong tree 构造，DFS

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5379 题意:一颗n个节点n-1条边的树,现在要给每个节点标号(1~n),要求:(1)每一层的兄弟节点的 ...

CSS选择器优先级比较

CSS选择器的优先级,一般根据就近原则,更准确一点,根据选择器的权值大小比较,权值越高,则优先级越高.如果加上!important则优先级最高. 权值大小: !important 1000 id 10 ...

全局变量与局部变量 ---C

局部变量: 作用域: 函数内(包括形参{除了特殊的形参外})或代码块内定义:函数内,包括形参,代码块内生命周期: 从定义的那行开始分配内存,直至其所属代码块内的最后一行结束或者return ...

收益最高的-KeyMob移动广告聚合平台

KeyMob移动广告聚合平台是国内最优秀的一站式聚合平台,通过与多家广告平台.Ad Exchange平台合作,为众多的开发者提供更高的广告收益和更高效的广告管理形式. 据悉,KeyMob移动广告聚合平 ...

1.环境版本问题,myeclipse 配 jdk1.7 不能用jdk1.8 :jdk1.6满足不了代码本身报错为:The type java.io.ObjectInputStream cannot ...

UER#7 T2

题意:给定n个数,对于2到n,分别输出一个答案.答案定义为:对于当前的数k,在原数组中找一个长度为k的区间,使得区间最值之差最小,输出差值.注意,差值允许5%的误差. 很少看见近似算法的题啊..跪烂V ...

Java中的5种同步辅助类

当你使用synchronized关键字的时候,是通过互斥器来保障线程安全以及对共享资源的同步访问.线程间也经常需要更进一步的协调执行,来完成复杂的并发任务,比如wait/notify模式就是一种在多线 ...

[小明学算法]5.常用排序算法

#include<iostream> using namespace std; void Print(int arr[], int length) { for (int i = 0; i ...

java常用集合类：Deque，ArrayList，HashMap，HashSet

Queue家族无论是queue还是stack,现在常用的是Deque的实现类:如单线程的ArrayQueue,多线程的ArrayBlockingQueue Deque:读作“deck”,算是一种“双 ...

20150310-删除数组中原有对象

一.删除数组中原有对象 [self.answerView.subviews makeObjectsPerformSelector:@selector(removeFromSuperview)];

libpng处理png图片（二）

一,实现效果:图片剪切, 图片拼接 -------切割后-----> 切割后的小图片拼图的效果与此类似. 二,实现思想利用上一篇所展示的libp ...

CDN流量放大攻击思路

首先,为了对CDN进行攻击,我们必须清楚CDN的工作原理,这里我们再来简单介绍一下CDN的工作模型. CDN的全称是Content Delivery Network(内容分发网络),通过在网络各处的加 ...

UILabel 调整行间距

/* 调整行间距 */ + (void)adjustLineSpacingOfLabel:(UILabel *)label to:(CGFloat)lineSpacing { NSString *te ...

使用HttpClient和Jsoup实现一个简单爬虫

一直很想了解一下爬虫这个东西的,完全是出于兴趣,其实刚开始是准备用python的,但是由于种种原因选择了java,此处省略很多字... 总之,如果你想做一件事情的话就尽快去做吧,千万不要把战线拉得太长 ...

MIT 6.828-jos-xv6-lab2: memory management

先把内存整体的分布图放上来,目前还不能完全看懂在LAB1之后,形成的物理内存的状态是下面这样的然后手动开启了映射机制之后,将从0XF0100000开始的内存映射到了0x0100000的位置上 Pa ...

1.Bootstrap介绍与环境的引入

Bootstrap是switter公司的两名前端设计师设计的,基于html,css,javascript的超强的前端框架 Bootstrap的特点:是以移动设备为优先,pc机 ,平板,手机所有的主流 ...

cocos2dx 音频模块分析(4): 音效部分

我们上面几篇分析了cocos2dx音频模块的音乐部分,从这篇开始, 我们分析下音效部分: 1. //预加载音效文件:pszFilePath 音效文件名 void SimpleAudioEngine:: ...

使用区域

新建一个MVC项目,取名叫11-4WorkingWithAreas,项目模板选择Internet Application. 1.创建区域在解决方案管理器中鼠标右击该项目->add->ar ...

android +十六进制颜色表

android编写界面控件颜色表 <转载>http://www.blogjava.net/zks518/archive/2011/08/12/356409.html 颜色代码表:以下样色显 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.