人生苦短之爬虫爬取网页的通用代码框架

我们首先打开IDLE选择File->new window命令（或者可以直接按键Ctrl+N键，在很多地方这个按键是新建文件的意思）

在这里还是要推荐下我自己建的Python开发学习群：725479218，群里都是学Python开发的，如果你正在学习Python ，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2018最新的Python进阶资料和高级开发教程，欢迎进阶中和进想深入Python的小伙伴

我们填入代码：

保存文件是按键快捷键Ctrl+S，将源代码保存为hello.py的文件

按键F5运行走起（同时我们可以选择Run->Run Module命令）

IDLE中显示出现错误：

原因是name‘name’未定义

注意：这里需要一个长的下划线，才能使其正确，以用来区分python本身的语法

改正过后我们再次运行：

我们看到出现了和之前一样的结果

我们将网页连接修改一下看看会出现什么结果：

结果是“产生异常”

解释一下通用代码框架：get方法请求一个链接，r.raise_for_status用来判断请求是否正常（也就是200），否则就产生异常。r.encoding = r.apparent_encoding这一句是能够是我们请求返回网页解码是正确的，最后return返回网页的内容。

此框架用来解决我们访问网页的问题。

今天的内容就是这样，每天一点点，重在坚持。加油！！！

原文地址：https://www.cnblogs.com/CoXieLearnPython/p/9181018.html

时间： 2024-11-13 07:10:49

人生苦短之爬虫爬取网页的通用代码框架的相关文章

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

Python——网络爬虫，一个简单的通用代码框架

一.代码"""通用代码框架:可使网页爬取变得更稳定更有效下面是一个爬取百度网页的例子,正常情况下是返回"""import requests def get_HTML_Text(): try: r = requests.get(url, timeout=30) r.raise_for_status() # 若状态不是200,引发HTTPError异常 r.encoding = r.apparent_encoding return r.text e

python爬虫——爬取网页数据和解析数据

1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2.网络爬虫的功能图2 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等. 有时,我们比较喜欢的新闻网站可能有几个,每次

爬虫爬取网页数据

public static void Main(string[] args) { string url = "https://ly.esf.fang.com/house-a010204-b012374/";//所需要爬取网站地址 string data = GetWebContent(url); var htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(data);//加载数据流 HtmlNodeCollection htmlNodes =

Python爬虫爬取网页图片

没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴,怎么办呢?办法总是有的,即便没有我们也可以创造一个办法. 下面就看看我今天写的程序: #coding=utf-8 #urllib模块提供了读取Web页面数据的接口 import urllib #re模块主要包含了正则表达式 import re #定义一个getHtml()函数 def getHtm

一个咸鱼的Python爬虫之路（三）：爬取网页图片

学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图.所以我找了这个网站http://www.ivsky.com 网站里面有很多的图集,我们就找你的名字这个图集来爬取 http://www.ivsky.com/bizhi/yourname_v39947/ 来看看这个页面的源代码: 可以看到我们想抓取的图片信息在<li> 里面然后图片地址在img里面那么我们这里可以用Beautifu

python爬虫01-使用urllib爬取网页

1 import urllib.request # 导入模块 2 import urllib.parse 3 4 # 将网页赋给变量file 5 file = urllib.request.urlopen("http://www.baidu.com") 6 7 # 读取网页 8 data = file.read() # 读取全部内容,结果作为一个字符串变量 9 dataline = file.readline() # 读取一行的内容 10 datalines = file.readli

Scrapy精华教程（六）——自动爬取网页之II（CrawlSpider）

一.目的. 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存. 但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自动实现多网页爬取功能. 在教程(五)

Node.js爬虫-爬取慕课网课程信息

第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样开始前,记得 npm install cheerio 为了能够并发的进行爬取,用到了Promise对象 //接受一个url爬取整个网页,返回一个Promise对象 function getPageAsync(url){ return new Promise(

猜你喜欢

4 行为型模式之- 备忘录模式

备忘录模式介绍: 备忘录模式是一种行为模式,该模式用于保存对象当前的状态,并且在之后可以再次恢复到此状态,这有点像我们平时说的"后悔"药.备忘录模式实现的方式需要保证被保存的对象状 ...

myeclipse使用小技巧

1 如何关掉maven自动更新,去掉前面的勾 2 myeclipse中如何设置不校验js

《Javascript权威指南》13号学习笔记：使用日期和时间

一.创Date示例 1.Date类的方法和属性是非常不静,故,申请书Date属性和方法之前.必须创建Date类的实例. var date = new Date(); //以当前日期和时间创建实例. ...

Android xml资源文件中@、@android:type、@*、？、@+含义和区别

一[email protected]代表引用资源 1.引用自定义资源.格式:@[package:]type/name android:text="@string/hello" 2. ...

单链表反转

1, 非递归方式 List* ListRevert(List* list){ List* head = NULL; //new list head List* temp = NULL; ...

关于浮动及定位

一 . 浮动float I . 定义及规则 float默认为none,对应标准流的情况.当float : left;时,元素就会向其父元素的左侧靠紧,脱离标准流,同时宽度不再伸展至充满父容器,而是根据 ...

开启激活google now

㈠修改语言为English(United States) ㈡打开google->Settings->Accounts&privacy->Google Account 点选 ...

Python 之元组

在此声明自己的水平非常的有限,用博客来在众人面前写文章实在是在众人面前出丑吧,但是出来混嘛,脸皮一定要厚! Python的元组和list很相像,但是列表中的元素是可变对象,元组是不可变的对象.列表的输 ...

600. Non-negative Integers without Consecutive Ones

Problem statement: Given a positive integer n, find the number of non-negative integers less than or ...

UI-设置定时器的两种方法（NSTimer）

//方法一: //创建定时器 NSTimer *timer=[NSTimer timerWithTimeInterval:2.0 target:self selector:@selecto ...

百度大书法家是否理科

http://www.ebay.com/cln/tocn266/-/167154523017/2015_02_10 http://www.ebay.com/cln/ta-ch03/-/16737227 ...

单页面应用路由的实现方式

什么是 SPA? SPA就是单页面应用,即single page application,通过看代码就可以发现,整个网站就只有一个Html文件. WHY SPA? 减小服务器压力. 如果不用SPA,那 ...

Python列表方法

列表的方法 1 class list(object): 2 """ 3 list() -> new empty list 4 list(iterable) -> ...

XDOJ_1123_二分查找

http://acm.xidian.edu.cn/problem.php?id=1123 简直智障,scanf的格式都写错,T了无数遍. #include<iostream> #inclu ...

HDU ACM 1031 Design T-Shirt 水题

分析:给你n个人M件衣服, 选出前K件衣服评价最大值,注意要输出的是编号,编号从大到小.两次排序即可. #include<iostream> #include<algorithm&g ...

Mac OSX10.8 Android环境配置

时至今日,在Mac下配置Android已相当简便了. 1.JDK不用下载,Mac内置.(命令行下java -version检验,你也可以手动更新最新版.) 2.只用下载Eclipse ADT Bund ...

FreeRTOS 二值信号量，互斥信号量

本章节讲解 FreeRTOS 任务间的同步和资源共享机制,二值信号量. 二值信号量是计数信号量的一种特殊形式,即共享资源为 1 的情况. FreeRTOS 分别提供了二值信号量和计数信号量,其中二值信 ...

初识SFDC创建一个google map（最基础版本）

google map 目前我只会用js创建,好处是不需要申请google地图钥匙直接就可以用: 有一点必须强调,浏览器必须是IE <apex:page > <head> < ...

5.3 Components — Passing Properties to A Component

1. 默认情况下,一个组件没有访问属性在它使用的模板范围中. 例如,假想你有一个blog-post组件被用来展示一个blog post: app/templates/components/blog-p ...

【听课笔记】算法导论

课程地址 http://v.163.com/special/opencourse/algorithms.html 今天课程地址: http://open.163.com/movie/2010/12/G ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.