Pyhon网络爬虫（二）

就像学驾照你需要一台车，幸运的是我们的爬虫在上一篇已经选择了Pyhton，恭喜你，这是一辆自动档的车，相信你可以愉快轻松的上路

我们学习第一步：requests库

我们的爬虫如何进入网络，路在哪里？

　　　URL便是我们的入口，网络上的资源全部都可以通过URL链接得到

　　 URL的格式

我们利用requests库可以轻松，通过URL访问网络

（1）安装requests库 Windows 平台运行 cmd，执行pip install requests

（安装出问题，请检查配置环境变量）

（2）尝试第一个程序，比如访问百度

1 import requests
2 url = "http://www.baidu.com"
3 re = requests.get(url)
4 print(re.text[0:1000])

上面就是一个最基本的爬虫，我们只是用了几行代码就实现了这个功能，是不是轻松愉快？

上面的程序通过get方法，成功的访问了百度，并获得了页面的信息，先不用了解这些信息的含义，我们先重点关注requests的get方法，这些方法如果你对HTTP协议稍微有所了解的话，你应该就猜到这些方法帮你实现了相应的http协议，你仅需调用这些方法就可以。

重点分析requests.get()方法：

r = requests.get(url) 构造一个向服务器请求资源的Request对象，返回一个包含服务器资源的Response对象

当然还可以带其他参数

requests.get(url, params=None, **kwargs)

? url : 拟获取页面的url链接
? params : url中的额外参数，字典或字节流格式，可选
? **kwargs: 12个控制访问的参数

我们可以看一下这个第二个参数的用法，我们打开百度输入博客园搜索，我们在浏览器看到是这样一个链接

https://www.baidu.com/s?wd=博客园

当然后面可能还会跟很多参数，我们先忽略

1 import requests
2 params = {"wd":"博客园"}
3 url = "http://www.baidu.com/s"
4 re = requests.get(url,params)
5 print(re.text[0:1000]

我们可以看到返回了百度搜索博客园的信息

我们还要再看一下返回的对象有哪些属性

Response 属性说明

r.status_code HTTP请求的返回状态，200表示连接成功，404表示失败

r.text HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）
r.content HTTP响应内容的二进制形式

我们必须要考虑到一些情况一个是如果请求错误该如何？（错误会有很多原因url错误，无法连接）

第二是编码的问题，知道正确的编码编码我们才能后续更好的去处理数据

r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1
r.text根据r.encoding显示网页内容
r.apparent_encoding：根据网页内容分析出的编码方式
可以看作是r.encoding的备选

所以需要对上面的属性了解并合理使用

我们修改下代码：

 1 import requests
 2 params = {"wd":"博客园"}
 3 url = "http://www.baidu.com/s"
 4 try:
 5     re = requests.get(url,params)
 6     re.raise_for_status()
 7     re.encoding = re.apparent_encoding
 8     print(re.text[0:1000])
 9
10 except:
11     print("产生错误")

以下是requests库的几个组要方法

方法　　　　　　　　　　　　说明
requests.request() 　　　　构造一个请求，支撑以下各方法的基础方法
requests.get() 　　　　　　获取HTML网页的主要方法，对应于HTTP的GET
requests.head()　　　　　　获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post() 　　　　　　向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put() 　　　　　　向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()　　　　　　向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()　　　　　　向HTML页面提交删除请求，对应于HTTP的DELETE

时间： 2024-11-29 05:05:39

Pyhon网络爬虫（二）

Pyhon网络爬虫（二）的相关文章

零基础自学Python 3开发网络爬虫(二): 用到的数据结构简介以及爬虫Ver1.0 alpha

Python3网络爬虫——二、Urllib库的基本使用

Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

【Python网络爬虫二】使用urllib2抓去网页内容

最简单的网络图片的爬取 --Pyhon网络爬虫与信息获取

Python 3开发网络爬虫(四): 登录

Python3网络爬虫(七)：使用Beautiful Soup爬取小说

python网络爬虫入门（二）——用python简单实现调用谷歌翻译

Golang 网络爬虫框架gocolly/colly 二 jQuery selector