python3网络爬虫笔记

参考资料

Python官方文档
知乎相关资料(1) 这篇非常好, 通俗易懂的总览整个Python学习框架.
知乎相关资料(2)

代码实现(一): 用Python抓取指定页面

1 #!/usr/bin/env python
2 #encoding:UTF-8
3 import urllib.request
4
5 url = "http://www.baidu.com"
6 data = urllib.request.urlopen(url).read()
7 data = data.decode(‘UTF-8‘)
8 print(data)

urllib.request是一个库, 隶属urllib. 点此打开官方相关文档. 官方文档应该怎么使用呢? 首先点刚刚提到的这个链接进去的页面有urllib的几个子库, 我们暂时用到了request, 所以我们先看urllib.request部分. 首先看到的是一句话介绍这个库是干什么用的:

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

然后把我们代码中用到的urlopen()函数部分阅读完.

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False)

重点部分是返回值, 这个函数返回一个 http.client.HTTPResponse 对象, 这个对象又有各种方法, 比如我们用到的read()方法, 这些方法都可以根据官方文档的链接链过去. 根据官方文档所写, 我用控制台运行完毕上面这个程序后, 又继续运行如下代码, 以更熟悉这些乱七八糟的方法是干什么的。

>>> import urllib.request
>>> a = urllib.request.urlopen(‘http://10.54.0.2/OAapp/WebObjects/OAapp.woa‘)
>>> type(a)
<class ‘http.client.HTTPResponse‘>
>>> a.geturl()
‘http://10.54.0.2/OAapp/WebObjects/OAapp.woa‘
>>> a.info()
<http.client.HTTPMessage object at 0x7f390a3d4780>
>>> a.getcode()
200

时间： 2024-10-03 07:44:42

python3网络爬虫笔记

python3网络爬虫笔记的相关文章

Python3网络爬虫(八)：爱奇艺等主流视频网站的VIP视频破解(在线观看+视频下载)

Python3网络爬虫(七)：使用Beautiful Soup爬取小说

Python3网络爬虫(十)：这个帅哥、肌肉男横行的世界（爬取帅哥图）

Python网络爬虫笔记（五）：下载、分析京东P20销售数据

python3网络爬虫学习——基本库的使用（1）

《Python3网络爬虫实战案例（崔庆才著）》中文版PDF下载，附源代码+视频教程

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

python3网络爬虫系统学习：第一讲基本库urllib

Python3网络爬虫实战-10、爬虫框架的安装：PySpider、Scrapy