python爬虫之基本知识

随着数据的海量增长，我们需要在互联网上选取所需要的数据进行自己研究的分析和实验。这就用到了爬虫这一技术，下面就跟着小编一起初遇python爬虫！

一、请求-响应

在利用python语言实现爬虫时，主要用到了urllib和urllib2两个库。首先用一段代码说明如下：

1 import urllib
2 import urllib2
3
4 url="http://www.baidu.com"
5 request=urllib2.Request(url)
6 response=urllib2.urlopen(request)
7 print response.read()

我们知道一个网页就是以html为骨架，js为肌肉，css为衣服所构成的。上述代码所实现的功能就是把百度网页的源码爬取到本地。

其中，url为要爬取的网页的网址；request发出请求，response是接受请求后给出的响应。最后用read（）函数输出的就是百度网页的源码。

二、GET-POST

两者都是向网页传递数据，最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。

POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择。

POST方式：

1 import urllib
2 import urllib2
3 values={‘username‘:‘[email protected]‘,‘Password‘:‘XXXX‘}
4 data=urllib.urlencode(values)
5 url=‘https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn‘
6 request=urllib2.Request(url,data)
7 response=urllib2.urlopen(request)
8 print response.read()

GET方式：

import urllib
import urllib2
values={‘username‘:‘[email protected]‘,‘Password‘:‘XXXX‘}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、异常处理

处理异常时，用到了try-except语句。

1 import urllib2
2
3 try:
4     response=urllib2.urlopen("http://www.xxx.com")
5 except urllib2.URLError,e:
6     print e.reason

通过上述的介绍及代码展示，我们已经初步认识了爬虫过程，希望对大家有所帮助。

原文地址：https://www.cnblogs.com/zhenpengwang/p/8505860.html

时间： 2024-09-28 09:22:08

python爬虫之基本知识的相关文章

python爬虫的基本知识储备

1.关于引用全局变量: 引用全局变量并不是拿来就可以用,拿来就可以改的,当在子函数中引用全局变量的时候,应该声明这个变量是全局变量:如global test,全局变量test.具体:https://blog.csdn.net/my2010sam/article/details/177351592.关于寻找网页的原始图片: 一般来说,显示在网页上面的图片是经过压缩的缩略图片,但是我们想要爬取的却是高清的原图,那么这个时候我们就可以右键显示网页源码,到网页源码里面找,一般来说,都是可以找到原图的链接

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 1. 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 2. 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 3. 编写正则表达式或

python爬虫实战：利用scrapy，短短50行代码下载整站短视频

近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题. 因为这个事儿,勾起了我另一个念头,这不最近一直想把python爬虫方面的知识梳理梳理吗,干脆借机行事,正凑着短视频火热的势头,做一个短视频的爬虫好了,中间用到什么知识就理一理. 我喜欢把事情说得很直白,如果恰好有初入门的朋友想了解爬虫的技术,可以将就看看,或许对你的认识会有提升.如果有高手路过,

Python爬虫学习路线，强烈建议收藏这十一条

(一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量.数据结构.语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Python 简介 | 菜鸟教程 2.看完基础后,就是做一些小项目巩固基础,比方说:做一个终端计算器,如果实在找不到什么练手项目,可以在 Codecademy - learn to code, interactively, for free 上面进行练习. 如果时间充裕的

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

python爬虫之基本知识

python爬虫之基本知识的相关文章

python爬虫的基本知识储备

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫实战：利用scrapy，短短50行代码下载整站短视频

Python爬虫学习路线，强烈建议收藏这十一条

开始我的Python爬虫学习之路

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

Python爬虫进阶一之爬虫框架概述