爬虫基本知识(转载)

转载自:http://blog.csdn.net/hk2291976/article/details/51154974

爬虫基本知识


本文目录

写在开头

这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历。

网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打算讲什么大道理,因为其实爬虫挺好理解的。就是下面一个流程:

网页网页源代码正则表达式需要的内容

爬虫的功能就是把网页源代码想办法爬下来,然后分析出需要的内容。总结起来就是2个部分: 
1. 爬 
2. 提取

所以,整个爬虫需要掌握的技能,就是如何高效的爬,如何快速的分析提取所需要的内容。

如何爬?

Requests

说实话,之前为了找爬虫的教程,走了挺多弯路的,因为现在很多教程刚上来就介绍urllib,urllib2这两个python自带的有关网页的包,所以刚开始我的单线程爬虫实现也都是基于urllib的,不仅代码多,而且效率还低。实际上,目前来说,这两个已经很过时了,目前用的比较多的是requests这个第三方包(这里我也是偶然间发现极客学院有关爬虫的视频,让我少走那么多弯路,这里我就不说是什么视频了,以免有广告的嫌疑,大家有兴趣的可以自己去搜)。 
正如requests的官方网页说的:

Requests: HTTP for Humans

它目前应该是python下最好的Http库了。它还有很多别的特性:

Requests 使用的是 urllib3,继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。

上面介绍的是单线程爬虫,然后,如果要提高爬的效率,并行化肯定必不可少,那么scrapy就可以解决你的问题。然后还有js动态加载的问题。那些我以后也会慢慢加上来。

Requests安装

pip install requests

所有的python第三方包的安装都可以用pip,如果cmd中无法输入pip命令,请把C:\Python27\Scripts加入PATH环境变量。

注:这里不推荐使用easy_install 因为这个只管安装,不管卸载。

Requests使用

基本知道一个requests.get()和requests.post()就行了。

同样它还有 
requests.head() 
requests.delete() 
功能,不过用的不多。需要的时候,查手册就好了。 
这里有个文档写requests写的挺全面的。可以看看:requests快速上手

requests的返回值可以有多种形式输出,最常用的是 
“.text”和”.content”,前者输出unicode,后者输出二进制

 import requests
 url = ‘http://www.baidu.com‘
 html = requests.get(url)
 print html.text

输出:

<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg"><link rel="dns-prefetch" href="//s1.bdstatic.com"/><link rel="dns-prefetch" href="//t1.baidu.com"/><link rel="dns-prefetch" href="//t2.baidu.com"/><link rel="dns-prefetch" href="//t3.baidu.com"/><link rel="dns-prefetch" href="//t10.baidu.com"/><link rel="dns-prefetch" href="//t11.baidu.com"/><link rel="dns-prefetch" href="//t12.baidu.com"/><link rel="dns-prefetch" href="//b1.bdstatic.com"/><title>百度一下,你就知道</title>
……
3

如何提取?

正则表达式

正则表达式是一个大头!很多也都听过正则表达式,第一印象就是记不住,但是其实也不用特别记忆,因为在爬虫里,用的最多的基本就一个

(.*?)

( ) :表示这个内容是我们需要提取的 
.* :表示匹配任意字符0到n次 
?:表示非贪心,找对第一个就停下来

我来解释下为什么在爬虫里只要这个pattern就行了。 
在html网页源代码中,我们需要找的内容一般都是被某些标签包围的,如果我们能保证找到我们需要的内容左右的标签(并且他们是独一无二的)那么我们很容易写出一个正则表达式:

<XXX>(.*?)</XXX>

把其中的内容提取出来

python正则模块使用

python的正则模块是re,主要用的函数是(re.S的意思是让”.”可以匹配换行符,不然有些标签头和尾是分几行的,就会匹配失败)

findall(pattern,str,re.S)

主力部队,把所有满足正则的内容提取出来,用于匹配满足某个条件的大量我们需要的内容。(比如所有的图片,所有的网址,所有的回复,所有的链接……)。它在网页提取中占了主要地位,工作量大,任务重,所以是主力部队。

search(pattern,str,re.S)

狙击手,用来匹配第一个找到的元素,它的目标目的就是找到我们明显知道只有一个的元素比如标题什么的,一旦找到就结束,所以它的执行速度很快。它的目标明确,效率高,所以是狙击手的角色。

sub(pattern,str,replace)

后勤,它的功能是替换,一般用于替换一个网页地址中的关键词,替换页码等。它看似不重要,但是往往能在很多方面给我们提供便利,所以是后勤。

注意:正则有时候一步不能完成我们需要的功能,可能需要进行几步操作,这时候,我们一般先提取大的部分,在从大部分里面提取我们需要的部分

我们看个很简单的例子:

import re

#假设下面是一个源码,我想保存里面所有的链接
text = ‘<a href = "www.baidu.com">....‘
urls = re.findall(‘<a href = (.*?)>‘,text,re.S)
for each in urls:
    print each

#假设我需要爬取当前网页的头部
html = ‘‘‘
<html>
<title>爬虫的基本知识</title>
<body>
……
</body>
</html>
‘‘‘
print re.search(‘<title>(.*?)</title>‘,html,re.S).group(1)
#这里group(1)表示第一个括号的内容,如果正则里面有多个括号,这里可以通过group(i)返回第i个空格里的内容

#假设下面是一个贴吧的帖子地址,有很多页,每一页就是靠后面的pn=几来区分的,我们输出前10页的网址
Pages = ‘http://tieba.baidu.com/p/4342201077?pn=1‘
for i in range(10):
    print re.sub(‘pn=\d‘,‘pn=%d‘%i,P0"
爬虫的基本知识
http://tieba.baidu.com/p/4342201077?pn=0
http://tieba.baidu.com/p/4342201077?pn=1
http://tieba.baidu.com/p/4342201077?pn=2
http://tieba.baidu.com/p/4342201077?pn=3
http://tieba.baidu.com/p/4342201077?pn=4
http://tieba.baidu.com/p/4342201077?pn=5
http://tieba.baidu.com/p/4342201077?pn=6
http://tieba.baidu.com/p/4342201077?pn=7
http://tieba.baidu.com/p/4342201077?pn=8
http://tieba.baidu.com/p/content 1
content 2
content 3
Hello,        my        world!  
时间: 2024-08-11 09:44:26

爬虫基本知识(转载)的相关文章

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的

Python静态网页爬虫相关知识

想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现 爬虫包括调度器,管理器,解析器,下载器和输出器.调度器可以理解为主函数的入口作为整个爬虫的头部,管理器实现包括对URL是否重复进行 判断,将已经爬到的URL加入到列表防止重复爬取.解析器则是对网页内容进行解析,解析出新的URL和网页内容.下载器则是下载解析器解析出的URL.输 出器则是顾名思义. 1.1 调度器 我的理解为类似主函数的入口,可以启

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

【VB6】使用VB6创建和访问Dom树【爬虫基础知识 】

使用VB6创建和访问Dom树 关键字:VB,DOM,HTML,爬虫,IHTMLDocument 我们知道,在VB中一般大家会用WebBrowser来获取和操作dom对象. 但是,有这样一种情形,却让我们纠结不已: 我们需要做爬虫,然后爬虫不需要太高的效率,但是我们被复杂的正则表达式给弄的头晕眼花. 不知道何去何从. 今天,下定决心研究下html的解析,终于掌握了对IHTMLDocument等接口对象的使用. 源代码放在:http://www.extencent.com 具体的文章将会放在博客园以

Python爬虫基础知识入门一

一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器 投票神器 预测(

自学Python之四 爬虫基础知识储备

首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏   和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏览器浏览不是程序所为!归根到底就是我们通过程序访问网站得到html代码,然后分析html代码获取有效内容的过程.下面让我们从最简单的爬虫开始: 爬取一个页面源代码 在python中,抓取网页的库是ur

Python爬虫预备知识

1.http编程知识 http中client 和server的工作模式 client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略) client通过socket与server通信,发送request并接受response http协议是无状态的,是指每一条的请求是相互独立的,client和server都不会记录客户的行为. client通过在HTTP请求中添加headers告诉server 他请求的内容,可以接受的格式 常用的请求方式有get和post

爬虫基础知识

1.安装 requests scrapy 豆瓣源         pip install -i 豆瓣源 包名  2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX 3.网页分类 静态网页 动态网页 webservice 4.爬虫的应用 搜索引擎 推荐引擎 机器学习的数据样本 金融等数据分析 等... 5.正则表达式 ^:(限定开头)        .:(一个字符)      * + {n}:(限定词)         

python 爬虫基础知识(继续补充)

学了这么久爬虫,今天整理一下相关知识点,还会继续更新 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法. HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层. SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障