Python 开发轻量级爬虫08

Python 开发轻量级爬虫

(imooc总结08--爬虫实例--分析目标)

怎么开发一个爬虫？开发一个爬虫包含哪些步骤呢？

1.确定要抓取得目标，即抓取哪些网站的哪些网页的哪部分数据。
本实例确定抓取Python百度百科词条页面以及相关词条页面的标题和简介。

2.分析这个目标，即需要确定抓取这些网站数据的策略。
有三部分需要分析。
1）需要分析这些目标页面的url格式，用来限定我们要抓取页面的范围。
    如果这个范围不进行限定的话，我们的爬虫就会抓取互联网上很多不相关的网页，造成资源的浪费。
2）我们需要分析要抓取得数据格式。
    在本实例中就要分析，每一个词条页面中标题和简介。这两个数据在标签中的格式。
3）分析页面的编码。
    在我们代码的解析器这部分，需要指定网页的编码，才能够正确的解析。在分析完目标格式以后，
我们进行代码的编写。在代码的解析器这部分，就需要使用到前面分析目标这个步骤所得到的抓取策略结果。

3.执行爬虫，进行数据的抓取。

从这些步骤中，我们可以看到分析目标，即制定抓取目标数据的策略是非常重要的一部分。打开我们爬虫的
入口页，也就是python百度百科词条页面。

我们来分析一下抓取这个页面以及相关页面的数据，它的抓取策略是什么？

首先这个页面的url是 http://baike.baidu.com/view/21087.htm

我们来看一下，相关词条页面的url是什么形式？
    在这个页面中，任意的词条之上，右键审查元素，可以看到都是/view/xxxx.htm，这是一个不完整的url，
在代码中需要在其前面加上baike.baidu.com，把它拼成一个完整的url，才能进行后续的访问。这就是我们得
到的url格式。
然后，我们来看一下要抓取的标题和简介数据标签格式？
    首先我们在python标题上右键审查元素？简介上右键？查看编码格式？通过右键审查元素这种方式，我们就
得到了抓取python以及相关词条网页的url格式、数据格式、网页编码，即得到了抓取这些网站数据的抓取策略。

目标：百度百科python词条相关词条网页 – 标题和简介

入口页： http://baike.baidu.com/view/21087.htm

url格式：
    词条页面url：/view/125370.htm
数据格式：
    标题：
        <dd class="lemmaWgt-lemmaTitle-title">
        <h1>Python</h1>
        </dd>
    简介：
        <div class="lemma-summary" label-module="lemmaSummary"></div>
    页面编码：utf-8
以上就是我们获得抓取python和相关词条网页的抓取策略，这里需要提醒大家的是，每一个互联网的网站
都会不停升级它的格式。作为一个定向爬虫来说，如果一个网站的格式发生了升级，我们的抓取策略随即升
级。
本实例给出的代码，如果运行出错的话可能是网站的格式发生了升级，我们需要打开目标网站，重新制定新
的策略，修改代码后才能够重新运行。

调度程序
    编写实例代码，爬取百度百科python词条页面以及相关1000个页面数据。
创建一个 baike_spider来存放python代码，创建所需要的模块。

创建spider_main.py  -- 爬虫的总调度程序
url_manager  -- url管理器
html_downloader – 下载器
html_parser – 解析器
html_outputer
    – 本代码将所有搜集好的数据写出到一个html页面中，打开一个页面就可以看到所有已经爬取好的数据

spider_main.py
    爬虫总调度程序，会以一个入口的url作为参数来爬取所有的相关的页面。
编写main函数，在main函数中，设置下要爬取的入口url  http://baike.baidu.com/view/21087.htm
创建一个obj_spider = SpiderMain()

首先我们将入口url添加到url管理器，url管理器中已经有了待爬取的url。
当url管理器已经有了待爬取的url的时候，获取一个待爬取的url。
获取之后，我们启动一个下载器下载这个页面， 结果存储在html_cont中。
下载好了页面。我们调用解析器解析这个页面数据，得到新的url列表和新的数据。

解析器
    我们传入两个参数，当前爬取的url和下载好的页面数据。
    解析出来的两个数据 url和数据，进行分别处理。
    将url添加进url管理器，将数据输出并收集。
    这样如果有一个待爬取的url，我们的爬虫就能够爬取所有的url。
最后调用输出收集好的数据。

时间： 2024-08-04 10:08:07

Python 开发轻量级爬虫08的相关文章

Python 开发轻量级爬虫02

Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url,而url页面上又有很多指向其它页面的url,这些url之间相互指向的关系, 就形成了一个网状,这就是互联网. 正常情况下,我们使用人工的方式,从互联网上获取我们需要的感兴趣的信息.那有没有一种方法,我们设定了一个主题,设定一个感兴趣的目标, 可以自动从互联网上获取我们所需要的数据呢?这就是爬虫. 爬

Python 开发轻量级爬虫03

Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监视爬虫的运行情况. 在爬虫程序中有三个模块.首先url管理器来对将要爬取的url和已经爬取过的url这两个数据的进行管理. 从url管理器中取出一个待爬取的url将其传送给网页下载器,下载器将指定的网页下载下来存储成一个字符串,这个字符串会传送给网页解析器进行解析, 一方面会解析出有价值的数据,另一

Python 开发轻量级爬虫01

Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访问,有些网页是使用了Ajax异步加载的内容,这些网页的抓取就会比较复杂. 这里只会考虑不需要登录的静态加载网页的抓取. 课程包含以下内容: 1.爬虫简介介绍爬虫是什么?它实现了什么功能? 2.简单爬虫架构介绍简单的爬虫架构,架构中包含了哪些模块,这些模块怎么组装在一起完成整个爬取任务的.但该架

Python 开发轻量级爬虫05

Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器是爬虫的核心组件. 网页下载器类似于网页浏览器,会将url对应的互联网网页,以HTML的形式下载到本地存储一个本地文件或者本地字符串,然后才能进行后续的分析和处理. Python有哪几种网页下载器呢? Urllib2 – python官方的基础模块,它支持直接的url下载, 或者说向网页提交一些需要

Python 开发轻量级爬虫07

Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip install BeautifulSoup4 BeautifulSoup语法分为三个部分. 首先根据下载好的html网页字符串,我们创建一个BeautifulSoup这个对象,创建这个对象的同时就将整个文档字符串下载成一个DOM树. 然后根据这个dom树,我们就可以进行各种节点的搜索,这里有两个方法

Python 开发轻量级爬虫04

Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容,为什么还要对url进行管理呢? 是为了防止重复抓取.防止循环抓取. 我们都知道,每一个网页都有很多指向其它网页的url,其它网页的url也会指向本网页.这样不同url之间就存在一种循环指向的问题. 如果不对这些url进行管理,那么我们的爬虫就在循环不断抓取这两个url,形成一个死循环.重复抓取.循

Python 开发轻量级爬虫06

Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有价值数据的一种工具,对于搜索引擎来说它会提取出网页所有的url,用于后续的访问. 但是,对于我们定向爬虫来说,除了提取出待爬取的url之外,会提取出我们感兴趣的想要的有价值的数据. 也就是说,网页解析器会以下载好的HTML网页字符串作为输入,然后提取出有价值的数据和新的待爬取的url列表. Pyth

python开发轻量级爬虫

课程目标: 课程内容: 爬虫简介爬虫:一段自动抓取互联网信息的程序简单爬虫架构爬虫调度器 URL管理器. 网页下载器(urllib2). 网页解析器(BeautifulSoup4) 网页生成器完整实例爬取百度百科1000个页面的数据 null

Python 开发简单爬虫 - 基础框架

1. 目标:开发轻量级爬虫(不包括需登陆的和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器(urllib2) 2.5 网页解析器(BeautifulSoup) 2.6 完整实例:爬取百度百科Python词条相关的1000个页面数据 3. 爬虫简介:一段自动抓取互联网信息的程序爬虫价值:互联网数据,为我所用. 4. 简单爬虫架构: 运行流程: 5. URL管理器:管理待抓取URL集合