Python爬虫：学爬虫前得了解的事儿

这是关于Python的第14篇文章，主要介绍下爬虫的原理。

提到爬虫，我们就不得不说起网页，因为我们编写的爬虫实际上是针对网页进行设计的。解析网页和抓取这些数据是爬虫所做的事情。

对于大部分网页来讲，它的代码构成主要包括三种语言：HTML、CSS、JavaScript，我们在爬取数据的时候大部分是从HTML和CSS中爬取。

那么，接下来在学爬虫前我们得了解点下面这些事儿。

首先，需要了解客户端与服务器的交换机制。

我们每次在访问页面时，实际上都是在向服务器发起请求，我们称之为request；服务器接到请求后，会给我们一个回应，称为response；这两种行为结合起来，即HTTP协议。

也就是说，HTTP协议是我们的客户端（网页）与服务器会话的一种方式。

在向服务器请求时，request主要包含了8种方法，get、post、head、put、options、connect、trace和delete，我们大多数时候使用到get方法即可，后续在实战操作中会详细展开。

Response是服务器回应给我们的信息。当我们以request向服务器发出请求时，服务器会返回给我们所要的信息。

其次，认识网页的基本构成

一个网页主要由三个部分构成，头部（header）、主体内容（content）和底部（footer）。

我们可以随便打开一个网页，比如PMCAFF的精选页：http://www.pmcaff.com/site/selection，用Google浏览器打开，仔细观察，它是由顶部的导航栏、logo等构成header，中间的文章为content，下面的合作伙伴等构成footer。

然后，我们单击右键选择【检查】，可以看到该页面的源代码，仔细观察下，常用的标签至少包含下面这几个：

<div>...</div> 分区
<li>...</li> 列表
<p>...</p> 段落
<h1>...</h1> 标题
<img src = " "> 图片
<a href = " ">...</a> 链接

最后，在爬虫前，我们需要学会解析网页。

那么，关于如何去解析网页，我们需要学会使用beautifulsoap。

具体内容将在下一篇的实战中详细讲解，用request+beautifulsoap来爬取真实网页的数据。

操作环境：Python版本，3.6；PyCharm版本，2016.2；电脑：Mac

----- End -----

作者：杜王丹，微信公众号：杜王丹，互联网产品经理。

时间： 2024-08-27 02:33:25

Python爬虫：学爬虫前得了解的事儿的相关文章

学爬虫，需要掌握哪些Python基础？

入手爬虫确实不要求你精通Python编程,但基础知识还是不能忽视的,那么我们需要哪些Python基础呢? 首先我们先来看看一个最简单的爬虫流程: 第一步要确定爬取页面的链接,由于我们通常爬取的内容不止一页,所以要注意看看翻页.关键字变化时链接的变化,有时候甚至要考虑到日期:另外还需要主要网页是静态.动态加载的. 第二步请求资源,这个难度不大,主要是Urllib,Request两个库的使用,必要时候翻翻官方文档即可第三步是解析网页.请求资源成功后,返回的整个网页的源代码,这时候我们就需要定位,清

说出你的故事：你为什么学爬虫

前传传闻在一个叫做互联网的神奇世界里,有一群神秘的人,每到夜深人静,黑夜笼罩大地的时刻,他们才揭开神秘的面纱,显露出各种各样的神奇能力,他们有的会搬砖,有的会造轮子,当然最厉害的还是一种叫做拷贝的术法... 据说这个神秘的团体流派众多Java派,PHP派,C++派,等等等等,不过奇怪的是,不论他们属于什么宗派,信仰什么流派,他们都有稀疏的发量,高挑的发际线,而且功力越是深厚,越是闪闪发光,听说各大门派,各大组织的掌门,长老,一起出席会议的时候,会让围观者们下意识的唱起民谣"一闪一闪亮晶晶,满天

Python从零开始写爬虫-3 获取需要抓取的URLs

Python从零开始写爬虫-3 获取需要抓取的URLs ??在一节中,我们学习了如果通过正则表达式来获取HTML里面指点便签的内容, 那么我今天就来看看实际的效果.在抓取小说之前, 我们需要知道小说有哪些章节,以及这些章节的顺序. ??刚开始我是通过获取一个章节, 然后从这个章节获取下个章节的链接, 然后发现这个方法问题很大. 该方法只能单线程操作, 对于抓取小说来非常的满, 几乎没有爬虫是单线程, 单线程的效率是无法被接受的. 鲁棒性差, 只要有一个章节没有正确的抓取下来, 那么整个程序就无法

dota玩家与英雄契合度的计算器，python语言scrapy爬虫的使用

首发:个人博客,更新&纠错&回复演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是page->model->result,从网页中提取数据,组成有意义的数据结构,再拿这数据结构做点什么. 在这个项目中,爬虫的用处是从游久网dota数据库上抓取dota英雄和物品的数据和照片存到本地磁盘,数据存为json格式,方便在网页应用中直接使用. 2.网页应用,使用dota英雄数据.自己编写的小伙

Python简单网络爬虫实战—下载论文名称，作者信息（下）

在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从soup中get到data类 soup中提供了select方法来筛选所需的类.该方法使用方法如下: articlename = soup.select('title') 该语句即将soup中所有的title元素放到articlename中.select也有其他用法 articlename = soup.s

Python 3网络爬虫开发实战书籍

Python 3网络爬虫开发实战书籍,教你学会如何用Python 3开发爬虫本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.requests.正则表达式.Beautiful Soup.XPath.pyquery.数据存储.Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,*后介绍了pyspider框架.Scrapy框架和分布式爬虫. 很多初学者,对Python的概念都是模糊不清的,Python能做什么,学的时候,

python豆瓣电影爬虫

python豆瓣电影爬虫可以爬取豆瓣电影信息,能够将电影信息存进mysql数据库,还能够下载电影预告片.2.3. 4功能使用到selenium库一个例程运行截图下载好的电影预告片 MySQL存储的数据数据表构造这是程序流程图,详细写明了本爬虫的运行流程爬虫程序代码 # Author:YFAN import random import requests import lxml.etree from time import sleep import re import pymysql f

[踩坑]python实现并行爬虫

问题背景:指定爬虫depth.线程数, python实现并行爬虫思路: 单线程实现爬虫类Fetcher 多线程 threading.Thread去调Fetcher 方法:Fetcher 中,用urllib.urlopen打开指定url,读取信息: response = urllib.urlopen(self.url) content = response.read() 但是这样有问题, 比如对于www.sina.com来说,读出来的content是

Windows 环境下运用Python制作网络爬虫

import webbrowser as web import time import os i = 0 MAXNUM = 1 while i <= MAXNUM: web.open_new_tab('要刷的网络地址') os.system('taskkill /F /IM 浏览器文件名(chrome.exe)') i += 1 else: print 'happly day!' 代码和简单只要一个第三方的函数和调用系统的文件就OK了.记住给要刷的次数定值,不然电脑就不好受了! Windows