Python网络爬虫技巧小总结，静态、动态网页轻松爬取数据

很多人学用python，用得最多的还是各类爬虫脚本：有写过抓代理本机验证的脚本，有写过自动收邮件的脚本，还有写过简单的验证码识别的脚本，那么我们今天就来总结下python爬虫抓站的一些实用技巧。

静态网页

对于静态网页的爬虫不用多说大家也都知道，因为爬取静态网页非常的简单，只要用requests直接把html爬取下来然后用正则表达式匹配就可以了。

动态网页

相对于静态网页的简单，但是动态网页的就会相对而而言会复杂一下，而且现在互联网的发展速度，动态网页是最多的，静态网页是比较少的，不过他有张良计，我有过墙梯。

动态网页的http请求分为两种形式:

Get方法和post方法

Get方法：比如说我们在浏览器上输入一个网络地址，就是发起一个Get方法的请求。这种网络地址就是URL。
Post方法：在爬虫中不常见，故不详细介绍

如果知道一个网站的请求是形式，熟练使用F12开发者工具，里面查看network就可以了。

看一下案例

当然了，并不是所有的网页都是靠发送请求来得到数据的，也有非发送数据的动态网页。

对于这样的网站，我们一般是用selenium来做模拟浏览器的行为，可以直接获取浏览器渲染后的结果。不过selenium的速度比较慢。

具体案例如下：

所以无论网页是静态网页还是动态网页都是方法爬取的，当然了，很多网站是需要登录和识别验证码、反爬等，无论网站出什么样的措施都是有应对方法，关键在于你会不会。

原文地址：https://www.cnblogs.com/Python6359/p/9606537.html

时间： 2024-10-20 05:10:45

Python网络爬虫技巧小总结，静态、动态网页轻松爬取数据的相关文章

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文 1.前言最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章. 2.准备工作我需要把我从博客园爬取的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个数据库,在来一张表,保存我们的数据,其实都很简单的了啊,如下图所示 BlogArticleId博文自增ID,BlogTitle博文标题,BlogUrl博文地

一个咸鱼的Python爬虫之路（四）：将爬取数据存入mysql

Python 与 mysql 数据连接用pymysql import pymysql conn =pymysql.connect(host='127.0.0.1',user='root',password='123456',db='company',charset="utf8") cur=conn.cursor() sql=''' ''' employee=cur.execute(sql) conn.commit() cur.close() conn.close() 基本操作大概就这

python网络爬虫（1）静态网页抓取

获取响应内容: import requests r=requests.get('http://www.santostang.com/') print(r.encoding) print(r.status_code) print(r.text) 获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,等. 定制Request请求传递URL参数 key_dict = {'key1':'value1','key2':'value2'} r=requests.get('http:/

python获取网页精准爬取数据

import reimport urllib.requeststring='<div class="name">(.*?)</div>'huo=urllib.request.urlopen("https://read.douban.com/provider/all").read()huo=huo.decode("utf-8")huo1=re.compile(string).findall(str(huo))hom=open

学习《从零开始学Python网络爬虫》PDF+源代码+《精通Scrapy网络爬虫》PDF

学习网络爬虫,基于python3处理数据,推荐学习<从零开始学Python网络爬虫>和<精通Scrapy网络爬虫>. <从零开始学Python网络爬虫>是基于Python 3的图书,代码挺多,如果是想快速实现功能,这本书是一个蛮好的选择. <精通Scrapy网络爬虫>基于Python3,深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧. 学习参考: <从零开始学Python网络爬虫>PDF,279页,带目录,文字可复制: 配套

如何利用Python网络爬虫抓取微信朋友圈的动态（上）

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌,小编在网上找到了第三方工具,它可以将朋友圈进行导出,之后便可以像我们正常爬虫网页一样进行抓取信息了. [出书啦]就提供了这样一种服务,支持朋友圈导出,并排版生成微信书.本文的主要参考资料来源于这篇博文:https://www.cnblogs.com/sheng-jie/p/7776495.html

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）

前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py文件.我们需要获取的数据是朋友圈和发布日期,因此在这里定义好日期和动态两个属性,如下图所示. 2.修改实现爬虫逻辑的主文件moment.py,首先要导入模块,尤其是要主要将items.py中的WeixinMomentItem类导入进来,这点要特别小心别被遗漏了.之后修改start_requests方

Python网络爬虫

http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么

Python网络爬虫与信息提取（中国大学mooc）

目录目录 Python网络爬虫与信息提取淘宝商品比价定向爬虫目标获取淘宝搜索页面的信息理解淘宝的搜索接口翻页的处理技术路线requests-refootnote 代码如下股票数据定向爬虫列表内容爬取网站原则代码如下代码优化 Python网络爬虫与信息提取淘宝商品比价定向爬虫股票数据定向爬虫 1. 淘宝商品比价定向爬虫功能描述目标:获取淘宝搜索页面的信息理解:淘宝的搜索接口翻页的处理技术路线:requests-re[^footnote]. 代码如下: #CrowTa