Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

1 . 什么是 AJAX ？

AJAX = 异步 JavaScript 和 XML。

AJAX 是一种用于创建快速动态网页的技术。

通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。

传统的网页（不使用 AJAX）如果需要更新内容，必需重载整个网页面。

几个常见的用到ajax的场景。

比如你在逛知乎，你没有刷新过网页，但是你却能看到你关注的用户或者话题有了新动态的消息提示。

还比如，我们在看视频时，可以看到下面的评论没有完全全部加载出来，而是你向下拖动一点，它给你加载一点。

为什么要用到ajax呢？

从上述场景你应该也可以发现它的优点，

第一，方便与用户的交互，不用重新加载整个网页，就可以实现刷新，不用中断用户的行为。你正在看程序员如何找对象呢，此时来个消息推送，整个网页被刷新了，你说你气不气！

第二个呢，还是你在看程序员如何找对象，但是此时通信状况不好啊。回答加载不出来，页面就空白的卡那了，回答加载不出来，你说急不急！那这样咯，先给你看几个回答，在你看的时候我再悄悄的加载其它的数据，那不就解决了吗？就跟吃饭一个道理，你点了一桌子菜，难道菜全做好了再给你上吗？肯定不会的呀，做好一道上一道嘛，对不对。

第三，从服务端的发送过来的ajax数据，体积比较小。浏览器知道怎么渲染它，这样就减轻了服务端的压力，让客户端，也就是浏览器承担了一些任务。

Ajax技术的核心是XMLHttpRequest对象（简称XHR），可以通过使用XHR对象获取到服务器的数据，然后再通过DOM将数据插入到页面中呈现。虽然名字中包含XML，但Ajax通讯与数据格式无关，所以我们的数据格式可以是XML或JSON等格式。

XMLHttpRequest对象用于在后台与服务器交换数据，具体作用如下：

在不重新加载页面的情况下更新网页
在页面已加载后从服务器请求数据
在页面已加载后从服务器接收数据
在后台向服务器发送数据

2. Ajax对爬虫有什么影响？

还是对应着上述的场景，我爬虫肯定要爬取一个完整数据。但是你一次就只教我两种找对象的方法。还不够我举一反三呢，万一其中还有几个段子，那这样的数据不具有完整性，不够全面。但是不滑动浏览器，数据不出来怎么办？

更坑爹是什么，ajax加载出来的数据是通过浏览器渲染给我们的呀，源代码不一定能找到我们要的数据。那该肿么办！浏览器知道怎么加载，我们不知道呀！

3.如何爬取这样的ajax动态加载的网页。

1. Selenium + PhantomJs

PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准：DOM 操作，CSS选择器，JSON，Canvas 以及SVG。它的作用是和浏览器类似，可以渲染js处理的页面。

selenium是什么呢？它本来是个自动化测试工具，但是被广泛的用户爬虫啊。它是一个工具，这个工具可以用代码操作浏览器。比如控制浏览器的下滑之类。不过我并不是很熟悉，以前了解过一点。

不过，我没用这种方法。为啥呢，因为慢。操作浏览器的时间加起来好多好多了呗，而且又不是没有更好的办法。

2. 自己找，找真实请求。

只要是有数据发送过来，那肯定是有发送到服务器的请求的吧。我们只需找出它悄悄加载出的页面的真实请求在哪发送的。

寻找实例：爬取杭州萧山机场一天的航班信息。

1）右键单击查看网页源码，发现点击“查看更多”之后的页面源码里没有新出现的航班信息，所以猜测它是使用了Ajax技术。用Wireshark抓个包先。

2.寻找传送XMLHttpRequest对象的参数。目测服务器是依据这个p值来选择传送的数据。

json格式检测：http://www.bejson.com/

原文链接:https://zhuanlan.zhihu.com/p/27346009

原文地址：https://www.cnblogs.com/NiBosS/p/12088651.html

时间： 2024-08-07 11:00:54

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页的相关文章

爬取Ajax动态加载网页

常见的反爬机制及处理方式 1.Headers反爬虫 :Cookie.Referer.User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2.IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问解决方案: 1.构造自己IP代理池,每次访问随机选择代理,经常更新代理池 2.购买开放代理或私密代理IP 3.降低爬取的速度 3.User-Agent限制 :类似于IP限制解决方案: 构造自己的User-Agent池,每次访问随机选择 5.

Python网络爬虫：爬取古诗文中的某个制定诗句来实现搜索

python编译练习,为了将自己学习过的知识用上,自己找了很多资料.所以想做一个简单的爬虫,代码不会超过60行.主要用于爬取的古诗文网站没有什么限制而且网页排布很规律,没有什么特别的东西,适合入门级别的爬虫. 抓取目标站点的准备工作 Python的版本是:3.4.3. 爬取的目标是: 古诗文网(www.xzslx.net) 随意打开一个古诗文网的古诗页面,查看它的网页地址就能看到,古诗的地址基本是 "www.xzslx.net/shi/+ id + .html" 构成,如下图: 然后对

python网络爬虫《爬取get请求的页面数据》

一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib.parse,在python2中是urllib和urllib2. 二.由易到难的爬虫程序: 1.爬取百度首页所有数据值 #!/usr/bin/env python # -*- coding:utf-8 -*- #导包 import urllib.request import urllib.parse

Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页

1.安装selenium pip install selenium Collecting selenium Downloading selenium-3.4.1-py2.py3-none-any.whl (931kB) 100% |████████████████████████████████| 942kB 573kB/s Installing collected packages: selenium Successfully installed selenium-3.4.1 2.安装phan

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有这条新闻,可以看到源文件里没有这条信息,这种情况爬虫是无法爬取到信息的那么我们就需要抓包分析了,启动抓包软件和抓包

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

python爬取ajax动态生成的数据以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看博客内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据四

Ajax动态加载数据

前言: 1.这个随笔实现了一个Ajax动态加载的例子. 2.使用.net 的MVC框架实现. 3.这个例子重点在前后台交互,其它略写. 开始: 1.控制器ActionResult代码(用于显示页面) /// <summary> /// 电话查询页面 /// </summary> /// <returns></returns> public ActionResult PhoneSearch(string sql) { phoneList=从数据库查询数据: V

Echarts ajax动态加载json数据

后台php写的,给前台准备好json格式数据 public function actionGetOffline(){ $userid = Yii::$app->user->identity->user_id; $connection = Yii::$app->db; $command = $connection->createCommand("SELECT proc_phase_id from tb_pro where user_id like '%$userid%

猜你喜欢

Python中的简单计算

Python中的简单计算 (1)基本的加减乘除 >>> 2 + 2 4 >>> 50 - 5*6 20 >>> (50 - 5*6) / 4 5. ...

Oracle中分页查询语句

Oracle分页查询语句使我们最常用的语句之一,下面就为您介绍的Oracle分页查询语句的用法,如果您对此方面感兴趣的话,不妨一看. Oracle分页查询语句基本上可以按照本文给出的格式来进行套用.O ...

我假装已经老了

.. .. #我假裝已經老了, .. 取下用了兩年就不走的鐘, .. 拆出,细查,焊接,裝回, .. 然後,就拿著可以走的鐘, .. 得瑟著,此刻的能耐 .. #我裝作已經老了, ...

推荐第三方Oracle客户端查询工具

1.SqlDbx 官方地址:http://www.sqldbx.com/personal_edition.htm 2.devart http://www.devart.com/dbforge/orac ...

Blacksmith Demo部分内容学习

1.Plane Reflection平面反射在第一个例子里可以看到,该脚本使用一个特定的相机渲染反射内容左边关闭该脚本,右边为开启 gif特写: 用来做产品展示倒是很不错: 2.HairRende ...

分布式网站部署

环境介绍:两台win2008_x64位主机+jdk7_x64位分别为A主机IP:192.168.7.100.B主机IP:192.168.7.101 一.首先安装memcached(A主机.B主机都需 ...

机器学习（三）—支持向量机（1）

摘要: 本文对支持向量机做了简单介绍,并对线性可分支持向量分类机.线性支持向量分类机以及核函数做了详细介绍. 最近一直在看<机器学习实战>这本书,因为自己本身很想深入的了解机器学习算法,加 ...

[hdoj]2845 Beans

解题思路:一开始的思路是分单双行,每行求一个最大,单双行分别求和.对每行求最大,对每一个位置有可能空一个位置不选,有可能空两个位置不选,但不会空三个,否则一定会加上中间的值.对每一行搜索不行,线性的存 ...

转：Server.MapPath相关

如果你从Page类继承的类中执行这条语句,才可以简单地使用 DataBase = Server.MapPath("data.mdb");否则写全命名空间:System.Web.Ht ...

Dubbo应用教程--ActiveMQ的安装与使用（单节点）

IP:192.168.4.101 环境:CentOS 6.6.JDK7 1. 安装JDK并配置环境变量(略) JAVA_HOME=/usr/local/java/jdk1.7.0_72 2 ...

Tiny_4412的NFS挂载

设备连接: 交叉网线串口线 usb线电源线网络设置: 笔记本ubuntu:wifi处,设置IPv4设置“仅本地连接”,不要自动了,此时wifi已经关闭 ifconfig 查看 pc地址 ine ...

linux 单引号，双引号，反引号的小总结。

还是老惯例说说事情的起因,由于最开始对linux下面的各种引号并不是特别敏感,导致有一天我在添加数据库字段的时候出现的错误,当时出现错误的原因是我在最外层使用了单引号进行包裹,然后一句话里面需要转意的 ...

COOKIE 与 SESSION 简介 1.cookie不属于http协议范围,由于http协议无法保持状态,但实际情况,我们却又需要"保持状态",因此cookie就是在这样一个场 ...

彻底删除微软拼音输入法这个讨厌的家伙

你是Windows7用户吗?你在使用Office 2010吗?如果是,你就会发现,Windows7用户的系统默认输入法是"微软拼音新体验",假如你又安装了 Office 2010, ...

flex4 amcharts 删除水印

package com.twobowl.component.manualTopo { import com.amcharts.AmPieChart; import com.amcharts.chart ...

网站URL网址末尾是否应该使用反斜杠

当对网站进行SEO优化时,难免会遇到因为URL导致的重复页面问题,其中一个比较常见的现象就是因页面地址后是否有添加反斜杠造成的,举例如下: 链接A: www.example.com/abc/ 链接B: ...

IOS 实现界面本地化（国际化）

在制作应用程序的时候,可以使用本地化功能,将应用程序的内容翻译成多种语言,在不同的区域显示不同的语言.下面就通过简体中文本地化设置来讲解一下本地化的简单使用. 一.让应用程序支持中文语言环境选择需要 ...

有shi以来最详细的正则表达式入门教程

原文:有shi以来最详细的正则表达式入门教程本篇文章文字内容较多,但是要学习正则就必须耐心读下去,正则表达式是正则表达式其实并没有想像中的那么困难,但是想要熟练的掌握它,还是需要下功夫勤加练习的.这 ...

Delphi高手突破（三) Delphi高级进阶

第 3章异常及错误处理健壮的程序来自于正确的错误处理. 相信我,总会有意外的…… Delphi 高手突破正如同现实生活中我们不可能事事如意,你所写的代码也不可能每一行都能得到正 ...

java 日期获取时间戳

SimpleDateFormat df = new SimpleDateFormat("yyyy/MM/dd hh:mm:ss"); String dateS ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.