关于爬取异步加载的页面

在爬取网站时常遇到异步加载的情况，必须点击或者下拉滚动条才会加载出更多的图片或视频，在源码中却一片空白，我一开始遇到时候也有点懵，了解了就好，还是请求。学过一些前端知识的朋友都清楚其实就是ajax异步加载js，这是为了提高用户的体验，许多网站都使用这种方法。

究其根本，其实就是将这部分请求放在了后台，查看的话，按F12然后F5刷新页面，在Network标签下都会显示出来，比如下面这个网站。

?

随便点一个发现看下啥情况

?

好吧，其实就是个get请求罢了，只是将正常的点击翻页查询变成了下拉查询，多了一步数据加载罢了但本质上还是一些url按顺序增加页数，也就是说不用管外面的网站链接，直接找到翻页的js的链接，把它当做源码，直接获得对应页面里的图片或视频链接（可能需要拼接），嗯，还有修改js链接里哪个参数可以达到翻页效果。

?

对了，上图的js内容是浏览器美化后的，实际效果如下图，，，哈哈，没法看是吧，想用正则或xpath之类匹配其中需要的信息前最好把内容复制js美化工具的网页中点击美化会规范排列滴，然后再分析匹配。

?

直接百度 js美化工具就好，有很多，推荐个我常用的https://tool.lu/js/，请看效果图

?

搞定，收工~

原文地址：https://www.cnblogs.com/guyuecanwu/p/9575501.html

时间： 2024-08-07 03:46:31

关于爬取异步加载的页面的相关文章

爬虫再探实战（三）———爬取动态加载页面——selenium

自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的知识.目标——抓取页面所有的高考录取分数信息. 对于动态加载,开始的时候是看到Selenium+Phantomjs的强大,直接就学的这个.打开网页查看网页源码(注意不是检查元素)会发现要爬取的信息并不在源码里面.也就是说,从网页源码无法通过解析得到数据.Selenium+Phantomjs的强大一方

爬虫再探实战（四）———爬取动态加载页面——请求json

还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造requests请求对象,然后解析json文件啦.源码如下: import requests def save(school_datas): for data in school_datas: # print(data) year = data['year'] province = data['province'

Selenium来抓取动态加载的页面

一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务. 但是有些页面是通过js以及ajax动态加载的,例如:花瓣网.这时如果我们直接分析原始页面的html,是得不到有效的信息的.当然,因为无论怎样动态加载,基础信息总归是包含在初始页面中得,所以我们可以用爬虫代码来模拟js代码,js读取页面元素值,我们也读取页面元素值;js发送ajax,我们就拼凑参数.发送ajax并解析返回的jso

使用Selenium来抓取动态加载的页面

原文:http://my.oschina.net/flashsword/blog/147334?p=1 一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务. 但是有些页面是通过js以及ajax动态加载的,例如:花瓣网.这时如果我们直接分析原始页面的html,是得不到有效的信息的.当然,因为无论怎样动态加载,基础信息总归是包含在初始页面中得,所以我们可以用爬虫代码来模拟js代码,j

selenium和pyquery抓取异步加载数据

from selenium import webdriver from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from pyquery import PyQuery as pq import time #打开不同的浏览

artdialog 异步加载页面生成验证码

artdialog 异步加载一个页面需求:例如现在好多网站的登录或注册都是点击弹出一个层出来然后在上面登录.注册这个登录可能在网站的每个页面都会有,但是我们又不能在每个页面都这一段html加载出来不显示,到需要用的时候,在给shou出来,这样做于情于理都说!不!!过!!!去!!!!!! 恰好以前接触过artdialog 不多说上代码,(注意思维,代码是死的方法是活,解决需求不一定非要这个方法 ) 1.页面html代码 1 <head runat="server">

淘宝购物车页面智能搜索框Ajax异步加载数据

如果有朋友对本篇文章的一些知识点不了解的话,可以先阅读此篇文章.在这篇文章中,我大概介绍了一下构建淘宝购物车页面需要的基础知识. 这篇文章主要探讨的是智能搜索框Ajax异步加载数据.jQuery的社区非常的活跃,许多朋友都在不同地方分享了很多优秀的插件.我在相关的网站上找过想实现类似功能的插件,但是没有找到.于是乎,自己动手丰衣足食.自己来搭建智能搜索框下拉列表.当然,如果有类似功能并且常维护Bug的插件,望留言交流. 源码地址: 淘宝购物车页面--PC端和移动端项目实战首先需要先给大家打一根

vue异步组件和vue.router异步加载

以前在使用angular进行开发时,始终没有处理好异步加载的问题,最多只能使用requirejs异步加载controller里面的内容.导致后来项目扩大的时候,性能问题十分蛋疼.最后我竟然把单页面引用拆成了多页面应用,感觉好囧... 后来尝试用vue写一个项目,配合则webpack,发现效果相当的好.但是vue的异步组件文档太误导人了,让我尝试了好久才发现怎么用.文档上是这样写的: Vue.component('async-webpack-example', function (resolve)

setInterval()解决异步加载，参数传递问题

如题,在异步加载获取页面数据时,有时会调用其他组件,当在传参时有时并不是所有参数都已加载. 异步加载数据获取异常的解决方法:setInterval() setInterval()这个方法可按照指定的周期(以毫秒计)来调用函数或计算表达式. setInterval(x(),y): x()代表你调用的方法, y是每隔多长时间调用一次x()方法例如: setInterval(x(),1000): 每隔1秒调用一次x()方法 setInterval() 方法会不停地调用函数,直到clearInter

猜你喜欢

使用正则表达式提取一段标识语言（ html 或 xml ）代码段中指定标签的指定属性值（需考虑属性值对不规则的情况，如大小写不敏感，属性名值与等号间有空格等）。此处假设需提取 test 标签的 attr 属性值，请自行构建包含该标签的串

<test attr="ddd"> <test attr/s*=/s*["|'](.*?)["|'].*?> <test attr ...

周鸿祎：先做产品还是先谈情怀，这让我很困惑

问:要数中国创业型一号产品经理,应该是周鸿祎了吧. 周鸿祎:真不敢当.我最近也很困惑,三观也被颠倒了.过去我们谈什么都先谈产品,你要先根据用户需求做产品,在体验上做到极致,在产品体验基础之上才能谈情感 ...

为macbook做准备---linux命令（上）

LS 列出当前目录下的子文件 LS -L 列当前目录下的子文件详细信息 ,当然用“LL”也可以LS -A 列出所有文件,包含隐藏文件 —————————————————————— mkd ...

Longest Run on a Snowboard

题意: n*m的矩阵,求矩阵中最长下降的序列的长度. 分析: dp[i][j]表示以i,j为起点的最长下降序列,然后记忆化搜索. #include <map> #include <s ...

第三篇、内置方法

一. 作用域只要在内存里面存在,则就能使用.(栈) 外层变量,可以被内层变量使用内层变量,无法被外层变量使用上面这两句话对吗? 答案:是不对的如: If 1==1: Name = 'alex' ...

数据结构学习笔记02堆栈

栈(stack)又名堆栈,它是一种运算受限的线性表.其限制是仅允许在表的一端进行插入和删除运算.这一端被称为栈顶,相对地,把另一端称为栈底.是一种后进先出(LIFO)的数据结构. 一．栈的顺序存储如 ...

回复音乐

private function IreplyMusic1($Wechat,$data) { $musicdata_Arr=array(); $musicdata_Arr[]=array( " ...

[LeetCode#201] Bitwise AND of Numbers Range

Problem: Given a range [m, n] where 0 <= m <= n <= 2147483647, return the bitwise AND of al ...

linux基础1

本文用来记录学习linux的学习笔记 1 用户登录 root用户:权限很大,对于系统威胁很大,一般不用root用户登录. 一般用户:权限相对较小,也更加安全. 2终端用户与服务器交互要用到的设备,分 ...

linux利器expect的使用

1.什么是expect在做系统管理时,我们很多时候需要输入密码,例如:连接 ssh,连接ftp,那么如何能做到不输入密码,我们需要有一个工具,能代替我们实现与终端的交互,它能够代替我们实现与终端的交互 ...

LINUX-软件安装（一）

源码包脚本安装包二进制包(RPM包.系统默认包) 2.源码包源码包的优点是 1.开源,如果有足够的能力,可以修改源代码 2.可以自由选择所需的功能 3 ...

集群项目总结和思考

前言:作为一名Linux/unix系统工程师.项目实施工程师,这几年一直在涉及到对外项目,经手过许多小中型网站的架构,F5.LVS及Nginx接触的都比较多,我想一种比较通俗易懂的语气跟大家说明下何谓 ...

ubuntu16.04部署RED5流媒体服务器

前提:jdk已经安装 1,下载RED5(https://github.com/Red5/red5-server/releases)选择red5-server-X.X.X-MXX.tar.gz 2,解压 ...

【转】初识CGI

一．基本原理 CGI:通用网关接口(Common Gateway Interface)是一个Web服务器主机提供信息服务的标准接口.通过CGI接口,Web服务器就能够获取客户端提交的信息,转交给服务器 ...

《敏捷之旅》目录和前言

准备给所有关注敏捷实施落地的敏友们写一个系列,欢迎关注! 目录前言第一部分:敏捷方法 1.1 认识一下敏捷 1.2 敏捷方法之Scrum 1.2.1 认识Scrum 1.2.2 如何实施Scrum ...

浅析为什么 char 类型的范围是 : 128~+127

在 C 语言中, signed char 类型的范围为 -128~127,每本教科书上也这么写,但是没有哪一本书上(包括老师)也不会给你为什么是 -128~127,这个问题貌似看起来也很简单容易, 以 ...

Unity带有网络功能——创建服务，并连接到一个特定的服务

游戏本身需要在网络上创建服务,然后其他的游戏能够连接到这个服务,此外真实场景现在玩同样的游戏效果一起. 该方法是创建一个服务呼叫Network.InitializeServer( ): 是Networ ...

Oracle逻辑备份恢复之exp/imp_超越OCP精通Oracle视频课程培训22

oracle视频教程目标 Oracle视频教程,风哥本套oracle教程培训学习oracle数据库export与import逻辑备份恢复参数详解及常用语法,配置生产环境的逻辑自动备份策略,exp/i ...

Gentoo/Funtoo_13_系统管理——「动态更新」

一.Gentoo openRC风格随机启动脚本 /etc/local.d 目录: *.start 后缀文件,正常开机启动: *stop 后缀文件,正常关机时执行二.SSD调优将 /usr/port ...

统计起始日期之间有多少个2月29日

题目:统计起始日期之间有多少个2月29. #include <iostream> #include <string> using namespace std; class Da ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.