网站爬取-案例三：今日头条抓取(ajax抓取JS数据)

今日头条这类的网站制作，从数据形式，CSS样式都是通过数据接口的样式来决定的，所以它的抓取方法和其他网页的抓取方法不太一样，对它的抓取需要抓取后台传来的JSON数据，先来看一下今日头条的源码结构：我们抓取文章的标题，详情页的图片链接试一下：

看到上面的源码了吧，抓取下来没有用，那么我看下它的后台数据：‘

所有的数据都在后台的JSON展示中，所以我们需要通过接口对数据进行抓取

提取网页JSON数据

执行函数结果，如果你想大量抓取记得开启多进程并且存入数据库：

看下结果：

总结一下：网上好多抓取今日头条的案例都是先抓去指定主页，获取文章的URL再通过详情页，接着在详情页上抓取，但是现在的今日头条的网站是这样的，在主页的接口数据中就带有详情页的数据，通过点击跳转携带数据的方式将数据传给详情页的页面模板，这样开发起来方便节省了不少时间并且减少代码量

原文地址：https://www.cnblogs.com/woshiruge/p/8449304.html

时间： 2024-10-29 19:10:46

网站爬取-案例三：今日头条抓取(ajax抓取JS数据)的相关文章

微信小程序-今日头条案例

github地址: https://github.com/HowName/toutiao 项目为仿今日头条,使用了百度ApiStore接口查询数据,使用微信组件/api有封装请求方法,底部tab,启动页动画,loading,scroll-view,swiper,列表页支持上下拉加载更多效果图: 启动欢迎页,几行代码可实现旋转与缩放: //flash.js onReady:function(){ // 页面渲染完成 var that = this,duration = 1500; var

今日头条估值100亿美元，变身资讯APP巨头

[阅读原文] 作者:茱莉叶身价估值100亿美元,攀升资讯APP寡头手机APP今日头条母公司北京字节跳动科技有限公司考虑在最新一轮融资中筹资约10亿美元,包括新融资在内,其新估值有望达100亿美元.100亿美元的估值与微博的市值相当,按照周二46.67美元的收盘价计算,新浪微博总市值99.66亿美元.2014年6月,该公司估值仅为5亿美元,意味着其在两年内估值增长20倍. 北京字节跳动科技有限公司成立于2012年,主要产品是今日头条APP,通过海量信息采集.深度数据挖掘和用户行为分析,为用户智

今日头条能“无限发文”了！自媒体可以体面地去死了

当你可以不受发文限制的发东西时,你是不停地写.不停地发?还是不断地发呢? 从年前的各种麻烦中还没脱身的今日头条,在年后开始了不断的变阵,除了前些日子推出的旗下头条号.西瓜视频.内涵段子.悟空问答的用户帐号互通外,21日,它有打出了一记重磅--<关于简化头条号注册流程并取消新手期的公告>. 看标题,似乎没什么,尤其对于早就渡过新手期的自媒体们来说,可其有一段话很重要: 所有头条号每天可发布的图文.视频等都将不再有数量限制. 也就是说,以后在头条号上发文,你可以想发多少就发多少了. 这是相当强大的

张一鸣：做出“今日头条”的“程序猿”

四战四败后,第五次创业他做出“今日头条”.人家靠编辑整理新闻,他偏让代码推荐新闻. 作为程序员,张一鸣和一帮“码农”为“今日头条”写了上万行代码:作为CEO,他“发明”了一套工程师逻辑的公司运营规矩. “今日头条智能水平只能打30分” 员工们对张一鸣有个共识:一个没什么爱好的“码农宅男”. 张一鸣听了很委屈:我有爱好的,我的爱好就是获取信息! 自称“重度信息获取症”患者的张一鸣,初中时一周要读二三十份报纸.从本地报纸到<人民日报>,只要带字的他都不放过,连报纸中缝都会仔细看完.现在不管多忙,他

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Python3从零开始爬取今日头条的新闻[四.模拟点击切换tab标签获取内容] Python3从零开始爬取今日头条的新闻[五.解析头条视频真实播放地址并自动下载] 所谓爬虫,就是通过编程的方式自动从网络上获取自己所需的资源,比如文章.图片.音乐.视频等多媒体资源.通过一定的方式获取到html的内容,再通过

php+phantomjs实现今日头条的首页推送抓取

第一次搞爬虫,经验不足,爬出来的效果也不是很好,记录一下吧. 认识的哥们最近在爬今日头条的数据,不过他是做java的.之前也想用php做点爬数据的东西,于是直接也搞今日头条,万一有不明白的地方还能有个人商量.话不多说,上点干货. 关于爬虫,我之前的认知是,curl+正则,有点模糊,下面一步一步说吧一.观察页面今日头条的首页推送数据,是通过ajax获取的,打开页面调试我们可以看到下图请求是每次滚动条滚动到底部触发的,然后我们右键新页面打开这个链接不难发现这是个接口,返回json数据,在线

用Ajax爬取今日头条图片

Ajax原理 ? 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 HTML文档,而浏览器中页面则是经过Ajax处理数据后生成的.这些数据可能在HTML文档中,也可能是经过JavaScript和特定算法后生成的. ? 刚开始HTML文档中不包含某些数据,当原始页面加载完后,会向服务器发送Ajax请求获取数据,这些数据被JavaScript处理形成一些新页面. ?

用Ajax爬取今日头条图片集

Ajax原理 ? 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 HTML文档,而浏览器中页面则是经过Ajax处理数据后生成的.这些数据可能在HTML文档中,也可能是经过JavaScript和特定算法后生成的. ? 刚开始HTML文档中不包含某些数据,当原始页面加载完后,会向服务器发送Ajax请求获取数据,这些数据被JavaScript处理形成一些新页面. ?

使用python-aiohttp爬取今日头条

http://blog.csdn.net/u011475134/article/details/70198533 原出处在上一篇文章<使用python-aiohttp爬取网易云音乐>中,我们给自己的微信公众号添加了在线点歌的功能,这次我们再增加一个新闻浏览的功能.由于我平时浏览新闻用的是今日头条,所以在这里就想通过爬取今日头条来获取新闻.不过遗憾的是,这一次我在网上没有找到满意的方法,所以还是自己动手吧. 打开抓包软件Fiddler并设置Filters. 打开今日头条网页,选择热点. ur

猜你喜欢

第三周活动进度

学习进度表: 第三周内容时间周一(4:10-6:00)上课,周二晚上(8:00-9:00),周四晚上(8:00-8:30),周四下午(4:10-6:00)javaweb课程代码行数 200行 ...

Java IO 装饰者模式

装饰模式(Decorator) 装饰模式又名包装(Wrapper)模式. 装饰模式以对客户端透明的方式扩展对象的功能,是继承关系的一个替代方案. 装饰模式通过创建一个包装对象,也就是装饰,来包裹真实的 ...

JavaEE开发环境搭建（1）---（jdk的安装）

----------我是前言---------- 有时候从网上找资料真的是一件很开(dan)心(teng)的事情, 因为很多你想要了解的东西总是很巧妙的被略去了... 或者... 根本没有... 真是 ...

事件的示例解说

1 using System; 2 3 namespace ConsoleApplication7 4 { 5 class Program 6 { 7 static void Main(string[ ...

zpf 路由功能

2015-4-11 20:51:06 又搞了一天, 解决了一堆bug, 重新规划了类文件夹, 改善自动加载功能最新的特性就是支持子域名路由了因为整个框架还在完善当中, 而且里边有好多接口有我自己申 ...

西门子Step7中DB块结构导出

Step7 通过变量表可以导出内存M地址和I,Q,T,C地址的变量,以及DB块的名称.怎么导出DB块的内部结构结构呢.即如何导出结构内的定义呢? 可以通过"选择某个DB块",通过菜 ...

MFC的CImage图形处理

参考: http://www.cnblogs.com/afarmer/archive/2012/03/31/2427273.html CImage支持的图片格式有很多,像通常用的jpg, png, b ...

Mac下锁屏快捷键

▲先设置“进入眨眼或开始屏幕保护程序”选择”立即“要求输入密码. [系统编好设置]->[通用] ▲通过快捷键[shift+control+光驱键]或者[option+command+关机键]

AD域用户和samba结合使用，smb.conf配置文件

#此配置文件仅为samba和AD域用户访问设置权限的配置文件 [global] workgroup = OFFICE realm = OFFICE.ABC.COM security = A ...

轻量级ORM框架：Dapper中的一些复杂操作和inner join应该注意的坑

上一篇博文中我们快速的介绍了dapper的一些基本CURD操作,也是我们manipulate db不可或缺的最小单元,这一篇我们介绍下相对复杂一点的操作,源码分析暂时就不在这里介绍了. 一:tabl ...

QT程序探测所需DLL，静态连接和打包

1. 如果没有使用静态编译的QT库的话,那么无论VS还是MinGW编译出来的exe程序都要带上一堆DLL,而且必须是准确版本的DLL,对于VS好像还有一个Microsoft.VC90.CRT.mani ...

ImageSwitcher的功能和用法

先看看继承关系,ImageSwitcher和TextSwitcher的继承关系是一样的.两个重要的父类:ViewSwitcher和ViewAnimator继承于ViewSwitcher,说明具备了切换 ...

自己定义定时器（Timer）

近期做项目的时候,用到了java.util.Timer定时器类.也初步使用了,个人感觉不错.只是,在某些方面Timer类无法满足项目的需求.比方,在使用Timer时,调用schedule()方法之后( ...

虚拟机网络连接模式中桥接模式和NAT模式的区别

1.桥接模式:当虚拟机系统的网络连接模式为桥接模式时,相当于在主机系统和虚拟机系统之间连接了一个网桥,而网桥两端的网络都属于同一网络,主机和虚拟机是处于同一网络中的对等主机. 实例,在使用Xshell ...

用 Windows Live Writer完美发布新浪、网易、blogcn、blogbus、cnblogs

前言: 当今网络博客.微薄铺天盖地,相信即使一个普通的用户也都注册了很多家品牌的博客或者微薄等,那么困扰着大家一个很大的问题,同时在多家博客发布同样的内容,如果说只是简单的文字还好说,复制粘贴就完事了 ...

jupyter初体验

安装: 1.若是已经安装了anaconda,则通过 jupyter notebook 命令进入: 2.若是只安了python: pip3 install --upgrade pip 对pip进行 ...

JSONUtils的几个常用方法

1.首先新建1个JSONUtils类 public class JSONUtils { /** * * @author wangwei JSON工具类 * @param * */ /*** * 将Li ...

显示实时日期时间（html+js）

<!DOCTYPE><html> <head> <title> New Document </title> <meta name=&q ...

Jquery对网页高度、宽度的操作

Jquery获取网页的宽度.高度网页可见区域宽: document.body.clientWidth 网页可见区域高: document.body.clientHeight 网页可见区域宽: doc ...

国内免备案高防服务器

国内免备案机房资源:福州电信(高防御).台州电信(高防防御) 域名被墙,被屏蔽,如何防范如何处理? 假如域名下的网站非法信息多,敏感,又不整改,会直接被GFW墙掉,结果就是访问域名是打不开的,但是解 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.