网站爬取-案例三:今日头条抓取(ajax抓取JS数据)

今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们抓取文章的标题,详情页的图片链接试一下:

看到上面的源码了吧,抓取下来没有用,那么我看下它的后台数据:‘

所有的数据都在后台的JSON展示中,所以我们需要通过接口对数据进行抓取

提取网页JSON数据

执行函数结果,如果你想大量抓取记得开启多进程并且存入数据库:

看下结果:

总结一下:网上好多抓取今日头条的案例都是先抓去指定主页,获取文章的URL再通过详情页,接着在详情页上抓取,但是现在的今日头条的网站是这样的,在主页的接口数据中就带有详情页的数据,通过点击跳转携带数据的方式将数据传给详情页的页面模板,这样开发起来方便节省了不少时间并且减少代码量

原文地址:https://www.cnblogs.com/woshiruge/p/8449304.html

时间: 2024-10-29 19:10:46

网站爬取-案例三:今日头条抓取(ajax抓取JS数据)的相关文章

微信小程序-今日头条案例

github地址:   https://github.com/HowName/toutiao 项目为仿今日头条,使用了百度ApiStore接口查询数据,使用微信组件/api有 封装请求方法,底部tab,启动页动画,loading,scroll-view,swiper,列表页支持上下拉加载更多 效果图: 启动欢迎页,几行代码可实现旋转与缩放: //flash.js onReady:function(){ // 页面渲染完成 var that = this,duration = 1500; var

今日头条估值100亿美元,变身资讯APP巨头

[阅读原文] 作者:茱莉叶 身价估值100亿美元,攀升资讯APP寡头 手机APP今日头条母公司北京字节跳动科技有限公司考虑在最新一轮融资中筹资约10亿美元,包括新融资在内,其新估值有望达100亿美元.100亿美元的估值与微博的市值相当,按照周二46.67美元的收盘价计算,新浪微博总市值99.66亿美元.2014年6月,该公司估值仅为5亿美元,意味着其在两年内估值增长20倍. 北京字节跳动科技有限公司成立于2012年,主要产品是今日头条APP,通过海量信息采集.深度数据挖掘和用户行为分析,为用户智

今日头条能“无限发文”了!自媒体可以体面地去死了

当你可以不受发文限制的发东西时,你是不停地写.不停地发?还是不断地发呢? 从年前的各种麻烦中还没脱身的今日头条,在年后开始了不断的变阵,除了前些日子推出的旗下头条号.西瓜视频.内涵段子.悟空问答的用户帐号互通外,21日,它有打出了一记重磅--<关于简化头条号注册流程并取消新手期的公告>. 看标题,似乎没什么,尤其对于早就渡过新手期的自媒体们来说,可其有一段话很重要: 所有头条号每天可发布的图文.视频等都将不再有数量限制. 也就是说,以后在头条号上发文,你可以想发多少就发多少了. 这是相当强大的

张一鸣:做出“今日头条”的“程序猿”

四战四败后,第五次创业他做出“今日头条”.人家靠编辑整理新闻,他偏让代码推荐新闻. 作为程序员,张一鸣和一帮“码农”为“今日头条”写了上万行代码:作为CEO,他“发明”了一套工程师逻辑的公司运营规矩. “今日头条智能水平只能打30分” 员工们对张一鸣有个共识:一个没什么爱好的“码农宅男”. 张一鸣听了很委屈:我有爱好的,我的爱好就是获取信息! 自称“重度信息获取症”患者的张一鸣,初中时一周要读二三十份报纸.从本地报纸到<人民日报>,只要带字的他都不放过,连报纸中缝都会仔细看完.现在不管多忙,他

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Python3从零开始爬取今日头条的新闻[四.模拟点击切换tab标签获取内容] Python3从零开始爬取今日头条的新闻[五.解析头条视频真实播放地址并自动下载] 所谓爬虫,就是通过编程的方式自动从网络上获取自己所需的资源,比如文章.图片.音乐.视频等多媒体资源.通过一定的方式获取到html的内容,再通过

php+phantomjs实现今日头条的首页推送抓取

第一次搞爬虫,经验不足,爬出来的效果也不是很好,记录一下吧. 认识的哥们最近在爬今日头条的数据,不过他是做java的.之前也想用php做点爬数据的东西,于是直接也搞今日头条,万一有不明白的地方还能有个人商量.话不多说,上点干货. 关于爬虫,我之前的认知是,curl+正则,有点模糊,下面一步一步说吧  一.观察页面 今日头条的首页推送数据,是通过ajax获取的,打开页面调试我们可以看到下图 请求是每次滚动条滚动到底部触发的,然后我们右键新页面打开这个链接 不难发现这是个接口,返回json数据,在线

用Ajax爬取今日头条图片

Ajax原理 ? 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 HTML文档,而浏览器中页面 则是经过Ajax处理数据后生成的.这些数据可能在HTML文档中,也可能是经过JavaScript和特定算法后生成的. ? 刚开始HTML文档中不包含某些数据,当原始页面加载完后,会向服务器发送Ajax请求获取数据,这些数据被JavaScript处理形成一些新页面. ?

用Ajax爬取今日头条图片集

Ajax原理 ? 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 HTML文档,而浏览器中页面 则是经过Ajax处理数据后生成的.这些数据可能在HTML文档中,也可能是经过JavaScript和特定算法后生成的. ? 刚开始HTML文档中不包含某些数据,当原始页面加载完后,会向服务器发送Ajax请求获取数据,这些数据被JavaScript处理形成一些新页面. ?

使用python-aiohttp爬取今日头条

http://blog.csdn.net/u011475134/article/details/70198533 原出处 在上一篇文章<使用python-aiohttp爬取网易云音乐>中,我们给自己的微信公众号添加了在线点歌的功能,这次我们再增加一个新闻浏览的功能.由于我平时浏览新闻用的是今日头条,所以在这里就想通过爬取今日头条来获取新闻.不过遗憾的是,这一次我在网上没有找到满意的方法,所以还是自己动手吧. 打开抓包软件Fiddler并设置Filters.  打开今日头条网页,选择热点. ur