使用js抓取今日头条的文章

首先验证头条接口是否支持jsonp,在接口地址的参数中添加callback=call

http://www.toutiao.com/pgc/ma/?page_type=1&count=10&version=2&platform=pc&media_id=52155491628&max_behot_time=0&as=A1A578A48B28B39&cp=584B080BD3899E1&callback=call

访问接口,返回的数据为:call(...)的形式

由此判断接口支持jsonp,那么接下来就好办了,可以使用jsonp访问接口,然后从返回数据中提取出所需要的数据。

var time = 0;
var as_param;
var cp_param;
$(function(){
	var param = getParam();
	as_param = param.as;
	cp_param = param.cp;
	getWeare();
});

function getWeare(){
	$.ajax({
		url:"http://www.toutiao.com/pgc/ma/?page_type=1&count=10&version=2&platform=pc&media_id=52155491628&max_behot_time="
		+time+"&as="+as_param+"&cp="+cp_param+"&callback=tt",
		type:‘get‘,
		dataType:‘jsonp‘,
		jsonp:‘tt‘
	});
}

function tt(data){
	var tarray = [];
	if(data.has_more==1){
		var adata = data.data;
		for(var i = 0; i < adata.length; i++){
			var tmap = {};
			var title = adata[i].title;
			var link = adata[i].source_url;
			tmap[‘title‘] = title;
			tmap[‘url‘] = TT + link;
			tarray.push(tmap);
		}
	}
}

如此,搞定

详细代码请访问微儿博客,可百度搜索微儿博客或者直接点击 www.weare.net.cn

时间: 2024-10-20 11:39:14

使用js抓取今日头条的文章的相关文章

使用php蓝天采集器抓取今日头条ajax的文章内容

今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0%E9%97%BB 为例来采集列表的文章 用谷歌浏览器打开链接,右键点击"审查"在控制台切换至network并点击XHR,这样就可以过滤图片.文件等等不必要的请求只看页面内容的请求 由于页面是ajax加载的,所以将页面拉至最底部,会自动加载出更多文章,这时候控制台抓取到的链接就是我们真正需要

python爬虫—— 抓取今日头条的街拍的妹子图

AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新. 近期在学习获取js动态加载网页的爬虫,决定通过实例加深理解. 1.首先是url的研究(谷歌浏览器的审查功能) http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=

分析Ajax请求并抓取今日头条街拍美图

通常我们从网页上爬取内容时,都是HTML代码,内容都已经写好了,直接从页面获取想要的信息即可,但是有的网页是通过ajax获取的数据,将ajax获取的数据通过json格式接受,然后展示在页面上的,也就是说,当我们打开一个页面时,首先请求的是他的html,然后HTML里面通过ajax获取后端数据,将数据以json格式展示在页面上.而近日头条就是这样.下面我们来看看. 我们打开链接:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D,我

python爬虫 selenium 抓取 今日头条(ajax异步加载)

from selenium import webdriver from lxml import etree from pyquery import PyQuery as pq import time driver = webdriver.Chrome() driver.maximize_window() driver.get('https://www.toutiao.com/') driver.implicitly_wait(10) driver.find_element_by_link_tex

python测试抓取今日头条

# coding:utf-8 import requests import json url = 'http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E5%B0%8F%E5%BA%B7%E7%A4%BE%E4%BC%9A&autoload=true&count=20&cur_tab=1' wbdata = requests.get(url).text data = json.lo

爬取今日头条历史图集将信息保存到MongDB,并且下载图片到本地

写在前面:学习<崔庆才_Python3爬虫入门到精通课程视频>动手写的小项目. (一) 分析页面 访问今日头条页面(https://www.toutiao.com/)在输入框中输入要搜索的关键字,搜索出的页面点击图集.要爬取的就是这里的所有图集. 查看页面的URL可以发现这是一个POST请求,然后我们就检查页面找到POST请求包,进行分析. 这个就是POST请求服务器返回的response 这是一个JSON格式的数据,复制下来放在解析器中查看.(使用jsonView) 可以看到data字段中的

Python3爬取今日头条有关《人民的名义》文章

Python3爬取今日头条有关<人民的名义>文章 最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好<人民的名义>刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一下大家的脑洞也是极好的. 首先,我们先打开头条的网页版,在右上角搜索框输入关键词,通过chrome调试工具,我们定位到头条的search栏调用的的API为: http://www.toutiao.com/search_content/?offset=0&format=json

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Python3从零开始爬取今日头条的新闻[四.模拟点击切换tab标签获取内容] Python3从零开始爬取今日头条的新闻[五.解析头条视频真实播放地址并自动下载] 所谓爬虫,就是通过编程的方式自动从网络上获取自己所需的资源,比如文章.图片.音乐.视频等多媒体资源.通过一定的方式获取到html的内容,再通过

使用python-aiohttp爬取今日头条

http://blog.csdn.net/u011475134/article/details/70198533 原出处 在上一篇文章<使用python-aiohttp爬取网易云音乐>中,我们给自己的微信公众号添加了在线点歌的功能,这次我们再增加一个新闻浏览的功能.由于我平时浏览新闻用的是今日头条,所以在这里就想通过爬取今日头条来获取新闻.不过遗憾的是,这一次我在网上没有找到满意的方法,所以还是自己动手吧. 打开抓包软件Fiddler并设置Filters.  打开今日头条网页,选择热点. ur