如何获得网页中的json数据

在python抓取图片的时候,有时候却找不到对应的网址,可能存在json中,所以如何用python解析json数据,小白看了几个论坛后自己总结一些以便加深印象。

1.requests.get(url,params) 获得请求数据

import requests

def get_many_pages(keyword, page):
  params = []#收集不同页面的json数据
  for i in range(30, 30*page, 30):#动态加载,每页30个
    params.append({
        ‘tn‘: ‘resultjson_com‘,
        ‘ipn‘: ‘rj‘,
        ‘ct‘: 201326592,
        ‘is‘: ‘‘,
        ‘fp‘: ‘result‘,
        ‘queryWord‘: keyword,
        ‘cl‘: 2,
        ‘lm‘: -1,
        ‘ie‘: ‘utf-8‘,
        ‘oe‘: ‘utf-8‘,
        ‘adpicid‘: ‘‘,
        ‘st‘: -1,
        ‘z‘: ‘‘,
        ‘ic‘: ‘‘,
        ‘word‘: keyword,
        ‘s‘: ‘‘,
        ‘se‘: ‘‘,
        ‘tab‘: ‘‘,
        ‘width‘: ‘‘,
        ‘height‘: ‘‘,
        ‘face‘: 0,
        ‘istype‘: 2,
        ‘qc‘: ‘‘,
        ‘nc‘: ‘‘ ,
        ‘fr‘: ‘‘,
        ‘pn‘: i,
        ‘rn‘: 30,
        ‘gsm‘: ‘1e‘,
        ‘1517048369666‘: ‘‘
        }) #json的Query String paramters 是动态的

  json_url = ‘https://image.baidu.com/search/acjson‘#json的init地址
  json_datas = []#用于收集所有页面的json数据
  for param in params:#分别取出每个动态的参数,是一个字典形式
    res = requests.get(json_url, params = param)#获取json地址
    res.encoding = ‘utf-8‘#转化为utf-8格式
    json_data = res.json().get(‘data‘)#解析json数据成字典,通过get方法找出data中的值
    json_datas.append(json_data)#把所有页的json数据取回

return json_datas

def get_url():
  json_datas = datalist#获取所有页的json数据
  #print(json_datas)
  for each_data in json_datas:#解开列表嵌套
    for each_dict in each_data:#解开列嵌套直到出现字典
      each_url = each_dict.get(‘thumbURL‘)#获取字典中的地址
      print(each_url)

datalist = get_many_pages(‘暴漫表情包‘,3)
get_url()   

1. urllib.request + json 获得请求数据

# -*- coding: utf-8 -*-
‘‘‘ Created on Sat Jan 27 22:39:15 2018 @author: zhuxueming‘‘‘
import urllib.request
import json
def get_many_pages(page):
  json_datas = []
  for i in range(30,30*page,30):#这里由于网址中有多个%所以采用.format不能用%来格式化,根据json的地址发现,只有1517056200441=后面的数字变化在不同的页面中,所以单独改这一个就可以
    json_url = ‘http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E6%9A%B4%E6%BC%AB%E8%A1%A8%E6%83%85%E5%8C%85&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=%E6%9A%B4%E6%BC%AB%E8%A1%A8%E6%83%85%E5%8C%85&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&pn={0}&rn=30&gsm=3c&1517056200441=‘.format(i)
    res = urllib.request.urlopen(json_url)#获得网址数据
    html = res.read().decode(‘utf-8‘)#读取数据并转化为utf-8
    json_data = json.loads(html).get(‘data‘)#用json转化为字典获取data里的数据
    json_datas.append(json_data)#合并不同页面的数据
  return json_datas

def get_url():
  json_datas = datalist#获取所有页的json数据
  #print(json_datas)
  for each_data in json_datas:#解开列表嵌套
    for each_dict in each_data:#解开列嵌套直到出现字典
      each_url = each_dict.get(‘thumbURL‘)#获取字典中的地址
      print(each_url)

datalist = get_many_pages(3)
get_url()   

综上两个方式都可以使用,只是第二种不能直接关键词搜索,但不同关键次需要修改json参数,所以也无妨,主要就是找到这个动态的json数据包比较困难,一般在js下货XHR下面。

原文地址:https://www.cnblogs.com/Zhu-Xueming/p/8367614.html

时间: 2024-10-11 18:24:11

如何获得网页中的json数据的相关文章

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都

ASP.NET MVC 4 中的JSON数据交互

前台Ajax请求很多时候需要从后台获取JSON格式数据,一般有以下方式: 拼接字符串 return Content("{\"id\":\"1\",\"name\":\"A\"}"); 为了严格符合Json数据格式,对双引号进行了转义. 使用JavaScriptSerialize.Serialize()方法将对象序列化为JSON格式的字符串 MSDN 例如我们有一个匿名对象: var tempObj=new

在mvc4.0中使用json数据

今天接触了mvc4.0项目,View中需要获取从Control传来的json数据.过程记录如下: 在 MVC 返回的ActionResult中,为我们提供了JSONResult(继承至ActionResult)对象,我们可以直接用他来返回JSON对象给View处理 将自定义的Model 实例传给Json方法,它会自动根据我们Model 的属性,遍历属性后生成JSON对象,返回View.然后就可以在前端使用JQ对JSON数据进行处理了 Control中的代码: public JsonResult

android中对json数据的解析,并在listview中实际运用

android中对json数据的解析,并在listview中现实,下面是数据{"ziparea": "410100.0", "enddate": "2015-04-03 00:00:00", "ecertarea": "\u9053\u8def\u8d27\u7269\u8fd0\u8f93\u9a7e\u9a76\u5458", "ecertstate": &quo

JMeter中对于Json数据的处理方法

http://eclipsesource.com/blogs/2014/06/12/parsing-json-responses-with-jmeter/ Json作为一种数据交换格式在网络开发,特别是Ajax与Restful架构中应用的越来越广泛.而Apache的JMeter也是较受欢迎的压力测试工具之一,但是它本身没有提供对于Json数据的响应处理.本文中假设需要从HTTP的响应头中返回的Json格式的数据流中抽取某些特定的数据,数据格式如下: { "name":"Sim

网页中抓取数据

下面写个例子,实现从网页中抓取数据. 这个例子中,只是从网页中获取了数据,但是没有进行任何处理,只是将数据保存到一个txt文件中. 该例子是在android工程中写的. package com.example.creepertest; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import java.io.I

在SQL 中生成JSON数据

这段时间接手一个数据操作记录的功能,刚拿到手上的时候打算用EF做,后来经过仔细考虑最后还是觉定放弃,最后思考再三决定: 1.以模块为单位分表.列固定(其实可以所有的操作记录都放到同一个表,但是考虑到数据量大的时候查询性能的问题还是分表吧)列:主键ID.引用记录主键ID.操作时间.操作类型.详细信息(里面存储的就是序列化后的值) 2.在客服端解析保存的序列化的值 但是用xml还是用json呢,这有是一个问题,显然用xml在存储过程正很容易就能生成了:SELECT * FROM TABLE FOR 

Android中解析Json数据

在开发中经常会遇到解析json的问题 在这里总结几种解析的方式: 方式一: json数据: private String jsonData = "[{\"name\":\"Michael\",\"age\":20},{\"name\":\"Mike\",\"age\":21}]"; 解析jsonData的方法 try { //如果需要解析Json数据,首先要生成一个J

vue中引入json数据,不用本地请求

1.我的项目结构,需要在Daily.vue中引入daily.js中的json数据 2.把json数据放入一个js文件中,用exports导出,vscode的json格式太严格了,很多数据,调了一个多小时的格式................. 例如:daily.js module.exports = { 'tmbTmbsContent': [[ {'label': '123'} ]], } 2.在Daily.vue文件中引入 import Daily from '@/assets/data/da