Python【8】-分析json文件

一、本节用到的基础知识

1.逐行读取文件

for line in open(‘E:\Demo\python\json.txt‘):
    print line

2.解析json字符串

Python中有一些内置模块可以非常便捷地将json字符串转换为Python对象。比如json模块中的json.relaods()方法可以将json字符串解析为相应的字典。

import json

s=‘{ "a": "GoogleMaps\/RochesterNY", "c": "US", "nk": 0, "tz": "America\/Denver", "gr": "UT", "g": "mwszkS", "h": "mwszkS", "l": "bitly", "hh": "1.usa.gov", "r": "http:\/\/www.AwareMap.com\/", "u": "http:\/\/www.monroecounty.gov\/etc\/911\/rss.php", "t": 1331926741, "hc": 1308262393, "cy": "Provo", "ll": [ 40.218102, -111.613297 ] }‘
o=json.loads(s)
print o

运行结果:

{u‘a‘: u‘GoogleMaps/RochesterNY‘, u‘c‘: u‘US‘, u‘nk‘: 0, u‘tz‘: u‘America/Denver‘, u‘gr‘: u‘UT‘, u‘g‘: u‘mwszkS‘, u‘h‘: u‘mwszkS‘, u‘cy‘: u‘Provo‘, u‘l‘: u‘bitly‘, u‘hh‘: u‘1.usa.gov‘, u‘r‘: u‘http://www.AwareMap.com/‘, u‘u‘: u‘http://www.monroecounty.gov/etc/911/rss.php‘, u‘t‘: 1331926741, u‘hc‘: 1308262393, u‘ll‘: [40.218102, -111.613297]}

3.列表生成式

详见:http://www.cnblogs.com/janes/p/5530979.html

二、将json文件解析为字典列表

要对json文件进行分析,首先我们逐行读取该文件,并把每行转换成对应的字典对象,然后组成一个列表。

import json
#读取文件并解析为字典组成的列表
dicList=[json.loads(line) for line in open(‘E:\Demo\python\json.txt‘)]
#打印第一个字典元素
print dicList[0]
#打印第一个元素中的时区
print dicList[0][‘tz‘]

运行结果:

{u‘a‘: u‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.78 Safari/535.11‘, u‘c‘: u‘US‘, u‘nk‘: 1, u‘tz‘: u‘America/New_York‘, u‘gr‘: u‘MA‘, u‘g‘: u‘A6qOVH‘, u‘h‘: u‘wfLQtf‘, u‘cy‘: u‘Danvers‘, u‘l‘: u‘orofrog‘, u‘al‘: u‘en-US,en;q=0.8‘, u‘hh‘: u‘1.usa.gov‘, u‘r‘: u‘http://www.facebook.com/l/7AQEFzjSi/1.usa.gov/wfLQtf‘, u‘u‘: u‘http://www.ncbi.nlm.nih.gov/pubmed/22415991‘, u‘t‘: 1331923247, u‘hc‘: 1331822918, u‘ll‘: [42.576698, -70.954903]}

America/New_York

三、利用Python标准库统计json文件中的时区数据

1.首先将所有时区数据放在一个列表中

#获取所有时区数据
timezones=[item[‘tz‘] for item in dicList if ‘tz‘ in item]
#测试打印前五条
print timezones[0:5]

运行结果:

[u‘America/New_York‘, u‘America/Denver‘, u‘America/New_York‘, u‘America/Sao_Paulo‘, u‘America/New_York‘]

2.然后将时区列表转换为时区计数字典,key为时区名,value为出现次数。

#自定义函数,统计时区出现次数
def countZone(timezones):
    count_zone={}
    for tz in timezones:
        if(tz in count_zone):
            count_zone[tz]+=1
        else:
            count_zone[tz]=1
    return count_zone

#自定义函数,返回top N
def countTop(dicCount,n):
    valueKeyItems=[(value,key) for key,value in dicCount.items()]
    valueKeyItems.sort()
    return valueKeyItems[-n:]

#测试并打印出现次数最多的5个时区
count=countZone(timezones)
print countTop(count,5)

运行结果:

[(191, u‘America/Denver‘), (382, u‘America/Los_Angeles‘), (400, u‘America/Chicago‘), (521, u‘‘), (1251, u‘America/New_York‘)]

3.利用defaultdict简化函数countZone函数

Python标准库collections对一些数据结构进行了拓展操作,使用起来更加便捷,其中defaultdict可以给字典赋值默认value。

from collections import defaultdict,Counter
def countZone(timezones):
    count_zone=defaultdict(int)
    for tz in timezones:
        count_zone[tz]+=1
    return count_zone

4.利用collections.Counter简化countTop函数

from collections import Counter

def countTop(dicCount,n):
    return Counter(dicCount).most_common(n)

5.完整代码

# -*- coding: utf-8 -*-
import json
#1.读取文件并转换为字典列表
#读取文件并解析为字典组成的列表
dicList=[json.loads(line) for line in open(‘E:\Demo\python\json.txt‘)]

#2.统计时区
#获取所有时区数据
timezones=[item[‘tz‘] for item in dicList if ‘tz‘ in item]

#统计时区出现次数
from collections import defaultdict,Counter
def countZone(timezones):
    count_zone=defaultdict(int)
    for tz in timezones:
        count_zone[tz]+=1
    return count_zone

#返回top N
def countTop(dicCount,n):
    return Counter(dicCount).most_common(n)

#测试并打印出现次数最多的5个时区
count=countZone(timezones)
print countTop(count,5)

#运行结果:[(u‘America/New_York‘, 1251), (u‘‘, 521), (u‘America/Chicago‘, 400), (u‘America/Los_Angeles‘, 382), (u‘America/Denver‘, 191)]

四 利用pandas统计json文件中的时区数据

1.运用DataFrame统计时区数据

①DataFrame是pandas中很常用的数据结构,它把数据转换为一个类似表格的结构。

# -*- coding: utf-8 -*-
import json
from pandas import DataFrame
dicList=[json.loads(line) for line in open(‘E:\Demo\python\json.txt‘)]
frame=DataFrame(dicList)
#测试打印时区列表中前5个元素
print frame[‘tz‘][:5]

运行结果:

0     America/New_York

1       America/Denver

2     America/New_York

3    America/Sao_Paulo

4     America/New_York

②frame[‘tz‘]有value_counts()函数,可以直接返回对应的计数。

#打印出现次数最多的5个时区

print frame[‘tz‘].value_counts()[:5]

运行结果:

America/New_York       1251

521

America/Chicago         400

America/Los_Angeles     382

America/Denver          191

③为不存在时区数据或者时区为空字符串的数据补全默认值。

fillna()函数可以补全不存在的字段;空字符串可以通过布尔型索引的形式进行替换。

tzList=frame[‘tz‘].fillna(‘Missing‘)
tzList[tzList ==‘‘]=‘Unknown‘
print tzList.value_counts()[:5]

运行结果:

America/New_York       1251

Unknown                 521

America/Chicago         400

America/Los_Angeles     382

America/Denver          191

这样我们就完成了之前用标准Python库相同的工作,完整代码如下:

# -*- coding: utf-8 -*-
import json
from pandas import DataFrame
dicList=[json.loads(line) for line in open(‘E:\Demo\python\json.txt‘)]
frame=DataFrame(dicList)
#打印出现次数最多的5个时区
print frame[‘tz‘].value_counts()[:5]

#补全时区不存在或者为空的情况
tzList=frame[‘tz‘].fillna(‘Missing‘)
tzList[tzList ==‘‘]=‘Unknown‘
print tzList.value_counts()[:5]

2.利用plot方法绘制垂直条形图

参考:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html

tzList.value_counts()[:5].plot(kind=‘bar‘,rot=0)

运行:我们可以利用%paste命令将代码粘贴运行。

命令行:

ipython

%pylab

%paste

运行结果:

本文用到的json文件:点此下载

参考:《利用Python进行数据分析》

如需转载,请标明出处:http://www.cnblogs.com/janes/p/5546673.html

时间: 2024-08-07 02:50:47

Python【8】-分析json文件的相关文章

python中处理json文件的方法函数

1.json.loads() 将json字符串,转变为python中的“字典”类型 import json #json串是一个字符串f = open('product.json',encoding='utf-8') res=f.read() product_dic=json.loads(res) print(product_dic) 运行结果: 2.json.load() 读取文件进行处理,同样是将文件中的json字符串转换为字典类型 import json #json串是一个字符串f = op

python基础:json文件保存与读取

一.将数据保存为.json文件 1 model={} #数据 2 with open("./hmm.json",'w',encoding='utf-8') as json_file: 3 json.dump(model,json_file,ensure_ascii=False) 4 二.读取.json文件 1 model={} #存放读取的数据 2 with open("./hmm.json",'r',encoding='utf-8') as json_file:

【Python】Python处理Json文件

最近用到Python来处理Json文件,对Python的Json模块熟悉了一下,下面是一个简单的程序用Python的Json模块来处理Json文件并写到一个新的Json文件中去,希望对大家有所帮助. 1.问题描述: 需要加载一个Json文件,并将Json中的某些项进行修改,然后写回到一个新的Json文件中去. 程序代码如下:test.py import json #导入Json模块 def processJson(inputJsonFile, outputJsonFile): fin = ope

python json及mysql——读取json文件存sql、数据库日期类型转换、终端操纵mysql及python codecs读取大文件问题

preface: 近期帮师兄处理json文件,须要读到数据库里面,以备其兴许从数据库读取数据.数据是关于yelp站点里面的: https://github.com/Yelp/dataset-examples,http://www.yelp.com/dataset_challenge/. 涉及到一些json和sql的问题,记录下. 一.python sql安装 python 自带轻型数据库sqlite,只是用不了.须要mysql才行.pip安装mysql失败.easy_install安装也失败.这

python读取json文件存sql及codecs读取大文件问题

preface: 最近帮师兄处理json文件,需要读到数据库里面,以备其后续从数据库读取数据.数据是关于yelp网站里面的: https://github.com/Yelp/dataset-examples,http://www.yelp.com/dataset_challenge/. 涉及到一些json和sql的问题,记录下. 一.python sql安装 python 自带轻型数据库sqlite,不过用不了.需要mysql才行,pip安装mysql失败,easy_install安装也失败,这

Python 基础 - Json文件读写

JSON介绍 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于ECMAScript的一个子集. JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C.C++.Java.JavaScript.Perl.Python等).这些特性使JSON成为理想的数据交换语言.易于人阅读和编写,同时也易于机器解析和生成(一般用于提升网络传输速率). 在python中,JSON 由列表和字典组成. 序列化的两个模块中,json模块是用于

python解析json文件

概念 序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON.XML等.反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态,重新创建该对象. JSON(JavaScript Object Notation):一种轻量级数据交换格式,相对于XML而言更简单,也易于阅读和编写,机器也方便解析和生成,Json是JavaScript中的一个子集. Python2.6开始加入了JSON模块,无需另外下载,Python的Json模

python中json文件处理涉及的四个函数json.dumps()和json.loads()、json.dump()和json.load()的区分

一.概念理解 1.json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串) (1)json.dumps()函数是将一个Python数据类型列表进行json格式的编码(可以这么理解,json.dumps()函数是将字典转化为字符串) (2)json.loads()函数是将json格式数据转换为字典(可以这么理解,json.loads()函数是将字符串转化为字典) 2.json.dump()和json.load()主要用来读写json文件函数 二.代

Python保存json文件并格式化

最近自己用python开发一些小东西,需要用json文件存储些文件属性什么的,但是发现用 json 包里的 json.dump() 方法存json文件的效果好丑--(其实是没仔细看方法), 于是上网找了一份格式化json文件的代码,效果挺不错,用了递归的思想,学习了一波并找到了其中一点小bug.然后,发现其实 json.dump() 方法其实只需要设置一个参数就达到格式化的效果了-- 下面介绍一下 json.dump() 和我 修改后的那份代码. json.dump() 直接把常用参数列一下好了