利用 Python 进行数据分析（二）尝试处理一份 JSON 数据并生成条形图

一、JSON 数据准备

首先准备一份 JSON 数据，这份数据共有 3560 条内容，每条内容结构如下：

本示例主要是以 tz（timezone 时区）这一字段的值，分析这份数据里时区的分布情况。

二、将 JSON 数据转换成 Python 字典

代码如下：

三、统计 tz 值分布情况，以“时区:总数”的形式生成统计结果

要想达到这一目的，需要先将 records 转换成 DataFrame，DataFrame 是 Pandas 里最重要的数据结构，它可以将数据以表格的形式表示；然后用 value_counts() 方法汇总：

四、根据统计结果生成条形图

生成条形图之前，为了数据的完整，可以给结果中缺失的时区添加一个值（这里用Missing表示），而每条时区内容里缺失的值也需要添加一个未知的值（这里用Unknown表示）：

然后使用 plot() 方法既可生成条形图：

到这里就是一个完整的处理 JSON 数据生成统计结果和条形图的例子；不过还可以对这份统计结果进行进一步的处理，以得到更加详细的结果。

每条数据里还有一个 agent 值，即浏览器的 USER_AGENT 信息，通过这一信息可以得知所使用的操作系统，所以对上一步生成的统计结果还可以按操作系统的不同加以区分。

agent 值：

五、将条形图以操作系统（Windows/非Windows）加以区分

不是所有的数据都有 a 这个字段，首先过滤掉没有 agent 值的数据；

然后根据时区和操作系统列表对数据分组，然后

对分组结果进行计数：

最后选择出现次数最多的10个时区的数据

生成一张条形图：

这样就得到了以不同操作系统加以区分的条形图统计结果：

接下来一篇随笔内容是：利用 Python 进行数据分析（三）使用 IPython 提高开发效率，有兴趣的朋友欢迎关注本博客，也欢迎大家添加评论进行讨论。

时间： 2024-11-03 21:03:39

利用 Python 进行数据分析（二）尝试处理一份 JSON 数据并生成条形图的相关文章

《利用python进行数据分析》读书笔记--第七章数据规整化：清理、转换、合并、重塑（二）

3.数据转换介绍完数据的重排之后,下面介绍数据的过滤.清理.以及其他转换工作. 去重 #-*- encoding: utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #DataFrame去重 data = DataFrame({'k1':['one']*3 + ['two'] * 4, 'k2':[1,1,2,3

利用Python进行数据分析（一）简单介绍

一.处理数据的基本内容数据分析是指对数据进行控制.处理.整理.分析的过程. 在这里,“数据”是指结构化的数据,例如:记录.多维数组.Excel 里的数据.关系型数据库中的数据.数据表等. 二.说说 Python 这门语言 Python 是现在最受欢迎的动态编程语言之一(还有 Perl.Ruby 等).近些年非常流行用 Python 建站,比如流行的 Python Web 框架 Django. Python 这类语言被称为脚本语言,因为它们可以编写简短粗糙的小程序,即脚本.不过这好像在说 Py

利用Python进行数据分析基础系列随笔汇总

一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ,一共可以划分为三个大部分: 第一部分简单介绍数据分析,以一个小例子简单说明了什么是数据分析和 IPython 工具: 第二部分是 NumPy 的基础使用,NumPy 是 Python 包,提供科学计算功能,主要是 ndarray 数组对象: 第三部分是 pandas 的基础使用,主要是 Seri

利用 Python 进行数据分析（九）pandas 汇总统计和计算

pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索引: 还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数据里的唯一值: value_counts() 方法用于统计各值出现的频率: isin() 方法用于判断成员资格: 安装步骤已经在首篇随笔里写过了,这里不在赘述.利用 Python 进行数据分析(一

《利用python进行数据分析》读书笔记 --第一、二章准备与例子

http://www.cnblogs.com/batteryhp/p/4868348.html 第一章准备工作今天开始码这本书--<利用python进行数据分析>.R和python都得会用才行,这是码这本书的原因.首先按照书上说的进行安装,google下载了epd_free-7.3-1-win-x86.msi,译者建议按照作者的版本安装,EPDFree包括了Numpy,Scipy,matplotlib,Chaco,IPython.这里的pandas需要自己安装,对应版本为pandas-0.

利用 Python 进行数据分析（十二）pandas：数据合并

pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法combine_first()方法:合并重叠数据. pandas.merge()方法:数据库风格的合并例如,通过merge()方法将两个DataFrame合并: on='name'的意思是将name列当作键: 默认情况下,merge做的是内连接(inner),即键的交集. 其他方式还有左连接(lef

利用 Python 进行数据分析（四）NumPy 基础：ndarray 简单介绍

一.NumPy 是什么 NumPy 是 Python 科学计算的基础包,它专为进行严格的数字处理而产生.在之前的随笔里已有更加详细的介绍,这里不再赘述. 利用 Python 进行数据分析(一)简单介绍二.ndarray 是什么 ndarray 是一个多维的数组对象,具有矢量算术运算能力和复杂的广播能力,并具有执行速度快和节省空间的特点. ndarray 的一个特点是同构:即其中所有元素的类型必须相同. 三.ndarray 的创建 array() 函数最简单的方法, 使用 NumPy 提供的

利用python进行数据分析－－（阅读笔记一）

以此记录阅读和学习<利用Python进行数据分析>这本书中的觉得重要的点! 第一章:准备工作 1.一组新闻文章可以被处理为一张词频表,这张词频表可以用于情感分析. 2.大多数软件是由两部分代码组成:少量需要占用大部分执行时间的代码,以及大量不经常执行的“粘合剂代码”. cython已经成为python领域中创建编译型扩展以及对接c/c++代码的一大途径. 3.在那些要求延迟性非常小的应用程序中(例如高频交易系统),为了尽最大可能地优化性能,耗费时间使用诸如C++这样更低级.更低生产率的语言进行

利用python进行数据分析——（一）库的学习

总结一下自己对python常用包:Numpy,Pandas,Matplotlib,Scipy,Scikit-learn 一. Numpy: 标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针.这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象.对于数值运算来说这种结构显然比较浪费内存和CPU计算时间. 此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和