数据可视化(二)

本文来源:https://www.dataquest.io/mission/132/data-visualization-and-exploration

本文数据来源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv

本文主要介绍了一下如何简单的探查数据之间的关系

 

原始数据展现(这是一份大学毕业生的薪资调查报告,重要的字段有这些,Major - 专业名称, Major_category - 专业类别, Sample_size - 样本大小, ShareWomen - 女性比重, Total- 该专业的总人数)

import pandas as pd

recent_grads = pd.read_csv(‘recent-grads.csv‘)

 

直方图

要制作直方图,首先把X轴的值的范围等分成多个间隔,然后数出每个间隔中包含的值的数量,然后把该数量作为Y轴的值。使用方法pandas.DataFrame.hist()函数

#制作工资收入中位数(Median列)的直方图

recent_grads.hist(‘Median’)

# hist()函数默认是自动分成10等分的,且生成的图中是有网格线的,现在要分成20等分,同时消除网格线

recent_grads.hist(‘Median‘, bins=20, grid=False)

# 其实可以一次性制作多个直方图,layout参数的意思是将两个图分成两行一列,如果没有这个参数,默认会将全部的图放在同一行

columns = [‘Median‘,‘Sample_size‘]

recent_grads.hist(column=columns, layout=(2,1), grid=False)

 

箱型图

箱型图是基于五数概括法(最小值,第一个四分位数,第一个四分位数(中位数),第三个四分位数,最大值)的数据的一个图形汇总,还需要用到四分位数间距IQR = 第三个四分位数 - 第一个四分位数。详情请google

制作箱型图使用的是pandas.DataFrame.boxplot()方法

import matplotlib.pyplot as plt

# 选择两列数据

sample_size = recent_grads[[‘Sample_size‘, ‘Major_category‘]]

# 按照每一个专业类型分类统计

sample_size.boxplot(by=‘Major_category‘)

# 将X轴的坐标文字旋转90度,垂直显示

plt.xticks(rotation=90)

 

多图合并

要想找出多个变量之间的关联,就要把多个变量的变化都做在同一个图上进行比较

# 将两个散点图放在一起(按颜色区分),观察是否有关联

import matplotlib.pyplot as plt

plt.scatter(recent_grads[‘Unemployment_rate‘], recent_grads[‘Median‘], color=‘red‘)

plt.scatter(recent_grads[‘ShareWomen‘], recent_grads[‘Median‘], color=‘blue‘)

plt.show()

时间: 2024-07-30 13:46:11

数据可视化(二)的相关文章

seaborn 数据可视化(二)带有类别属性的数据可视化

Seaborn的分类图分为三类,将分类变量每个级别的每个观察结果显示出来,显示每个观察分布的抽象表示,以及应用统计估计显示的权重趋势和置信区间: 第一个包括函数swarmplot()和stripplot() 第二个包括函数boxplot()和violinplot() 第三个包括函数barplot()和pointplt() 导入所需要的库: import numpy as np import matplotlib.pyplot as plt import seaborn as sns sns.se

如何设计成功而有价值的数据可视化解决方案(二)

上篇关于如何设计成功而有价值的数据可视化解决方案,我们已经就规划方案的思路这一大版块展开了详细的讲解,本篇继续干货放送,分享下方案的可视化展示该如何进行设计?仅仅只需要好看就可以了吗?如果不是又该注意些什么? 一.给数据可视化一个清晰的标题 当你的报告像一份报纸.杂志的新闻一样.从这个标题,就能给阅读者强烈的冲击.一个清晰的标题是能够很好地阐释报告和故事的主题,是对整个报告和故事概括的信息.当然,并不是鼓励运营分析人员去做“标题党”.好的标题,既不要模棱两可,也不要画蛇添足,只要解释清楚图表即可

python -- 数据可视化(二)

python -- 数据可视化 Matplotlib 绘图 1.图形对象(图形窗口) mp.figure(窗口名称, figsize=窗口大小, dpi=分辨率, facecolor=颜色) 如果"窗口名称"是第一次出现,那么就创建一个新窗口,其标题栏显示该名称,如果"窗口名称"已经出现过,那么不再创建新窗口,而只是将与该名称相对应的窗口设置为当前窗口.所谓当前窗口,就是接受后续绘图操作的窗口. mp.title(标题文本, fontsize=字体大小) mp.xl

地理数据可视化:Simple,Not Easy

如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一.在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央视的春运迁徙图到旅游热点预测,从大数据工程师奇货可居到马云布道“DT”时代,“大数据”被推到了一个前所未有的高度,连国家领导人出访演讲都言必称大数据.地理信息数据天生具有大数据属性,作为整天和地理信息数据打交道的地信人自然不甘落后,地理大数据概念脱颖而出. 地理大数据是什么?大体来说就是把社会经济.自然资源.商业信息等但凡具有一点空间维度的数据一股脑

数据可视化-EChart2.0使用总结1

图表是企业级Web开发必不可少的一个功能点.也是“数据可视化的一个具体呈现”.今天看到阮一峰翻译的“数据可视化:基本图表”一文,同时梳理一下公司现在项目使用的EChart2.0类库.阮一峰的文章同时也适合产品经理和设计师看,因为很多产品经理和设计师其实不能完全区分哪些地方需要哪些图表去呈现具体的数据. 1.柱状图-Bar Chart 适合场景:二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较.一般是Y轴.柱状图利用柱子的高度,反映数据的差异. 特点:肉眼对高度差异特别敏感,辨别效

CSDN开源夏令营 百度数据可视化实践 ECharts(6) 期中总结

期中总结 (1)首先感谢林峰老师的辛勤指导!! 通过半个多月的培训,林峰老师讲解了ECharts总体框架和其中各个部分:图类.组件.接口.基础库的具有应用方法和应该把握的细节,并通过实际的例子熟悉和掌握各个控件.只有打牢基础才能正正的为下步的工作做好准备,熟练的属性代码的编程技巧,才能做出更好的专题. (2)第一次任务重点总结: 要求:了解ECharts特性中列举的每一项特性,并能找到实例中的例子,并且在实例中操作. 重点问题: 1)ECharts一种支持多少种图表?有多少个组件?列举出中英文名

跟风舞烟学大数据可视化-Echarts从入门到上手实战

跟风舞烟学大数据可视化-Echarts从入门到上手实战 课程观看地址:http://www.xuetuwuyou.com/course/180 课程出自学途无忧网:http://www.xuetuwuyou.com 课程讲师:风舞烟 课时数:三个模块,共70课时   一.课程特色: 1.最全的Echarts课程讲解     70学时课时量,360度全方位,无死角的课程设计,让你通透Echarts可视化技术 2.最适合小白学员学习的课程,没有之一     只要你了解一点基本的Html,CSS,Ja

数据可视化-工具软件

数据可视化,是关于数据视觉表现形式的科学技术研究.总而言之就是通过分析庞大的数据,然后把分析的结果用图,表,颜色等视觉效果强的方式表现出来,使使用数据结果的人一目了然. 西先看几张比较美的数据可视化图片: 你是不是想知道这些图表是怎么做出来的? 答案就是,对大数据进行深度分析,再使用软件去展现,记住,分析是最主要的,展现只是结果.当然,数据分析的课题太大,我这儿只说如何展现,也就是用什么工具和软件: 数据可视化要用到的软件有: 一.软件: 1.AI:全名是Adobe Illustrator,是一

55个最实用大数据可视化分析工具

该文转自[IT168 技术] 近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取.归纳并简单的展现.传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息.新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集.筛选.分析.归纳.展现决策者所需要的信息,并根据新增的数据进行实时更新.因此,在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具必须适应大数据时代数

数据可视化:基本图表

本文转自阮一峰 http://www.ruanyifeng.com/blog/2014/11/basic-charts.html "数据可视化"可以帮助用户理解数据,一直是热门方向. 图表是"数据可视化"的常用手段,其中又以基本图表----柱状图.折线图.饼图等等----最为常用. 用户非常熟悉这些图表,但如果被问道,它们的特点是什么,最适用怎样的场合(数据集)?恐怕答得上来的人就不多了. 本文是电子书<Data Visualization with Java