数据分析入门——美国各州人口分析

1.案例数据来自python数据分析手册,github地址:https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks/data

        不克隆项目,怎么在github下载单个文件?:https://www.cnblogs.com/zhaoqingqing/p/5534827.html

2.pandas读取文件,参考:https://blog.csdn.net/sinat_29957455/article/details/79054126

1.导入三剑客的包:

  

2.读取数据:

   read_csv可以读取1G的数据(excel无法打开)

   读入各州缩写:

   

  读入各州面积:

  

  读入各州人口:

  

3.合并pop和abbr两个df

  使用简称,合并全称,可知,需要使用merge:

  并且,左右两列没有相同columns,需要使用left_on/right_on来进行限定;

  

  由于默认使用的是内连接,所以通过shape发现会有部分未连接上的数据,通过how,可以控制内外连接方式:

  

  //使用right右连接,也会出现2448,原因是虽然右表只有51条,但是左表有多条对应,会出现一对多

  发现用于连接的列,有重复的列,我们可以使用drop进行删除一列:通过axis控制,我们就删除了一列:

  

  但是特别注意,drop返回的是删除后的新DF,原先的DF未改变(这点可以通过看控制台是否输出了内容,有输出时则是返回了新的数据,没有则是在原基础上修改)

要想在原基础上修改,需要控制inplace参数:

  

  

  通过isnull()返回和原先形状相等的df,再通过any看哪一列有空值:

  

  进一步,通过空值操作,可以查看具体哪些州有数据缺失:(通过unique来查看唯一值)

  

  下一步,使用正确的值,填充这些缺失值:(通过boolean值来进行筛选,注意boolean这个Series的产生)

  

  USA的处理,同理:

  

  验证结果:(可以发现state已经没有空值)

  

4.合并pop和areas两个df

  同样,使用merge:

  

原文地址:https://www.cnblogs.com/jiangbei/p/11369174.html

时间: 2024-08-02 17:37:16

数据分析入门——美国各州人口分析的相关文章

Python数据分析入门

Python数据分析入门 最近,Analysis with Programming加入了Planet Python.作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析.具体内容如下: 数据导入 导入本地的或者web端的CSV文件: 数据变换: 数据统计描述: 假设检验 单样本t检验: 可视化: 创建自定义函数. 数据导入 这是很关键的一步,为了后续的分析我们首先需要导入数据.通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式.在Python中,我们的操作如

冬至听雪分享——数据分析入门

本文关键词:数据分析基础,数据分析入门 数据分析是数据挖掘的基础,数据挖掘是数据分析的高级阶段! 数据分析,数据来源要客观,数据分析的过程要符合业务的规则,符合科学的方法. 数据分析是一个结构导向,业务解释性要好! # 数据分析的注意事项 1.所有数据分析要从结果出发,没有结论的数字罗列并不是分析 2.数据分析要建立在业务模型的基础上 3.数据分析是基于数据严谨的分析过程 1.什么是数据分析? 定义:使用统计方法对收集的大量数据进行分析.理解.达到业务分析的目的,获取有用的信息和结论而对数据进行

eBay:美国各州最受欢迎的产品品类

雨果网从美国媒体<商业内幕>8月26日的报道中获悉,电商巨头eBay近日发布了美国各州最受欢迎的产品品类.包括:加州人青睐女性高端配件,而新泽西 州的男人喜欢古龙香水.相比这些华丽配饰而言,其他州的一些消费者显得比较实在.比如,俄亥俄州的人们喜欢购买户外装备,北卡罗来纳州的居民在婴幼儿产品 上的花费比较多,康涅狄格州的却喜欢买带电池的产品,德克萨斯州的买家会订购狩猎产品,而纽约人喜欢购买枪支. 以下是美国各州最受欢迎产品分布图: 阿拉巴马州:露营用品 Camping Goods 阿拉斯加州:帽

精品大数据分析资料大数据分析必备教程,大数据分析入门到精通全集教程分享

精品大数据分析资料,大数据分析入门到精通全集教程分享,看完工资至少涨到30K 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994 原文地址:https://www.cnblogs.com/raorao1994/p/10851911.html

我的数据分析入门

从昨天开始抽空看了<一本书玩转数据分析>,以前虽然我也做过一些数据分析方面的工作,但是没有系统的了解过这方便的知识理论方法.看完这本书,做了简单笔记如下,可以作为了解数据分析的入门吧. 数据对应企业而言:深入了解业务情况:明确当前现状:把控当下,针对调整:预测未来发展趋势 数据对决策而言:有助于客户关系管理:挖掘潜在客户:提高用户黏度:控制企业成本:把控当下成本:减少存货,降低损耗,提高资源利用:管理员工绩效:知晓员工工作状态:了解员工绩效差异 数据的重要性:有助于监督管理,能够客观反映问题,

python数据分析入门学习笔记儿

学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分析相关python库的介绍(前言1~4摘抄自<利用python进行数据分析>) 1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘

python数据分析入门笔记[1]

1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘上基于数组的数据集的工具 (4)线性代数运算.傅里叶变换,以及随机数生成 (5)用于将C.C++.Fortran代码集成到python的工具 2.pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计算功能以及

Python数据分析入门与实践

<section>课程地址 http://icourse8.com/Python3rumenyushizhan.html </section> 章节详情第1章 实验环境的搭建 第2章 Numpy入门 第3章 Pandas入门 第4章 Pandas玩转数据 第5章 绘图和可视化之Matplotlib 第6章 绘图和可视化之Seaborn 第7章 数据分析项目实战 第8章 课程总结 class Solution { public String longestCommonPrefix(S

Python数据分析入门与实践 学习 资源??

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观.它旨在成为在Python中进行实际数据分析的高级构建块. 入门介绍 pandas适合于许多不同类型的数据,包括: 具有异构类型列的表格数据,例如SQL表格或Excel数据 有序和无序(不一定是固定频率)时间序列数据. 具有行列标签的任意矩阵数据(