数据分析 大数据之路 五 pandas 报表

pandas:  在内存中或对象,会有一套基于对象属性的方法,   可以视为 pandas 是一个存储一维表,二维表,三维表的工具,

主要以二维表为主

一维的表,      (系列(Series))

二维的表,DataFrame, 也叫报表

三维的表,(面板(Panel))

文本格式 :

CSV 以文本方式存储,  item 之间用逗号分割,记录与记录之间以回车分开 , 可以用 excel 方式打开

json 格式 , 以 key ,value 方式存储

import numpy as np
import pandas as pd

# data 里的 key 可以看成是表头,
data = {
    ‘animal   ‘: [‘cat‘, ‘cat‘, ‘snake‘, ‘dog‘, ‘dog‘, ‘cat‘, ‘snake‘, ‘cat‘, ‘dog‘, ‘dog‘],
    ‘age      ‘: [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
    ‘visits‘   : [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
    ‘priority‘ : [‘yes‘, ‘yes‘, ‘no‘, ‘yes‘, ‘no‘, ‘no‘, ‘no‘, ‘yes‘, ‘no‘, ‘no‘]
    }

# 给每一条记录起个别名
labels = [‘a‘, ‘b‘, ‘c‘, ‘d‘, ‘e‘, ‘f‘, ‘g‘, ‘h‘, ‘i‘, ‘j‘]

df = pd.DataFrame(data, index=labels)
print(df)
   age animal priority  visits
a  2.5    cat      yes       1
b  3.0    cat      yes       3
c  0.5  snake       no       2
d  NaN    dog      yes       3
e  5.0    dog       no       2
f  2.0    cat       no       3
g  4.5  snake       no       1
h  NaN    cat      yes       1
i  7.0    dog       no       2
j  3.0    dog       no       1

  df.head() ,  head() 默认输出前 5 条记录

  df [1:5]  也可以通过切片方式操作 (行索引)

  df [[‘age‘, ‘animal‘]] (列索引)

   df.iloc[0:3, 0:3]   指定行,列输出

   age       animal    priority
a        2.5       cat      yes
b        3.0       cat      yes
c        0.5     snake       no

  

原文地址:https://www.cnblogs.com/gdwz922/p/10633883.html

时间: 2024-08-03 21:52:52

数据分析 大数据之路 五 pandas 报表的相关文章

数据分析 大数据之路 一

安装 jupyter notebook https://www.anaconda.com/distribution/ 如果可以访问 google 的话可以在线 https://colab.research.google.com/notebooks/welcome.ipynb 原文地址:https://www.cnblogs.com/gdwz922/p/10573967.html

数据分析 大数据之路 三 numpy 2

NumPy 数学函数 NumPy 提供了标准的三角函数:sin().cos().tan() numpy.around() 函数返回指定数字的四舍五入值 numpy.floor() 返回数字的下舍整数 numpy.ceil() 返回数字的上入整数 NumPy 算术函数 NumPy 算术函数包含简单的加减乘除: add(),subtract(),multiply() 和 divide() numpy.reciprocal() 函数返回参数逐元素的倒数.如 1/4 倒数为 4/1. numpy.pow

蔡先生论道大数据之(十五) :什么是数据化运营?

数据化运营讨论(1) 近现代营销理论代表思想是4P理论,4P是指产品.价格.渠道.促销,它的核心是产品,其他要素都是围绕产品这个核心来的,进入21世纪人们又提出了4C的营销理论,包括消费者.成本.方便性.沟通交流,它的核心是用户是消费者,一切以消费者为核心,这也是目前大多数企业市场营销战略核心思想. 社会在进步,4C理论之后来到了大数据时代,所面对的行业状况是,白热化的市场竞争,越来越严苛的营销预算.堆积如山的海量数据,迫使企业寻找更加适合的营销思路和方法.目前行业主流的理论是3P3C,包括概率

胖子哥的大数据之路(11)-我看Intel&&Cloudera的合作

一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放弃早在预料之中,对于Intel与Cloudera合作也在意料之中,但是没有想到的是居然那么快.壮士断腕的Intel反倒让我看出几分勇气可嘉来,Cloudera的顺势而为,也被我所认同,Intel借助Cloudera的技术能力,Cloudera借用Intel的商务平台,然后彼此合作真的就能够成功?换句

胖子哥的大数据之路(12)-三张图告诉你大数据安全方案设计

一.引言: 最近一直很忙,在做一个全国性项目的IT架构,所以一直没有更新,好在算是告一段落,继续努力吧.项目沟通中过程客户反复在强调,大数据的安全性,言下之意,用了大数据,就不安全了,就有漏洞了.所以花了些时间,针对大数据的安全设计做了一个总结,算是阶段性的成果吧,分享给大家. 二.安全架构 大数据安全架构主要从六个方面考虑,包括物理安全.系统安全.网络安全.应用安全.数据安全和管理安全六个维度.物理安全强调物理硬件的国产化,避免类似美国轰炸伊拉克悲剧的重演,这也算是一个国家战略的产物,虽未正式

行在说 | 从阿里巴巴大数据之路看企业中台战略

戳右方链接观看精彩视频从阿里巴巴大数据之路看企业中台战略 视频导读: 提到阿里巴巴,我们首先想到的是一家电商互联网企业,淘宝.天猫.支付宝等一系列平台和产品已经彻底改变了我们的生活.当大数据开启一个时代时,拥有海量交易数据的阿里巴巴就已经认识到这是一座大的金矿,并在众多的电商企业中率先开始了淘金之旅,大数据平台也在其中扮演了非常重要的角色. 本视频是行在(奇点云创始人兼CEO)关于<从阿里巴巴大数据之路看企业中台战略>的分享.他以亲身经历讲述了阿里大数据的演变,大数据部门从组织架构到系统架构所

大数据学习第五天

大数据学习第五天 ulimit 查看进程最大文件描述符创建数 -a all详细信息 nginx_config 文件记录 #user nobody ngx_work进程属主 worker_processes 单核进程数 worker_connections 最大连接数 nginx单连接双文件描述符 一开最少开两 sendfile 文件内存暂存功能 减少一次文件拷贝次数 tcp_nopush 缓冲区请求数据合包开关 一般关掉 keepalive_timeout 连接保存时间 反向代理时需要设置为0

胖子哥的大数据之路(13):破题,或从数据整合开始

一.前言 这是关于互联网上一篇文章的读后感,原文标题<大数据成变量,BAT入口生态或生变局>.读这篇文章既有醍醐灌顶之顿悟,亦有如履薄冰之恐惧,阿里好强,动作好快.其实,最近一直在思考当代企业信息化架构EA框架的调整,基本的一个思路是数据上提,与业务架构平齐,不再只是作为业务系统的功能支撑,而是自成一片天地,独立运营.至于数据化运营与现有业务的关系,则可一分为二:其一.可进,进可开疆辟土,基于数据衍生新的业务形态:其二.可退,退而求其次,辅助优化现有业务,从简单粗暴,到整合 营销.变现空间,天

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要