Pandas之入门

pandas入门

由于最近公司要求做数据分析，pandas每天必用，只能先跳过numpy的学习，先学习大Pandas库

Pandas是基于Numpy构建的，让以Numpy为中心的应用变得更加简单

pandas的数据结构介绍

Series

由一组数据以及一组数据标签即索引组成

import pandas as pd
from pandas import Series,DataFrame

obj = Series([4,7,-5,3])
# 索引在左边，值在右边，默认从0开始
obj
0    4
1    7
2   -5
3    3
dtype: int64

# 制定索引
obj2 = Series([4,7,-5,3],index = [‘a‘,‘b‘,‘c‘,‘d‘])
obj2
a    4
b    7
c   -5
d    3
dtype: int64
# 查看索引
obj2.index
Index([‘a‘, ‘b‘, ‘c‘, ‘d‘], dtype=‘object‘)

# 查询
obj2[[‘a‘,‘b‘,‘c‘]]
a    4
b    7
c   -5
dtype: int64

obj2[obj2>0]
a    4
b    7
d    3
dtype: int64

还可以直接看成一个关系型字典

sdata = {‘ke‘:35000,‘text‘:70000,‘orgen‘:16000}
obj3 = Series(sdata)
obj3

ke       35000
text     70000
orgen    16000
dtype: int64

keys = [‘ke‘,‘text‘,‘orgen‘,‘xu‘]
obj4 = Series(sdata, index=keys)
obj4
ke       35000.0
text     70000.0
orgen    16000.0
xu           NaN
dtype: float64

检测缺失值的重要两个函数 isnull和notnull

obj4[obj4.isnull()]
xu   NaN
dtype: float64

obj4[obj4.notnull()]
ke       35000.0
text     70000.0
orgen    16000.0
dtype: float64

Series本身和索引都有一个name属性

# 可以理解成对象名称
obj4.name = ‘pop‘
# 对象的索引的名称
obj4.index.name = ‘state‘
obj4

state
ke       35000.0
text     70000.0
orgen    16000.0
xu           NaN
Name: pop, dtype: float64

# Series的索引可以就地修改
obj4.index = [‘new_ke‘,‘new_text‘,‘new_orgen‘,‘new_xu‘]
new_ke       35000.0
new_text     70000.0
new_orgen    16000.0
new_xu           NaN
Name: pop, dtype: float64

DataFrame

DataFrame是一个表格型数据结构,最常用的是直接传入一个由等长列表或者是Numpy数组组成的字典

data = {‘state‘:[‘oh‘,‘oh‘,‘vad‘,‘vad‘],
        ‘yead‘:[2000,2001,2002,2003],
        ‘pop‘:[1.5,1.7,3.6,2.4]
    }

frame = DataFrame(data)
# 自动有序排列
    yead    state   pop
0   2000    oh  1.5
1   2001    oh  1.7
2   2002    vad 3.6
3   2003    vad 2.4

# 如果传入的列在数据中找不到，就产生NaN
DataFrame(data,columns=[‘yar‘,‘yead‘])
    yar yead
0   NaN 2000
1   NaN 2001
2   NaN 2002
3   NaN 2003

原文地址：https://www.cnblogs.com/lishi-jie/p/9874102.html

时间： 2024-08-30 12:11:56

Pandas之入门的相关文章

Pandas简易入门（二）

目录: 处理缺失数据制作透视图删除含空数据的行和列多行索引使用apply函数本节主要介绍如何处理缺失的数据,可以参考原文:https://www.dataquest.io/mission/12/working-with-missing-data 本节要处理的数据来自于泰坦尼克号的生存者名单,它的数据如下 pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,bo

Pandas 10min入门（官方文档注释版一）

接触Pandas有一段时间,但一直未能系统的进行过总结.最近开始接触机器学习,用pandas的地方颇多,因此专门重新整理以下. 首先,Pandas 作为Python处理矩阵类数据的王牌利器,其官方文档相当丰富而且详细,为了方便学习Pandas官方竟然给了一个10min中的入门教程,链接如下:http://pandas.pydata.org/pandas-docs/stable/10min.html . 教程很详细,但是对于入门者而言,个人感觉还是缺少一些说明.因此特意增加了一些相关的注释和说明.

Pandas简易入门（三）

本节主要介绍一下Pandas的数据结构,本文引用的网址:https://www.dataquest.io/mission/146/pandas-internals-series 本文所使用的数据来自于:https://github.com/fivethirtyeight/data/tree/master/fandango 该数据主要描述了一些电影的烂番茄评分情况数据结构在Pandas中,主要有三种重要的数据结构: Series(值的集合) DataFrame(Series的集合) Pan

Pandas简易入门（一）

目录: 读取数据索引选择数据简单运算声明,本文引用于:https://www.dataquest.io/mission/8/introduction-to-pandas (建议阅读原文) Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数据,并且Pandas使用轴标签来表示行和列读取数据 Pan

pandas从入门到上楼

数据对象 pandas主要有两种数据对象 Series DataFrame 注: 后面代码使用pandas版本0.20.1,通过import pandas as pd引入 Series Series是一种带有索引的序列对象创建方式简单创建如下 # 通过传入一个序列给pd.Series初始化一个Series对象, 比如list s1 = pd.Series(list("1234")) print(s1) 0 1 1 2 2 3 3 4 dtype: object DataFrame

Pandas 数据处理入门教程合集

基础教程 Pandas 数据处理(三) - Cheat Sheet 中文版来源,2张图覆盖了几乎所有常用的 Pandas 用法. Pandas_Cheat_Sheet_中文版.pdf 下载 Pandas 数据处理(二) - 筛选数据选取列,使用方括号选取行,行标签使用loc,行号使用iloc,ix兼容处理loc与iloc(deprecated) 简单的逻辑判断(<, >, ==, &, |, ~ 等) 自定义函数,loc,apply,lambda Pandas 数据处理(一) -

程序员用于机器学习编程的Python 数据处理库 pandas 入门教程

入门介绍 pandas适合于许多不同类型的数据,包括: · 具有异构类型列的表格数据,例如SQL表格或Excel数据 · 有序和无序(不一定是固定频率)时间序列数据. · 具有行列标签的任意矩阵数据(均匀类型或不同类型) · 任何其他形式的观测/统计数据集. 由于这是一个Python语言的软件包,因此需要你的机器上首先需要具备Python语言的环境.关于这一点,请自行在网络上搜索获取方法. 关于如何获取pandas请参阅官网上的说明:pandas Installation. 通常情况下,我们可以

pandas 新手指引

# 10 Minutes to pandas pandas入门教程,面向新手,如需高级教程,移步[pandas cookbook](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook) 按照约定,一般按照如下形式对pandas进行导入 import pandas as pd import numpy as np import matplotlib.pyplot as plt # 使用ipython notebook

机器学习00：如何通过Python入门机器学习

我们都知道机器学习是一门综合性极强的研究课题,对数学知识要求很高.因此,对于非学术研究专业的程序员,如果希望能入门机器学习,最好的方向还是从实践触发. 我了解到Python的生态对入门机器学习很有帮助.因此希望以此作为突破口入门机器学习. 我将会记录一个系列的学习与实践记录.记录内容主要参考Youtube中sentdex发布的视频,有兴趣的读者可以自己FQ到油管看一下. 下面介绍一下我将如何通过Python入门机器学习. 学习Python基本语法首先我在Python官网找到入门教程,快速过了一