Pandas之入门

pandas入门

由于最近公司要求做数据分析,pandas每天必用,只能先跳过numpy的学习,先学习大Pandas库
Pandas是基于Numpy构建的,让以Numpy为中心的应用变得更加简单

pandas的数据结构介绍

  • Series

    • 由一组数据以及一组数据标签即索引组成
    import pandas as pd
    from pandas import Series,DataFrame
    
    obj = Series([4,7,-5,3])
    # 索引在左边,值在右边,默认从0开始
    obj
    0    4
    1    7
    2   -5
    3    3
    dtype: int64
    
    # 制定索引
    obj2 = Series([4,7,-5,3],index = [‘a‘,‘b‘,‘c‘,‘d‘])
    obj2
    a    4
    b    7
    c   -5
    d    3
    dtype: int64
    # 查看索引
    obj2.index
    Index([‘a‘, ‘b‘, ‘c‘, ‘d‘], dtype=‘object‘)
    
    # 查询
    obj2[[‘a‘,‘b‘,‘c‘]]
    a    4
    b    7
    c   -5
    dtype: int64
    
    obj2[obj2>0]
    a    4
    b    7
    d    3
    dtype: int64
    • 还可以直接看成一个关系型字典
    sdata = {‘ke‘:35000,‘text‘:70000,‘orgen‘:16000}
    obj3 = Series(sdata)
    obj3
    
    ke       35000
    text     70000
    orgen    16000
    dtype: int64
    
    keys = [‘ke‘,‘text‘,‘orgen‘,‘xu‘]
    obj4 = Series(sdata, index=keys)
    obj4
    ke       35000.0
    text     70000.0
    orgen    16000.0
    xu           NaN
    dtype: float64
    • 检测缺失值的重要两个函数 isnull和notnull
    obj4[obj4.isnull()]
    xu   NaN
    dtype: float64
    
    obj4[obj4.notnull()]
    ke       35000.0
    text     70000.0
    orgen    16000.0
    dtype: float64
    • Series本身和索引都有一个name属性
    # 可以理解成对象名称
    obj4.name = ‘pop‘
    # 对象的索引的名称
    obj4.index.name = ‘state‘
    obj4
    
    state
    ke       35000.0
    text     70000.0
    orgen    16000.0
    xu           NaN
    Name: pop, dtype: float64
    
    # Series的索引可以就地修改
    obj4.index = [‘new_ke‘,‘new_text‘,‘new_orgen‘,‘new_xu‘]
    new_ke       35000.0
    new_text     70000.0
    new_orgen    16000.0
    new_xu           NaN
    Name: pop, dtype: float64
  • DataFrame
    • DataFrame是一个表格型数据结构,最常用的是直接传入一个由等长列表或者是Numpy数组组成的字典
    data = {‘state‘:[‘oh‘,‘oh‘,‘vad‘,‘vad‘],
            ‘yead‘:[2000,2001,2002,2003],
            ‘pop‘:[1.5,1.7,3.6,2.4]
        }
    
    frame = DataFrame(data)
    # 自动有序排列
        yead    state   pop
    0   2000    oh  1.5
    1   2001    oh  1.7
    2   2002    vad 3.6
    3   2003    vad 2.4
    
    # 如果传入的列在数据中找不到,就产生NaN
    DataFrame(data,columns=[‘yar‘,‘yead‘])
        yar yead
    0   NaN 2000
    1   NaN 2001
    2   NaN 2002
    3   NaN 2003

原文地址:https://www.cnblogs.com/lishi-jie/p/9874102.html

时间: 2024-08-30 12:11:56

Pandas之入门的相关文章

Pandas简易入门(二)

目录:     处理缺失数据     制作透视图     删除含空数据的行和列     多行索引     使用apply函数   本节主要介绍如何处理缺失的数据,可以参考原文:https://www.dataquest.io/mission/12/working-with-missing-data 本节要处理的数据来自于泰坦尼克号的生存者名单,它的数据如下 pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,bo

Pandas 10min入门(官方文档注释版一)

接触Pandas有一段时间,但一直未能系统的进行过总结.最近开始接触机器学习,用pandas的地方颇多,因此专门重新整理以下. 首先,Pandas 作为Python处理矩阵类数据的王牌利器,其官方文档相当丰富而且详细,为了方便学习Pandas官方竟然给了一个10min中的入门教程,链接如下:http://pandas.pydata.org/pandas-docs/stable/10min.html . 教程很详细,但是对于入门者而言,个人感觉还是缺少一些说明.因此特意增加了一些相关的注释和说明.

Pandas简易入门(三)

本节主要介绍一下Pandas的数据结构,本文引用的网址:https://www.dataquest.io/mission/146/pandas-internals-series 本文所使用的数据来自于:https://github.com/fivethirtyeight/data/tree/master/fandango 该数据主要描述了一些电影的烂番茄评分情况   数据结构 在Pandas中,主要有三种重要的数据结构: Series(值的集合) DataFrame(Series的集合) Pan

Pandas简易入门(一)

目录:     读取数据     索引     选择数据     简单运算     声明,本文引用于:https://www.dataquest.io/mission/8/introduction-to-pandas (建议阅读原文) Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数据,并且Pandas使用轴标签来表示行和列   读取数据 Pan

pandas从入门到上楼

数据对象 pandas主要有两种数据对象 Series DataFrame 注: 后面代码使用pandas版本0.20.1,通过import pandas as pd引入 Series Series是一种带有索引的序列对象 创建方式 简单创建如下 # 通过传入一个序列给pd.Series初始化一个Series对象, 比如list s1 = pd.Series(list("1234")) print(s1) 0 1 1 2 2 3 3 4 dtype: object DataFrame

Pandas 数据处理入门教程合集

基础教程 Pandas 数据处理(三) - Cheat Sheet 中文版 来源,2张图覆盖了几乎所有常用的 Pandas 用法. Pandas_Cheat_Sheet_中文版.pdf 下载 Pandas 数据处理(二) - 筛选数据 选取列,使用方括号 选取行,行标签使用loc,行号使用iloc,ix兼容处理loc与iloc(deprecated) 简单的逻辑判断(<, >, ==, &, |, ~ 等) 自定义函数,loc,apply,lambda Pandas 数据处理(一) -

程序员用于机器学习编程的Python 数据处理库 pandas 入门教程

入门介绍 pandas适合于许多不同类型的数据,包括: · 具有异构类型列的表格数据,例如SQL表格或Excel数据 · 有序和无序(不一定是固定频率)时间序列数据. · 具有行列标签的任意矩阵数据(均匀类型或不同类型) · 任何其他形式的观测/统计数据集. 由于这是一个Python语言的软件包,因此需要你的机器上首先需要具备Python语言的环境.关于这一点,请自行在网络上搜索获取方法. 关于如何获取pandas请参阅官网上的说明:pandas Installation. 通常情况下,我们可以

pandas 新手指引

# 10 Minutes to pandas pandas入门教程,面向新手,如需高级教程,移步[pandas cookbook](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook) 按照约定,一般按照如下形式对pandas进行导入 import pandas as pd import numpy as np import matplotlib.pyplot as plt # 使用ipython notebook

机器学习00:如何通过Python入门机器学习

我们都知道机器学习是一门综合性极强的研究课题,对数学知识要求很高.因此,对于非学术研究专业的程序员,如果希望能入门机器学习,最好的方向还是从实践触发. 我了解到Python的生态对入门机器学习很有帮助.因此希望以此作为突破口入门机器学习. 我将会记录一个系列的学习与实践记录.记录内容主要参考Youtube中sentdex发布的视频,有兴趣的读者可以自己FQ到油管看一下. 下面介绍一下我将如何通过Python入门机器学习. 学习Python基本语法 首先我在Python官网找到入门教程,快速过了一