pandas DataFrame(2)-行列索引及值的获取

pandas DataFrame是二维的,所以,它既有列索引,又有行索引

上一篇里只介绍了列索引:

import pandas as pd

df = pd.DataFrame({‘A‘: [0, 1, 2], ‘B‘: [3, 4, 5]})
print df

# 结果:
   A  B
0  0  3
1  1  4
2  2  5

行索引自动生成了 0,1,2

如果要自己指定行索引和列索引,可以使用 index 和 column 参数:

这个数据是5个车站10天内的客流数据:

ridership_df = pd.DataFrame(
    data=[[   0,    0,    2,    5,    0],
          [1478, 3877, 3674, 2328, 2539],
          [1613, 4088, 3991, 6461, 2691],
          [1560, 3392, 3826, 4787, 2613],
          [1608, 4802, 3932, 4477, 2705],
          [1576, 3933, 3909, 4979, 2685],
          [  95,  229,  255,  496,  201],
          [   2,    0,    1,   27,    0],
          [1438, 3785, 3589, 4174, 2215],
          [1342, 4043, 4009, 4665, 3033]],
    index=[‘05-01-11‘, ‘05-02-11‘, ‘05-03-11‘, ‘05-04-11‘, ‘05-05-11‘,
           ‘05-06-11‘, ‘05-07-11‘, ‘05-08-11‘, ‘05-09-11‘, ‘05-10-11‘],
    columns=[‘R003‘, ‘R004‘, ‘R005‘, ‘R006‘, ‘R007‘]
)

data 参数为一个numpy二维数组, index 参数为行索引, column 参数为列索引

生成的数据以表格形式显示:

          R003  R004  R005  R006  R007
05-01-11     0     0     2     5     0
05-02-11  1478  3877  3674  2328  2539
05-03-11  1613  4088  3991  6461  2691
05-04-11  1560  3392  3826  4787  2613
05-05-11  1608  4802  3932  4477  2705
05-06-11  1576  3933  3909  4979  2685
05-07-11    95   229   255   496   201
05-08-11     2     0     1    27     0
05-09-11  1438  3785  3589  4174  2215
05-10-11  1342  4043  4009  4665  3033

下面说下如何获取DataFrame里的值:

1.获取某一列: 直接 [‘key‘]

print(ridership_df[‘R003‘])

# 结果:
05-01-11       0
05-02-11    1478
05-03-11    1613
05-04-11    1560
05-05-11    1608
05-06-11    1576
05-07-11      95
05-08-11       2
05-09-11    1438
05-10-11    1342
Name: R003, dtype: int64

2.获取某一行: .loc[‘key‘]

print(ridership_df.loc[‘05-01-11‘])
# 或者
print(ridership_df.iloc[0])

# 结果:
R003    0
R004    0
R005    2
R006    5
R007    0
Name: 05-01-11, dtype: int64

3.获取某一行某一列的某个值:

print(ridership_df.loc[‘05-05-11‘,‘R003‘])
# 或者
print(ridership_df.iloc[4,0])

# 结果:
1608

4.获取原始的numpy二维数组:

print(ridership_df.values)

# 结果:
[[   0    0    2    5    0]
 [1478 3877 3674 2328 2539]
 [1613 4088 3991 6461 2691]
 [1560 3392 3826 4787 2613]
 [1608 4802 3932 4477 2705]
 [1576 3933 3909 4979 2685]
 [  95  229  255  496  201]
 [   2    0    1   27    0]
 [1438 3785 3589 4174 2215]
 [1342 4043 4009 4665 3033]]

*注意在这过程中,数据格式如果不一致,会发生转换.

一个综合栗子:

从 ridership_df 找出第一天里客流量最多的车站,然后返回这个车站的日平均客流,以及返回所有车站的平均日客流,作为对比:

def mean_riders_for_max_station(ridership):
    max_index = ridership.iloc[0].argmax()
    mean_for_max = ridership[max_index].mean()
    overall_mean = ridership.values.mean()
    return (overall_mean, mean_for_max)

print mean_riders_for_max_station(ridership_df)

# 结果:
(2342.6, 3239.9)

原文地址：https://www.cnblogs.com/liulangmao/p/9248930.html

时间： 2024-10-07 23:16:52

pandas DataFrame(2)-行列索引及值的获取的相关文章

pandas DataFrame(1)

之前介绍了numpy的二维数组,但是numpy二维数组有一些局限性,比如,它数组里所有的值的类型必须相同,不能某一列是数值型,某一列是字符串型,这样会导致无法使用 mean() , std() 等方法去计算某一行或某一列. 但是,使用pandas DataFrame可以解决这一问题. pandas DataFrame也是二维数据,和pandas Series一样, pandas DataFrame也有'索引'这个概念,它每一列都有一个索引值: import pandas as pd df = p

pandas.DataFrame学习系列1——定义及属性

定义: DataFrame是二维的.大小可变的.成分混合的.具有标签化坐标轴(行和列)的表数据结构.基于行和列标签进行计算.可以被看作是为序列对象(Series)提供的类似字典的一个容器,是pandas中主要的数据结构. 形式: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) 参数含义: data : numpy ndarray(多维数组)(结构化或同质化的), dict(字典

pandas DataFrame(4)-向量化运算

pandas DataFrame进行向量化运算时,是根据行和列的索引值进行计算的,而不是行和列的位置: 1. 行和列索引一致: import pandas as pd df1 = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]}) df2 = pd.DataFrame({'a': [10, 20, 30], 'b': [40, 50, 60], 'c': [70, 80, 90]}) print df1 + df2 a b

pandas学习(创建多层索引、数据重塑与轴向旋转)

pandas学习(创建多层索引.数据重塑与轴向旋转) 目录创建多层索引数据重塑与轴向旋转创建多层索引隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组,Series也可以创建多层索引. s = Series(np.random.randint(0,150,size=6),index=[['a','a','b','b','c','c'],['期中','期末','期中','期末','期中','期末']]) # 输出 a 期中 59 期末 4

Pandas DataFrame构造简析

参考书籍:<利用Python进行数据分析> DataFrame简介: DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值.字符串.布尔值等).DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引).跟其他类似的数据结构相比(如R的data.frame),DataFrame中面向行和面向列的操作基本上是平衡的.其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表.字典或别的一维数据结构). 导入py

pandas DataFrame和Series

Pandas入门-Series和DataFrame 概述:pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具,pandas是基于Numpy构建的.pandas在过去的几年中逐渐成长为一个非常强大的库. pandas的数据结构介绍引入pandas >>> from pandas import Series,DataFrame >>> import pandas as pd pandas有两个主要的数据结构:Series和DataFrame. Serie

数据分析--pandas DataFrame

pandas DataFrame是一个表格类型的数据,含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值).DataFrame即有行索引,也有列索引,可以看作由Series组成的字典(公用同一个索引). DataFrame是以一个或者多个二维块存放的(而不是列表,字典或别的一维数据结构) 构建DataFrame 传入一个等长列表或Numpy数组组成的字典 DataFrame会自动加上索引,且全部列会被有序排列可以指定序列的排序传入的列在数据中找不到,会产生Na值从DataFra

[python][pandas]DataFrame的基本操作

问题来源在实验中经常需要将数据保存到易于查看的文件当中,由于大部分都是vector数据,所以选择pandas的dataframe来保存到csv文件是最简单的方法. 基本操作下图是DataFrame的一些基本概念,可以看出与基本的csv结构是保持一致的. 1. 创建DataFrame 创建DataFrame通常有两种方法,从list中创建和从dict中创建: 从dict创建,key的名字会作为名,如下所示: >>> d = {'col1': [1, 2], 'col2': [3, 4]

pandas.DataFrame的groupby()方法的基本使用

pandas.DataFrame的groupby()方法是一个特别常用和有用的方法.让我们快速掌握groupby()方法的基础使用,从此数据分析又多一法宝. 首先导入package: import pandas as pd import numpy as np groupby的最基本操作 df = pd.DataFrame({'A':[1,2,3,1],'B':[2,3,3,6],'C':[3,1,5,7]}) df 按照A列来进行分组(其实说白了就是将A列中重复的值和成同一个值,然后把A当成索