pandas的DataFrame的行列选择

Pandas可根据列名称选取，还可以根据列所在的position（数字，在第几行第几列，注意pandas行列的position是从0开始）选取。相关函数如下：

1）loc，基于列label，可选取特定行（根据行index）；

2）iloc，基于行/列的position；

3）at，根据指定行index及列label，快速定位DataFrame的元素；

4）iat，与at类似，不同的是根据position来定位的；

5）ix，为loc与iloc的混合体，既支持label也支持position；

The simplified rules of indexing are

Use loc for label-based indexing
Use iloc for positional indexing

# -*- coding:utf-8 -*-
import pandas as pd
df = pd.read_csv(‘./iris_training.csv‘, low_memory=False)
print(df.head(10))
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
1 5.0 2.3 3.3 1.0 1
2 4.9 2.5 4.5 1.7 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0
6 5.4 3.4 1.5 0.4 0
7 6.9 3.1 5.1 2.3 2
8 6.7 3.1 4.4 1.4 1
9 5.1 3.7 1.5 0.4 0"""

行选择

Pandas进行行选择一般有三种方法：

连续多行的选择用类似于python的列表切片
loc通过行标签索引来确定行的
iloc通过行号索引来确定行

# 第一种，使用类似于python的列表切片
print(df[0:5])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
1 5.0 2.3 3.3 1.0 1
2 4.9 2.5 4.5 1.7 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0 """
print(df[0:5:2])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
2 4.9 2.5 4.5 1.7 2
4 5.7 3.8 1.7 0.3 0 """

# 第二种，按照指定的索引选择一行或多行，使用loc[]方法
# .loc可以不加列名，则是行选择
ser = df.loc[0]
print(ser)
"""
120 6.4
4 2.8
setosa 5.6
versicolor 2.2
virginica 2.0
Name: 0, dtype: float64 """
maser = df.loc[0:5] # 包括了5，它与第一种的列表索引最大的不同是包含了索引号为5的那一行数据
print(maser)
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
1 5.0 2.3 3.3 1.0 1
2 4.9 2.5 4.5 1.7 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0 """
print(df.loc[0:5:2])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
2 4.9 2.5 4.5 1.7 2
4 5.7 3.8 1.7 0.3 0 """
print(df.loc[[0, 5]])
""" 选择特定的行
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
5 4.4 3.2 1.3 0.2 0 """

# 第三种，按照指定的位置选择一行多多行，使用iloc[]方法
# .iloc可以不加第几列，则是行选择
# 在上面的数据中，使用iloc[]和loc[]的效果是一样的，因为索引号都是从0开始并且连续不断
df2 = df.drop([1,2], axis=0)
print(df2.head(10))
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0
6 5.4 3.4 1.5 0.4 0
7 6.9 3.1 5.1 2.3 2
8 6.7 3.1 4.4 1.4 1
9 5.1 3.7 1.5 0.4 0
10 5.2 2.7 3.9 1.4 1
11 6.9 3.1 4.9 1.5 1 """
print(df2.loc[[0, 1]])
"""
Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2.0
1 NaN NaN NaN NaN NaN"""
print(df2.loc[0:5])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0 """
print(df2.iloc[[0, 1]])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
3 4.9 3.1 1.5 0.1 0 """

列选择

# 通过列名选择单列
print(df[‘120‘])
"""
0 6.4
1 5.0
2 4.9
3 4.9
4 5.7
5 4.4
...
115 5.5
116 5.7
117 4.4
118 4.8
119 5.5
Name: 120, Length: 120, dtype: float64"""
# 通过列名选择多列
print(df[[‘120‘, ‘setosa‘]])
"""
120 setosa
0 6.4 5.6
1 5.0 3.3
2 4.9 4.5
3 4.9 1.5
4 5.7 1.7
5 4.4 1.3
.. ... ...
115 5.5 4.4
116 5.7 4.2
117 4.4 1.4
118 4.8 1.4
119 5.5 3.7
[120 rows x 2 columns] """
# 如果没有列名
# df[df.columns[0]]

行列选择

# print(df.loc[1:3, [2, 3]]) #.loc仅支持列名操作
# KeyError: ‘None of [[2, 3]] are in the [columns]‘
print(df.loc[1:3, [‘120‘, ‘setosa‘]])
"""
120 setosa
1 5.0 3.3
2 4.9 4.5
3 4.9 1.5 """
print(df.loc[1:3, ‘120‘: ‘setosa‘])
"""
120 4 setosa
1 5.0 2.3 3.3
2 4.9 2.5 4.5
3 4.9 3.1 1.5 """
print(df.iloc[1:3, [1, 2]])
"""
4 setosa
1 2.3 3.3
2 2.5 4.5 """
print(df.iloc[1:3, 1:3])
"""
4 setosa
1 2.3 3.3
2 2.5 4.5 """

总结

1）.loc,.iloc,.ix,只加第一个参数如.loc([1,2]),.iloc([2:3]),.ix[2]…则进行的是行选择

2）.loc,.at，选列是只能是列名，不能是position

3）.iloc,.iat，选列是只能是position，不能是列名

4）df[]只能进行行选择，或列选择，不能同时进行列选择，列选择只能是列名。

原文地址：https://www.cnblogs.com/liangzaikaituozhe/p/10337286.html

时间： 2024-10-25 13:12:16

pandas的DataFrame的行列选择的相关文章

python 数据处理学习pandas之DataFrame

请原谅没有一次写完,本文是自己学习过程中的记录,完善pandas的学习知识,对于现有网上资料的缺少和利用python进行数据分析这本书部分知识的过时,只好以记录的形势来写这篇文章.最如果后续工作定下来有时间一定完善pandas库的学习,请见谅! by LQJ 2015-10-25 前言: 首先推荐一个比较好的Python pandas DataFrame学习网址网址: http://www.cnblogs.com/chaosimple/p/4153083

pandas中DataFrame

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

5 pandas之DataFrame简单实用2

今日内容 # pandas之DataFrame 简介 # Pandas 的两个主要数据结构,Series(1维)和DataFrame(2维) # 整理数据.清理数据,分析数据.数据建模,然后将分析结果组织成适合绘图或表格显示的形式常用操作 # 布尔索引查询 DataFrame # 复制DataFrame copy # 插入新数据列‘gender’ ['Female','Male','Male','Unknown'] # 多条件选择查询 isin() # 标签|位置赋值 at[],iat[] F

将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy

将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy [python] view plain copy print? import pandas as pd from sqlalchemy import create_engine ##将数据写入mysql的数据库,但需要先通过sqlalchemy.create_engine建立连接,且字符编码设置为utf8,否则有些latin字符不能处理 yconnect = create_engine('mysql+mysql

短视频学习 - 4、pandas之DataFrame简单使用

今日内容 # pandas之DataFrame 简介 # Pandas 的两个主要数据结构,Series(1维)和DataFrame(2维) # 整理数据.清理数据,分析数据.数据建模,然后将分析结果组织成适合绘图或表格显示的形式常用操作 # 数据录入 DataFrame() # 查看数据类型 dtypes # 查看数据索引 index # 数据排序 sort_values() # 有条件切片查询数据 [],iloc[] FollowMe # 装逼输出 Texttable 若浏览器无法显

pandas DataFrame(2)-行列索引及值的获取

pandas DataFrame是二维的,所以,它既有列索引,又有行索引上一篇里只介绍了列索引: import pandas as pd df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]}) print df # 结果: A B 0 0 3 1 1 4 2 2 5 行索引自动生成了 0,1,2 如果要自己指定行索引和列索引,可以使用 index 和 column 参数: 这个数据是5个车站10天内的客流数据: ridership_df = pd

解决问题：使用pandas中DataFrame如何使用条件选择某行

初始化 data = {'db':['my','my','my','dm','dm','dm'],'table':['s','cs','c','book','order','cus']} >>> data = DataFrame(data) >>> data db table 0 my s 1 my cs 2 my c 3 dm book 4 dm order 5 dm cus 如果我想选择出‘db’ == ‘my’ 的所有行,操作如下: data.loc[data['

DataFrame对行列的基本操作实战

1.pandas对行列的基本操作命令: import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Series(np.arange(3.)) data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz')) data['w'] #选择表格中的'w'列,使用类字典属性,返回的是Series类

pandas中DataFrame相关

1.创建 1.1 标准格式创建 DataFrame创建方法有很多,常用基本格式是:DataFrame 构造器参数:DataFrame(data=[],index=[],coloumns=[]) In [272]: df2=DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],columns=['one','two','three','four']) In [273]: df2 Out[273]: one two three