Python的Pandas库简述

pandas 是 python 的数据分析处理库
import pandas as pd

1、读取CSV、TXT文件

foodinfo = pd.read_csv("pandas_study.csv", encoding = "utf-8")

2、查看前N条、后N条信息

foodinfo.head(N)
foodinfo.tail(N)

3、查看数据框的格式，是DataFrame还是ndarray

print(type(foodinfo))
# 结果：<class ‘pandas.core.frame.DataFrame‘>

4、查看有哪些列

foodinfo.columns

5、查看有几行几列

foodinfo.shape

6、打印某一行、某几行数据

foodinfo.loc[0]
foodinfo.loc[0:2]
foodinfo.loc[[2, 5, 10]]    #注意里面是一个数组

7、打印某一列、某几列数据

foodinfo["dti"]
foodinfo[["int_rate", "dti"]]    #注意里面是一个数组
# 或者：
columns = ["int_rate", "dti"]
foodinfo[columns]

8、打印所有列的数据类型

foodinfo.dtypes

9、对列的一些相关操作

col_columns = foodinfo.columns.tolist()
new_columus = []

for c in col_columns:
if c.endswith("s"):
new_columus.append(c)
print(c)

foodinfo[new_columus]

10、加减乘除：将每行都乘以100（加减乘除一样）

foodinfo[["int_rate", "dti"]] * 100

11、增加一列

new_col = foodinfo["int_rate"] * 100
foodinfo["new_col"]= new_col

12、列之间的运算

foodinfo["dti"] * foodinfo["int_rate"]

13、查看列的最大值、最小值、平均值

foodinfo["int_rate"].max()
foodinfo["int_rate"].min()
foodinfo["int_rate"].mean()

14、按某个字段排序 - 升序

# inplace是否新建一个dataframe，True不需要
foodinfo.sort_values("int_rate_one", inplace = True)

# 按某个字段排序 - 降序
foodinfo.sort_values("int_rate_one", inplace = True, ascending = False)

15、查看数据框的一些属性：最大、最小、均值、四分位数等

foodinfo.describe()

16、空值相关的操作

pin = foodinfo["pin"]
pin_isnull = pd.isnull(pin) # 查看所有空值
pin_isnull_list = foodinfo[pin_isnull] # 找出所有为空值的行
len(pin_isnull_list)        # 空值的个数

17、缺失值相关操作

# 简单的处理办法就是过滤掉null值
books = foodinfo["life_cycle_books"]
book_isnull = pd.isnull(books)
book_list_isnull = foodinfo["life_cycle_books"][book_isnull == False]
mean = sum(book_list_isnull) / len(book_list_isnull)    # 计算平均值

18、根据条件打印某列数据

foodinfo[foodinfo["life_cycle_books"] == 1]

19、数据透视表

import numpy as np
# index：要透视的列
# values：要比较的关系列
# aggfunc：具体的关系，默认值：np.mean
data_foodinfo = foodinfo.pivot_table(index = ["life_cycle_books", "potential_value_books"], values = "risk_level", aggfunc = np.mean)
print(data_foodinfo)

20、删除缺失值

# 所有行
na_foodinfo = foodinfo.dropna(axis = 1)
# 可以指定列
na_foodinfo = foodinfo.dropna(axis = 0, subset = ["life_cycle_books", "potential_value_books"])

21、自由取数据如：取80行 life_cycle_books列

foodinfo.loc[80, "life_cycle_books"]

22、重新排索引

foodinfo.reset_index(drop = True)

23、自定义函数：返回空值个数

def count_null_columns(column):
    column_null = pd.isnull(column)
    list_null = column[column_null]
    count_null = len(list_null)
    return count_null
foodinfo.apply(count_null_columns)

24、Series

# pandas 三种数据结构
# Series
# DataFrame
# Panel
from pandas import Series

25、Series显示某一列数据

series_name = taitan["Name"]
series_name.values

26、定位某行某列

series_name = taitan["Name"]
series_age = taitan["Age"]
series_custom = Series(series_age.values, index = series_name)
series_custom[["Ahlin, Mrs. Johan (Johanna Persdotter Larsson)", "Asplund, Mrs. Carl Oscar (Selma Augusta Emilia Johansson)"]]
# 说明：series_custom[""] 按列取 series_custom[[""]] 按行取

27、取5-10行数据，和上面一样：

series_custom[5: 10]

28、index变换

old_index = series_custom.index.tolist()
sort_index = sorted(old_index)
new_index = series_custom.reindex(sort_index)
print(new_index)

29、Series按索引和值排序的函数

sc1 = series_custom.sort_index()
print(sc1)
sc2 = series_custom.sort_values()
print(sc2)

30、Series 过滤

series_custom > 0.5
series_custom[series_custom > 0.5]
series_custom[(series_custom > 0.5) & (series_custom < 0.9)]
# 注：&、| 都是单符号

31、DataFrame

# Series是一行数据，DataFrame是多行数据
# DataFrame 可以看成由多个 Series 组成的
df = pd.read_csv("titanic_train.csv")

32、DataFrame的索引变换

# drop 是否新创建一个DF，True否 False是（表示还要保留Name这一列，否则一会无法进行计算）
df_name = df.set_index("Name", drop = False)

33、DataFrame查看某一类型的数据

types = df_name.dtypes
float_columns = types[types.values == "float64"].index
df_name[float_columns]

34、DataFrame求方差

float_df = df_name[float_columns]
float_df.apply(lambda x: np.std(x))

时间： 2024-11-01 01:52:08

Python的Pandas库简述的相关文章

python之pandas库

一.生成数据表 1.首先导入pandas库,一般都会用到numpy库,所以我们先导入备用: import pandas as pd 2.导入CSV或者xlsx文件: df = pd.DataFrame(pd.read_csv('name.csv',header=1)) df = pd.DataFrame(pd.read_excel('name.xlsx')) 3.用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,100

Pandas库中的DataFrame

1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表. 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(当然matlab也可以用cell存放多类型数据),DataFrame的单元格可以存放数值.字符串等,这和excel表很像. 同时DataFrame可以设置列名columns与行名index,可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位,具体方法在后面细说. 2 创建DataFrame 首先声

Python Pandas库的学习（三）

今天我们来继续讲解Python中的Pandas库的基本用法那么我们如何使用pandas对数据进行排序操作呢? food.sort_values("Sodium_(mg)",inplace= True) print(food["Sodium_(mg)"]) food.sort_values("Sodium_(mg)",inplace=True,ascending= False) print(food["Sodium_(mg)"

Python学习教程（Python学习路线）：Pandas库基础分析-详解时间序列的处理

Python学习教程(Python学习路线):Pandas库基础分析-详解时间序列的处理在使用Python进行数据分析时,经常会遇到时间日期格式处理和转换,特别是分析和挖掘与时间相关的数据,比如量化交易就是从历史数据中寻找股价的变化规律.Python中自带的处理时间的模块有datetime,NumPy库也提供了相应的方法,Pandas作为Python环境下的数据分析库,更是提供了强大的日期数据处理的功能,是处理时间序列的利器. 1.生成日期序列主要提供pd.data_range()和pd.p

Python： Pandas的DataFrame如何按指定list排序

本文首发于微信公众号“Python数据之道”(ID:PyDataRoad) 前言写这篇文章的起由是有一天微信上一位朋友问到一个问题,问题大体意思概述如下: 现在有一个pandas的Series和一个python的list,想让Series按指定的list进行排序,如何实现? 这个问题的需求用流程图描述如下: 我思考了一下,这个问题解决的核心是引入pandas的数据类型“category”,从而进行排序. 在具体的分析过程中,先将pandas的Series转换成为DataFrame,然后设置数据

Python Numpy,Pandas笔记

Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. #浮点数转int arr = np.array([1.2,1.3,1.4],[1.5,1.6,1.7])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #对数组批量运算,作用在每个元素上 arr = np.array([1,2,3],[4,5,6]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6]) p

python之pandas简单介绍及使用（一）

一. Pandas简介 1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.pandas提供了大量能使我们快速便捷地处理数据的函数和方法.你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一. 2.Pandas 是python的一个数据分析包,最初由AQR Capital Management

Python的常用库

读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都应该有它. Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的.用过它之后你就不会再想用别的同类库了. wxPython.Python的一个GUI(图形用户界面)工具.我主要用它替代tkinter.你一定会爱上它的. Pillow.它是PIL(Python图形库)的一个友好分支.对于用

python之pandas用法大全

python之pandas用法大全更新时间:2018年03月13日 15:02:28 投稿:wdc 我要评论本文讲解了python的pandas基本用法,大家可以参考下一.生成数据表1.首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:?12import numpy as npimport pandas as pd2.导入CSV或者xlsx文件:?12df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.D