pandas 练习

from pandas import Series, DataFrame

# Series接收list或dict作为一维数据
#两个属性：values, index
#①
s1 = Series([4,7,-5,3])
print(s1.values) #值
print(s1.index)  #序列号
s1.index = [‘a‘,‘b‘,‘c‘,‘d‘]
print(s1)
#②
s2 = Series({‘Ohio‘: 35000, ‘Texas‘: 71000, ‘Oregon‘: 16000, ‘Utah‘: 5000})
print(s2)

#DataFrame接收matrix或dict(要求item为list)作为二维数据
# 三个属性：values, index, columns
#①
data = {‘state‘: [‘Ohio‘, ‘Ohio‘, ‘Ohio‘, ‘Nevada‘, ‘Nevada‘],
        ‘year‘: [2000, 2001, 2002, 2001, 2002],
        ‘pop‘: [1.5, 1.7, 3.6, 2.4, 2.9]}
f1 = DataFrame(data)
print(f1.values) #值
print(f1.index)     #行序列(号)
print(f1.columns)#列序列(号)
#②
f2 = DataFrame(data, columns=[‘year‘, ‘state‘, ‘pop‘])
#③
f3 = DataFrame(data, columns=[‘year‘, ‘state‘, ‘pop‘, ‘debt‘], index=[‘one‘, ‘two‘, ‘three‘, ‘four‘, ‘five‘])

#重要的功能
##1.重新索引
#① Series
s1 = Series([4.5, 7.2, -5.3, 3.6], index=[‘d‘, ‘b‘, ‘a‘, ‘c‘])
s2 = s1.reindex([‘a‘, ‘b‘, ‘c‘, ‘d‘, ‘e‘])
s3 = s1.reindex([‘a‘, ‘b‘, ‘c‘, ‘d‘, ‘e‘], fill_value=0)

s4 = Series([‘blue‘, ‘purple‘, ‘yellow‘], index=[0, 2, 4])
s5 = s4.reindex(range(6), method=‘ffill‘)

#② DataFrame
f1 = DataFrame(np.arange(9).reshape((3, 3)), index=[‘a‘, ‘c‘, ‘d‘], columns=[‘Ohio‘, ‘Texas‘, ‘California‘])
f2 = f1.reindex(index=[‘a‘, ‘b‘, ‘c‘, ‘d‘])                #行序列(号)
f3 = f1.reindex(columns=[‘Texas‘, ‘Utah‘, ‘California‘])#列序列(号)

##2.索引，挑选和过滤
# .at, .iat, .loc, .iloc .ix

# 1)类似 ndarry 的索引操作
#① Series
s1 = Series(np.arange(4.), index=[‘a‘, ‘b‘, ‘c‘, ‘d‘])
s1[‘b‘]
s1[1]
s1[2:4]
s1[[‘b‘, ‘a‘, ‘d‘]]
s1[[1, 3]]
s1[s1 < 2]
s1[‘b‘:‘c‘]
s1[‘b‘:‘c‘] = 5

#② DataFrame
df = DataFrame(np.arange(16).reshape((4, 4)), index=[‘Ohio‘, ‘Colorado‘, ‘Utah‘, ‘New York‘],
                                            columns=[‘one‘, ‘two‘, ‘three‘, ‘four‘])
df[‘two‘]
df[[‘three‘, ‘one‘]]
df[:2]
df[df[‘three‘] > 5]
df > 5
df[df[‘three‘] < 5] = 0

# 2)标签索引
#① Series

#② DataFrame
df.ix[‘Colorado‘, ‘three‘]
df.ix[‘Colorado‘, [‘three‘, ‘four‘]]
df.ix[[‘Colorado‘, ‘Utah‘], [‘three‘, ‘four‘]]
df.ix[[‘Colorado‘, ‘Utah‘], [2, 0, 3]]
df.ix[‘Colorado‘]
df.ix[2]
df.ix[:‘Utah‘, ‘three‘]
df.ix[df.three > 5, :3]

时间： 2024-10-09 08:34:53

pandas 练习的相关文章

一些Pandas常用方法

Series(列)方法describe(),对于不同类型的变量的列,有不同返回值(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html) >>> s = pd.Series([1, 2, 3]) >>> s.describe() count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3

Pandas学习之常用函数详解

本文和大家分享的主要是Pandas库常用函数相关内容,一起来看看吧,希望对大家学习Pandas有所帮助. 1. DataFrame 处理缺失值 pandas.DataFrame.dropna df2.dropna(axis=0, how='any', subset=[u'ToC'], inplace=True) 把在ToC列有缺失值的行去掉 2. 根据某维度计算重复的行 pandas.DataFrame.duplicated print df.duplicated(['name']).value

用scikit-learn和pandas学习线性回归

对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了. 1. 获取数据,定义问题没有数据,当然没法研究机器学习啦.:) 这里我们用UCI大学公开的机器学习数据来跑线性回归. 数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 数据的下载地址在这: http://archive.ics.uci.edu/ml/ma

python之pandas模块的基本使用（1）

一.pandas概述 pandas :pannel data analysis(面板数据分析).pandas是基于numpy构建的,为时间序列分析提供了很好的支持.pandas中有两个主要的数据结构,一个是Series,另一个是DataFrame. 二.数据结构 Series Series 类似于一维数组与字典(map)数据结构的结合.它由一组数据和一组与数据相对应的数据标签(索引index)组成.这组数据和索引标签的基础都是一个一维ndarray数组.可将index索引理解为行索引. Seri

Pandas中如何处理大数据？

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

十分钟入门pandas数据结构和索引

pandas数据结构和索引是入门pandas必学的内容,这里就详细给大家讲解一下,看完本篇文章,相信你对pandas数据结构和索引会有一个清晰的认识. 一.数据结构介绍在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame.Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能:DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵

pandas cookbook【1】

网上看到了关于pandas的用法,虽然练习了不少,但是还是有些不是能记得很清楚.所以就写下来了. chapter1讲的是读取CSV文件.如下代码: 1 #%% 2 import pandas as pd 3 import numpy as np 4 import matplotlib.pyplot as plt 5 # make the graphs a bit prettier 6 pd.set_option('display.mpl_style','default') 7 plt.rcPar

《Python数据分析常用手册》一、NumPy和Pandas篇

一.常用链接: 1.Python官网:https://www.python.org/ 2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn 3.数据分析常用库的离线安装包(pip+wheels)(百度云):http://pan.baidu.com/s/1dEMXbfN 密码:bbs2 二.常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和

python2.7版本win764位系统安装pandas注意事项_20161226

经过卸载安装python几经折腾,参考了各种网站,终于安装成功. [成功的步骤] 保存这个python第三方库网站,网址是http://www.lfd.uci.edu/~gohlke/pythonlibs/ 一. 安装Python 2.7.13 我的是这个版本 1. 先卸载旧版python和相应库,删除安装文件夹,要确保卸载干净 2. 装2.7.13版本去官网找64位系统的安装文件,msi的后缀,装的时候不要选为所有用户要选仅对当前用户,我也没找到原因,经过几次尝试这个没有报错. 3.添加进环境

Pandas日期数据处理：如何按日期筛选、显示及统计数据

前言 pandas有着强大的日期数据处理功能,本期我们来了解下pandas处理日期数据的一些基本功能,主要包括以下三个方面: 按日期筛选数据按日期显示数据按日期统计数据运行环境为 windows系统,64位,python3.5. 1 读取并整理数据首先引入pandas库 import pandas as pd 从csv文件中读取数据 df = pd.read_csv('date.csv', header=None) print(df.head(2)) 0 1 0 2013-10-24 3