python数据分析之pandas库的DataFrame应用

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔型)。DateFrame既有行索引也有列索引,可以被看作为由Series组成的字典。

构建DataFrame:

1.1、直接传入一个由等长列表或numpy数组组成的字典

‘‘‘
Created on 2016-8-10
@author: xuzhengzhu
‘‘‘
from pandas import *

data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,2002],‘pop‘:[1.5,1.7,3.6,2.4,2.9]}
frame=DataFrame(data)
print frame
print "--------------------------"
#可指定序列,DataFrame的列会按照指定的顺序进行排列

frame1=DataFrame(data,columns=[‘year‘,‘state‘,‘pop‘])
print frame1
print "--------------------------"
#如果传入的数据找不到,就会NA值

frame2=DataFrame(data,columns=[‘year‘,‘state‘,‘pop‘,‘debt‘],index=[‘one‘,‘two‘,‘three‘,‘four‘,‘five‘])
print frame2
print "--------------------------"

1.1 传入数组组成的字典给DataFrame

 1.2 对属性进行操作

‘‘‘
Created on 2016-8-10
@author: xuzhengzhu
‘‘‘
from pandas import *

data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,2002],‘pop‘:[1.5,1.7,3.6,2.4,2.9]}

frame2=DataFrame(data,columns=[‘year‘,‘state‘,‘pop‘,‘debt‘],index=[‘one‘,‘two‘,‘three‘,‘four‘,‘five‘])
print frame2
print "--------------------------"

print frame2.year
print "--------------------------"
print frame2[‘year‘]
print "--------------------------"
print frame2.ix[‘two‘]
print "--------------------------"

1.2通过属性操作数据

#通过类似字典标记的方式或属性的方式,可,以将DataFrame的列获取为一个Series,返回的Series与原来有相同的索引,且name属性已指定

#行也可以通过位置或名称的方式进行获取比如索引字段ix

1.3 对DataFrame列进行操作

‘‘‘
Created on 2016-8-10
@author: xuzhengzhu
‘‘‘
from pandas import *

data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,2002],‘pop‘:[1.5,1.7,3.6,2.4,2.9]}

frame2=DataFrame(data,columns=[‘year‘,‘state‘,‘pop‘,‘debt‘],index=[‘one‘,‘two‘,‘three‘,‘four‘,‘five‘])
print frame2
print "--------------------------"

#列可以通过赋值的方式进行修改
frame2[‘debt‘]=16.5
print frame2

#为不存在的列赋值会创建出一个新列
print "--------------------------"
frame2[‘eastern‘]=frame2.state==‘ohio‘

print frame2
print "--------------------------"

#关键词del用于删除列
del frame2[‘eastern‘]
print frame2

1.3对DataFrame列进行操作

时间: 2024-11-07 08:14:27

python数据分析之pandas库的DataFrame应用的相关文章

python数据分析之pandas库的DataFrame应用二

本节介绍Series和DataFrame中的数据的基本手段 重新索引 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 ''' Created on 2016-8-10 @author: xuzhengzhu ''' ''' Created on 2016-8-10 @author: xuzhengzhu ''' from pandas import * print "--------------obj result:-----------------"

Python 数据分析:Pandas 缺省值的判断

Python 数据分析:Pandas 缺省值的判断 背景 我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 None,不然就会报错.因此,我们就需要处理 Pandas 的缺省值. 样本数据 id name password sn sex age amount content remark login_date login_at created_at 0 1 123456789.0 NaN NaN NaN 20

Python数据分析之pandas学习

Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析5.利用pandas实现SQL操作6.利用pandas进行缺失值的处理7.利用pandas实现Excel的数据透视表功能8.多层索引的使用 一.数据结构介绍 在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame.Ser

python数据分析之Pandas:基本功能介绍

Pandas有两个主要的数据结构:Series和DataFrame. Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签构成.来看下它的使用过程 In [1]: from pandas import Series,DataFrame In [2]: import pandas as pd In [3]: obj=Series([4,7,-5,3]) In [5]: obj Out[5]: 0    4 1    7 2   -5 3    3 dtype: int64

python数据分析工具——Pandas、StatsModels、Scikit-Learn

Pandas Pandas是 Python下最强大的数据分析和探索工具.它包含高级的数据结构和精巧的工具,使得在 Python中处理数据非常快速和简单. Pandas构建在 Numpy之上,它使得以 Numpy为中心的应用很容易使用.Pandas的功能非常强大,支持类似于SQL的数据增.删.查.改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等. Pandas的安装相对来说比较容易,安装好 Numpy之后,就可以直接安装了,通过pip install pandas或下载

【Python数据分析】pandas去重和替换

目录 1.去重复:duplicated 2.替换:replace 1.去重复:duplicated import pandas as pd s = pd.Series([1,1,1,1,2,2,2,3,3,4,4,5,6]) # 通过duplicated判断是否重复 print(s.duplicated()) # 通过布尔判断,得到不重复的值 print(s[s.duplicated() == False]) # 移除重复drop_duplicates s_re = s.drop_duplica

利用python数据分析panda学习笔记之DataFrame

2 DataFrame a:通过传入一个等长的列表构成DataFrame 自动加上索引 1 data={'state':['ohio','ohio','ohio','Nevada','Nevada'], 2 'year':[2000,2001,2002,2001,2002], 3 'pop':[1.5,1.7,3.6,2.1,2.9]} 4 frame=DataFrame(data) b:指定顺序序列(之前是按照默认排序) 1 DataFrame(data,columns=['year','st

安装 python 数据分析插件 pandas

一上午试验了各种方法,发现利用pycharm是最快的.可以抛弃版本,命令和兼容问题的烦恼.纯粹傻瓜式 方法是 pycharm, 直接在settings里面,搜索pandas,添加即可,他会把所有之前需要安装的加进去 另外需要注意的,有一个version,即当前version,latest version,最新version,最好都在安装其他package前,检查当前version,是不是最新的

Python数据分析(二): Pandas技巧 (2)

Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.html github地址: https://github.com/solenovex/My-Machine-Learning-Notebook 很抱歉, 因为工作繁忙, 更新的比较慢. 数据的选取和索引 Pandas对数据的基本操作