Pandas练习笔记——（一）

import numpy as np

import pandas as pd

s = pd.Series([12,-4,4,8])

s
Out[4]:
0    12
1    -4
2     4
3     8
dtype: int64

s = pd.Series([12,-4,4,8],index=[‘a‘,‘b‘,‘c‘,‘d‘])

s
Out[6]:
a    12
b    -4
c     4
d     8
dtype: int64

s.values
Out[7]: array([12, -4,  4,  8], dtype=int64)

s.index
Out[8]: Index([‘a‘, ‘b‘, ‘c‘, ‘d‘], dtype=‘object‘)

s[2]
Out[9]: 4

s[‘b‘]
Out[10]: -4

s[0:2]
Out[11]:
a    12
b    -4
dtype: int64

s[[‘b‘,‘c‘]]
Out[12]:
b   -4
c    4
dtype: int64

s[1] = 0

s
Out[14]:
a    12
b     0
c     4
d     8
dtype: int64

s[‘a‘] = 10

s
Out[16]:
a    10
b     0
c     4
d     8
dtype: int64

arr = np.array([1,2,3,4])

s = pd.Series(arr)

s
Out[19]:
0    1
1    2
2    3
3    4
dtype: int32

s[s>2]
Out[20]:
2    3
3    4
dtype: int32

s/2
Out[21]:
0    0.5
1    1.0
2    1.5
3    2.0
dtype: float64

np.log(s)
Out[22]:
0    0.000000
1    0.693147
2    1.098612
3    1.386294
dtype: float64

serd = pd.Series([1,0,2,1,2,3],index=[‘white‘,‘white‘,‘blue‘,‘green‘,‘green‘,‘yellow‘])

serd
Out[24]:
white     1
white     0
blue      2
green     1
green     2
yellow    3
dtype: int64

serd.unique()
Out[25]: array([1, 0, 2, 3], dtype=int64)

serd.value_counts()
Out[26]:
2    2
1    2
3    1
0    1
dtype: int64

# 判断给定的一列元素是否包含在数据结构之中

serd.isin([0,3])
Out[28]:
white     False
white      True
blue      False
green     False
green     False
yellow     True
dtype: bool

serd[serd.isin([0,3])]
Out[29]:
white     0
yellow    3
dtype: int64

s2 = pd.Series([5,3,np.Nan,14])
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-30-ec475b2401c9> in <module>()
----> 1 s2 = pd.Series([5,3,np.Nan,14])

AttributeError: module ‘numpy‘ has no attribute ‘Nan‘

s2 = pd.Series([5,3,np.NaN,14])

s2
Out[32]:
0     5.0
1     3.0
2     NaN
3    14.0
dtype: float64

s2.isnull()
Out[33]:
0    False
1    False
2     True
3    False
dtype: bool

s2.notnull()
Out[34]:
0     True
1     True
2    False
3     True
dtype: bool

s2[s2.isnull()]
Out[35]:
2   NaN
dtype: float64

mydict = {‘red‘:1000,‘blue‘:1500,‘yellow‘:450,‘orange‘:800}

myseries = pd.Series(mydict)

myseries
Out[38]:
blue      1500
orange     800
red       1000
yellow     450
dtype: int64

colors = [‘red‘,‘yellow‘,‘orange‘,‘blue‘,‘green‘]

myseries = pd.Series(mydict,index=colors)

myseries
Out[41]:
red       1000.0
yellow     450.0
orange     800.0
blue      1500.0
green        NaN
dtype: float64

mydict2 = {‘red‘:1000,‘yellow‘:450,‘black‘:800}

myseries2 = pd.Series(mydict2)

myseries + myseries2
Out[44]:
black        NaN
blue         NaN
green        NaN
orange       NaN
red       2000.0
yellow     900.0
dtype: float64

# DataFrame对象

data = {
  File "<ipython-input-46-5e6020ae37c4>", line 1
    data = {
            ^
SyntaxError: unexpected EOF while parsing

data = {‘color‘:[‘blue‘,‘green‘,‘yellow‘,‘red‘,‘white‘],‘object‘:[‘ball‘,‘pen‘,‘pencil‘,‘paper‘,‘mug‘],‘price‘:[1.2,1.4,0.6,1.3,2]}

frame = pd.DataFrame(data)

frame
Out[49]:
    color  object  price
0    blue    ball    1.2
1   green     pen    1.4
2  yellow  pencil    0.6
3     red   paper    1.3
4   white     mug    2.0

原文地址：https://www.cnblogs.com/zhouzhishuai/p/8253834.html

时间： 2024-11-09 00:01:02

Pandas练习笔记——（一）的相关文章

pandas 学习笔记

读者只需浏览一下本文的目录结构,我相信就已经掌握了1到2成的 pandas 知识. 本文的目的是建立一个大概的知识结构在数据挖掘python阅读源码时,断断续续查阅了些 pandas 资料,并在源码中大致感受到了 pandas 在数据清理方面的方便性. 先将自己查阅的资料结合实际应用中常用到的方式,以学习笔记的形式整理出来.不会涉及到 pandas 的所有方面,细节知识还需自行查阅官方文档. 数据结构 Series: 一维数组,与Numpy中的一维array类似.二者与Python基本的数据结

pandas学习笔记

引入所需要的包: import pandas as pd import numpy as np import matplotlib.pyplot as plt 一.创建对象通过传递一个list对象来创建一个Series s = pd.Series([1,3,5,np.nan,6,8]) >>> s 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame at

Pandas学习笔记，字符串方法（string method）

一般语法格式Series.str.method().具体方法见http://pandas.pydata.org/pandas-docs/stable/api.html#string-handling 例如 Series.str.capitalize() 作用:Convert strings in the Series/Index to be capitalized.

pandas学习笔记D1

最近使用的是python3.6版本,发现使用read_csv()无法读取中文路径下的文件,今天终于解决.代码如下: import sys sys.getfilesystemencoding() sys._enablelegacywindowsfsencoding() sys.getfilesystemencoding() import pandas as pd df=pd.read_csv("20171207日报.csv",encoding='gbk')

Pandas学习笔记，如何用列的值过滤行

通过tushare引入DataFrame d = ts.get_hist_data('600848', start='2015-01-05', end='2015-01-09') data = pd.DataFrame(d) print(data) print(data.ma5 > data.ma20) open high close low volume price_change p_change date 2015-01-09 11.68 11.71 11.23 11.19 44851.56

Pandas学习笔记，选择多个行或列

loc--通过行标签索引行数据 iloc--通过行号获取行数据 ix--结合前两种的混合索引具体见http://blog.csdn.net/xw_classmate/article/details/51333646 另外DataFrame[columnsA == columnsB]或者DataFrame.loc[columnsA == columnsB],可以选择满足中括号中的条件的行. columnsA == columnsB返回的是一个boolean Series,它的值为True,Dat

Pandas学习笔记，DataFrame的排序问题

数据来源见前边的几篇随笔对其中的一列排序 data.high.sort_values(ascending=False) data.high.sort_values(ascending=True) data['high'].sort_values(ascending=False) data['high'].sort_values(ascending=True) p = data.high.sort_values() print(p) date 2015-01-05 11.39 2015-01-0

Pandas学习笔记，如何删除DataFrame中的一列（行）

同样,引入一个DataFrame d = ts.get_hist_data('600848', start='2015-01-05', end='2015-01-09') data = pd.DataFrame(d) print(data.columns) Index(['open', 'high', 'close', 'low', 'volume', 'price_change', 'p_change', 'ma5', 'ma10', 'ma20', 'v_ma5', 'v_ma10', 'v

Pandas Series笔记

1.指向单元素的,类型为元素的类型 2.指向多个元素的,类型为Series 3.如果用索引切片,索引是非整型的,实际按照索引顺序取值,且包含末端 4.如果指定的索引不存在,则会报错 5.可以根据元素的条件选择 6.可以有name.index.values三个属性 7.in针对的是索引 8.指定索引创建Series时,结果和索引完全一致,没有索引项的数据被丢弃 9.isnull和notnull或者比较函数,返回一个同结构的bool数组,可以用于选择内容(同5)