一些Pandas常用方法

Series（列）方法describe()，对于不同类型的变量的列，有不同返回值（http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html）

>>> s = pd.Series([1, 2, 3])
>>> s.describe()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0

>>> s = pd.Series([‘a‘, ‘a‘, ‘b‘, ‘c‘])
>>> s.describe()
count     4
unique    3
top       a
freq      2
dtype: object

列方法Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

返回各值的频数，如果normalize=True返回各个值的频率

crosstab方法pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)

作用Compute a simple cross-tabulation of two (or more) factors. By default computes a frequency table of the factors unless an array of values and an aggregation function are passed

举例

>>> a
array([foo, foo, foo, foo, bar, bar,
       bar, bar, foo, foo, foo], dtype=object)
>>> b
array([one, one, one, two, one, one,
       one, two, two, two, one], dtype=object)
>>> c
array([dull, dull, shiny, dull, dull, shiny,
       shiny, dull, shiny, shiny, shiny], dtype=object)
>>> crosstab(a, [b, c], rownames=[‘a‘], colnames=[‘b‘, ‘c‘])
b    one          two
c    dull  shiny  dull  shiny
a
bar  1     2      1     0
foo  2     2      1     2

>>> foo = pd.Categorical([‘a‘, ‘b‘], categories=[‘a‘, ‘b‘, ‘c‘])
>>> bar = pd.Categorical([‘d‘, ‘e‘], categories=[‘d‘, ‘e‘, ‘f‘])
>>> crosstab(foo, bar)  # ‘c‘ and ‘f‘ are not represented in the data,
                        # but they still will be counted in the output
col_0  d  e  f
row_0
a      1  0  0
b      0  1  0
c      0  0  0

时间： 2024-10-29 07:21:00

一些Pandas常用方法的相关文章

python中pandas常用方法

# coding:utf-8__author__ = 'weekyin'import numpy as npimport pandas as pddatas = pd.date_range('20140729', periods=6)# 先创建一个时间索引,所谓的索引(index)就是每一行数据的id,可以标识每一行的唯一值print datas# 为了快速入门,我们看一下如何创建一个6X4的数据:randn函数用于创建随机数,参数表示行数和列数,dates是上一步创建的索引列df = pd.D

pandas常用方法总结

In [49]: frame2 Out[49]: year state pop debt one 2000 Ohio 1.5 NaN two 2001 Ohio 1.7 NaN three 2002 Ohio 3.6 NaN four 2001 Nevada 2.4 NaN five 2002 Nevada 2.9 NaN six 2003 Nevada 3.2 NaN取一列的值可以frame2.state或者frame2['state']frame2['debt'] = 16.5可以填充一列

pandas常用方法示例 2

from pandas import DataFrame import numpy as np import pandas as pd t={ "age": [18, 30, np.nan, 40, np.nan, 30], "city": ["BeiJing", "ShangHai", "GuangZhou", "ShenZhen", 'BeiJing', "ShangHai

Py修行路 Pandas 模块基本用法

pandas 安装方法:pip3 install pandas pandas是一个强大的Python数据分析的工具包,它是基于NumPy构建的模块. pandas的主要功能: 具备对其功能的数据结构DataFrame.Series 集成时间序列功能提供丰富的数学运算和操作(实质是NumPy提供的) 灵活处理缺失数据(NaN) 引用方法:import pandas as pd Series Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成.索引可以自定义如果

数据分析模块Numpy Pandas

如何使用Python进行量化投资自己编写:NumPy+pandas+Matplotlib+…… 在线平台:聚宽.优矿.米筐.Quantopian.…… 开源框架:RQAlpha.QUANTAXIS.…… IPython:安装:pip install ipython TAB键自动完成 ?命令(内省.命名空间搜索) 执行系统命令(!) %run命令执行文件代码 %paste %cpaste命令执行剪贴板代码与编辑器和IDE交互魔术命令:%timeit %pdb … 使用命令历史输入与输出变量

numpy 与 pandas

numpy: import numpy as np np.array([1,2,3]) 创建数组 np.arange(10).reshape(2,5) 类似于range(起始,终止,步长),可以加reshape(2,5)定义形状.必须是相乘等于前面的size np.linsapace(1,10,10) 参数为:起始,终止,平分多少个 zeros((2,4)) 根据指定形状和dtype创建全0数组 ones((2,4)) 根据指定形状和dtype创建全1数组 empty((2,4)) 根据指定形状

数据分析--pandas的基本使用

一.pandas概述 1.pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. 2.pandas的主要功能具备对其功能的数据结构DataFrame.Series 集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据 3.python中操作方式: 安装方法:pip install pandas 引用方法:import pandas as pd 4.也可以通过安装anaconda软件操作,里面包含(numpy,pandas以及Matplotlib多个库),本片文章

Ipython Numpy pandas

Ipython:交互式的Python命令行 TAB:自动完成 ?:内省,命令空间搜索 !:执行系统命令 %run:命令执行文件代码 Ipython常用魔术命令: %quickref:显示Ipython的快速参考 %magic:显示所有魔术命令的详细文档 %debug:从最新的异常追踪的底部进入交互式命令调试器 %hist:打印命令的输入(可选输出)历史 %pdb:在异常发生后自动进入调试器 %paste:执行剪贴板中的Python代码 %cpaste:打开一个特殊提示符以便手工粘贴待执行的Pyt

day32 Python与金融量化分析(二)

第一部分:金融与量化投资股票: 股票是股份公司发给出资人的一种凭证,股票的持有者就是股份公司的股东. 股票的面值与市值面值表示票面金额市值表示市场价值上市/IPO: 企业通过证券交易所公开向社会增发股票以募集资金股票的作用: 出资证明.证明股东身份.对公司经营发表意见公司分红.交易获利股票的分类股票按业绩分类: 蓝筹股:资本雄厚.信誉优良的公司的股票绩优股:业绩优良公司的股票 ST股:特别处理股票,连续两年亏损或每股净资产低于股票面值股票按上市地区分类: A股:中国大陆上市,

猜你喜欢

java高级规范

一:不允许使用汉语拼音命名(类,接口,包,常量,全局变量,局部变量,临时变量,方法名) 欠规范代码示例: public void zengJiaYongHu(){} 拼音方法名称规范代码示例: pu ...

QT 设置应用程序图标和可执行程序图标（另有setWindowTitle和setWindowIcon）

首先准备个ICO图标.例如:myappico.ico用记事本新建个文件里面就写一行:IDI_ICON1 ICON DISCARDABLE "/images/myap ...

dplyr 数据操作数据过滤 (filter)

在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2.reshape2以及即将要讲的dplyr 因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离, ...

项目实战之玩转div+css制作自定义形状

项目需求: 要求制作上图所示的效果,能达到灵活可配的效果.我想初步想法是用div+css来制作. 抽象模型: 面对复杂的问题,要学会抽象当前的问题.下面的这个模型是我抽象出来的一个简单的解决方案. 这 ...

scp出现ssh port 22: Connection refused 问题解决具体步骤

[root(0)@sys11 09:20:29 /home/work/Code_release/bj]# scp ./release.sh [email protected]:/Users/a201 ...

Android Listview with different layout for each row

http://stackoverflow.com/questions/4777272/android-listview-with-different-layout-for-each-row 其关键在重 ...

手机站建设HTML5触摸屏touch事件使用介绍

手机站建设HTML5触摸屏touch事件使用介绍技术 maybe yes 发表于2015-01-05 14:42 原文链接 : http://blog.lmlphp.com/archives/56 ...

怎么通过网站优化来增强SEO效果?

真正好的网站优化不应该针对哪一个搜索引擎,而应该关注用户的需求.搜索引擎把这这用户指标权重提升,实际上也是希望把更多的精力集中在用户体验的提升上面.那么,这些用户指标应该怎样提升呢?方法多种多样,下面 ...

基于Java的简易表达式解析工具(二)

之前简单的介绍了这个基于Java表达式解析工具,现在把代码分享给大家,希望帮助到有需要的人们,这个分享代码中依赖了一些其他的类,这些类大家可以根据自己的情况进行导入,无非就是写字符串处理工具类,日期处 ...

2015-01-26

每天坚持写些日志,预计这一周可能会比较忙,今天开始给别人写关于一个毕业论文的东西,所以关于那个linux的东西可能要暂时放一放,因为这件事情是我答应人家的,我就先必须帮人家做好,下次就不接这种活了. ...

散列表(Hash table)及其构造

散列表(Hash table) 散列表,是根据关键码值(Key value)而直接进行访问的数据结构.它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函数叫做散列函数,存放记录 ...

Keepalived_tengine实现discuz负载均衡和高可用

前言: 上篇博文<keepalived_nginx实现discuz负载均衡和高可用>讲到,由于nginx将health_check功能放入到了商业版本,导致社区版本的nginx进行负载均衡 ...

line-height学习与总结

一．CSS中,line-height被用来控制行与行之间垂直距离,指两行文字基线之间的距离(baseline),借用一张图来说明什么是基线,以及行高的定义:下图两条红线的距离,如下图: 而对于单行文本 ...

验证视图状态 MAC 失败

起因: 最近在做一个项目需要用到生成多个Html页,采用一下方法动态生成. WebRequest request = WebRequest.Create(pageurl); WebResponse r ...

ajax与php小谈（手机验证码）

在项目中碰到一个写手机验证码的问题,所以写出来: 这是前段页面,使用ajax发送了一个json格式的手机号码过去 <script src="jquery-1.11.1.min.js&q ...

使用CSS3 Media Query技术适配Android平板屏幕分辨率和屏幕密度

使用HTML5开发移动应用时需要适配各种Android平板设备的分辨率和屏幕密度,过程实在很麻烦,最后的解决办法是使用css media query,同时匹配分辨率和屏幕密度,在每个设备上进行兼容性测 ...

The Cow Lexicon DP

Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 10659 Accepted: 5116 Description Few ...

comparable接口；collections类；

排序: collections.sort(list); 随机排序: collections.shuffle(list); 反转排序: collections.reverse(list); 复制方法: ...

Visual Studio Online Integrations-Planning

原文:http://www.visualstudio.com/zh-cn/explore/vso-integrations-directory-vs

FunDA（15）－示范：任务并行运算 - user task parallel execution

FunDA的并行运算施用就是对用户自定义函数的并行运算.原理上就是把一个输入流截分成多个输入流并行地输入到一个自定义函数的多个运行实例.这些函数运行实例同时在各自不同的线程里同步运算直至耗尽所有输入. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.