pandas 技巧

find index of top 3 largest values of each column:

df1.apply(lambda s: pd.Series(s.nlargest(3).index))

map dataframe column

df["ItemIdx"] = df["question"].map(lambda x: itemMap.get(x,np.NaN))

load a dictionay from a save pkl file

with open ("l.pkl","rb") as f:
    itemMap= pickle.lead(f)

find the startpoint of each session (after sorted):

offset = np.zeros(df["sessinId"].nunique()+1,dtype=np.int32)
offset[1:] = df.groupby(‘sessinId‘).size().cumsum()

原文地址:https://www.cnblogs.com/pocahontas/p/11775756.html

时间: 2024-11-13 10:33:52

pandas 技巧的相关文章

Python数据分析(二): Pandas技巧 (2)

Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.html github地址: https://github.com/solenovex/My-Machine-Learning-Notebook 很抱歉, 因为工作繁忙, 更新的比较慢. 数据的选取和索引 Pandas对数据的基本操作

python数据分析入门——数据导入数据预处理基本操作

数据导入到python环境:http://pandas.pydata.org/pandas-docs/stable/io.html(英文版) IO Tools (Text, CSV, HDF5, ...)? The pandas I/O API is a set of top level reader functions accessed like pd.read_csv() that generally return a pandasobject. read_csv read_excel re

Python资源大全

The Python Tutorial (Python 2.7.11) 的中文翻译版本.Python Tutorial 为初学 Python 必备官方教程,本教程适用于 Python 2.7.X 系列. 在线阅读 » Fork Me » The Python Tutorial (Python 3.5.1) 的中文翻译版本.Python Tutorial 为初学 Python 必备官方教程,本教程适用于 Python 3.5.x. 在线阅读 » Fork Me » Flask 是一个轻量级的 We

pandas处理大数据的技巧

refer : https://yq.aliyun.com/articles/530060?spm=a2c4e.11153940.blogcont181452.16.413f2ef21NKngz# http://www.datayuan.cn/article/6737.htm https://yq.aliyun.com/articles/210393?spm=a2c4e.11153940.blogcont381482.21.77131127S0t3io - -- 大文本数据的读写有时候我们会拿到

pandas 使用技巧

查看DataFrame时,列数较多会省略中间列的信息,可以设置最大展示列数,代码如下: 1 import pandas as pd 2 pd.set_option('display.max_columns',100)

pandas dataframe 操作技巧 总结

#中文myfont = FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf', size=14)import seaborn as snssns.set(font=myfont.get_name()) file = open(".xlsx", "rb")data = pd.read_excel(file, sep="\t")data = data.loc[(data['时间'] > 0) &

pandas处理数据小技巧

import numpy as npimport pandas as pd # 读取数据df = pd.read_excel('E:/PythonData/data/pdata.xlsx')print(df) # 按照条件填充空值values = {'English': 0, 'Math': 0, 'Language': 0}df.fillna(value=values, inplace=True)print(df) # 使用apply函数更新数据def average(*list): sum

pandas 常用技巧总结

切片: loc:df.loc[num]:选择df 某一行 seriesdf.loc[[num1,num2]]: 选择df 某几行df.loc[[True,False,True,   ,True]]: 选择df 某几行 df.loc[num,['a','c']]:选择df 某一行n列df.loc[[num1,num2],['a','c']]: 选择df 某几行n列df.loc[[True,False,True,   ,True],['a','c']]: 选择df 某几行n列#loc 以数字.布尔及

pandas小技巧

一.在DataFrame中删除某列中含有空值的行: 删除前: df.dropna(subset=['c']) 删除后: 以后会逐渐累积. 原文地址:https://www.cnblogs.com/zhangzhixing/p/12631535.html