使用python完成对excel的操作

import numpy as np
import pandas as pd

1.通过外部文件导入数据表

df=pd.DataFrame(pd.read_csv(‘name.csv‘,header=1))
df=pd.DataFrame(pd.read_Excel(‘name.xlsx‘))

2.通过填入数据生成数据表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range(‘20130102‘, periods=6),
 "city":[‘Beijing ‘, ‘SH‘, ‘ guangzhou ‘, ‘Shen
zhen‘, ‘shanghai‘, ‘BEIJING ‘],
 "age":[23,44,54,32,34,32],
 "category":[‘100-A‘,‘100-B‘,‘110-A‘,‘110-C‘,‘2
10-A‘,‘130-F‘],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
 columns =[‘id‘,‘date‘,‘city‘,‘category‘,‘age‘,
‘price‘])

3.检查数据表的维度:shape属性

df.shape

结果输出 (6,6)

4.查看数据表信息

df.info()

5.查看数据表数据格式:dtypes属性

df.dtypes

6.空值检查isnull()函数(非空False,空True)

df.isnull() #对整张数据表检查
df[‘price‘].isnull() #对price列进行检查

7.查看某列数据唯一值:unique()函数

df[‘price‘].unique()

8.查看列名称:columns属性

9.查看数据表数值:values属性

10.查看前几行数据:head()函数

df.head()
df.head(3)

11.查看后几行数据:tail()函数

二、数据清洗

1.处理空值dropna()与fillna()

#删除数据表中含有空值的行
df.dropna(how=‘any‘)

#使用price均值对price列NA进行填充
df[‘price‘].fillna(df[‘price‘].mean())

#使用数字0填充数据表中空值
df.fillna(value=0)

2.清理空格

#清除price字段中的字符空格
df[‘price‘]=df[‘price‘].map(str.strip)

3.大小写转换

price列大小写转换
df[‘price‘]=df[‘price‘].str.lower()

4.更改数据格式:astype()函数

#更改数据格式
df[‘price‘].astype(‘int‘)

5.更改列名称

#更改列名称category列更改为category-size
df.rename(columns={‘category‘: ‘category-size‘})

6.删除列的重复值drop_duplicates()函数

#删除后出现的重复值
df[‘price‘].drop_duplicates()

7.数值修改以及替换

#数据替换
df[‘city‘].replace(‘sh‘, ‘shanghai‘)

三、数据预处理

1.数据表合并

#数据表df和df1匹配合并
df_inner=pd.merge(df,df1,how=‘inner‘)
df_left=pd.merge(df,df1,how=‘left‘)
df_right=pd.merge(df,df1,how=‘right‘)
df_outer=pd.merge(df,df1,how=‘outer‘)

2.设置索引列

#设置索引列
df_inner.set_index(‘id‘)

3.排序(按索引,按数值)

#按特定列的值排序
df_inner.sort_values(by=[‘age‘])
#按索引列排序
df_inner.sort_index()

4.数据分组

#如果price列的值>3000,group列显示high,否则显示low
df_inner[‘group‘] = np.where(df_inner[‘price‘] > 3000,‘high‘,‘low
‘)

#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner[‘city‘] == ‘beijing‘) & (df_inner[‘price‘]
 >= 4000), ‘sign‘]=1

5.数据分列

#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列
名称为category和size
pd.DataFrame((x.split(‘-‘) for x in df_inner[‘category‘]),index=d
f_inner.index,columns=[‘category‘,‘size‘])

#将完成分列后的数据表与原df_inner数据表进行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)

四、数据提取

1.按标签提取(loc)

#按索引提取区域行数值
df_inner.loc[0:5]
df_inner.loc[5]

#重设索引
df_inner.reset_index()
#设置日期为索引
df_inner=df_inner.set_index(‘date‘)

#提取4日之前的所有数据
df_inner[:‘2013-01-04‘]

2.按位置提取(iloc)

#使用iloc按位置区域提取数据
df_inner.iloc[:3,:2]
#iloc函数除了可以按区域提取数据,还可以按位置逐条提取,前
面方括号中的0,2,5表示数据所在行的位置,后面方括号中的数表示所
在列的位置。
#使用iloc按位置单独提取数据
df_inner.iloc[[0,2,5],[4,5]]

3.按标签和位置提取(ix)

#使用ix按索引标签和位置混合提取数据
df_inner.ix[:‘2013-01-03‘,:4]
  1. 按条件提取(区域和条件值)
#判断city列的值是否为beijing
df_inner[‘city‘].isin([‘beijing‘])

#先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。
df_inner.loc[df_inner[‘city‘].isin([‘beijing‘,‘shanghai‘])]

五、数据筛选

1.按条件筛选(与、或、非)

Python中使用loc函数配合筛选条件来完成筛选功能。配

合sum和count函数还能实现Excel中sumif和countif函数的功能。

#使用“与”条件进行筛选
df_inner.loc[(df_inner[‘age‘] > 25) & (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]]

#使用“或”条件筛选
df_inner.loc[(df_inner[‘age‘] > 25) | (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]].sort([‘age‘])

#对筛选后的数据按price字段进行求和
df_inner.loc[(df_inner[‘age‘] > 25) | (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘,‘price‘]].sort([‘age
‘]).price.sum()

#使用“非”条件进行筛选,并按id排序
df_inner.loc[(df_inner[‘city‘] != ‘beijing‘), [‘id‘,‘city‘,‘age‘,
‘category‘,‘gender‘]].sort([‘id‘])

#对筛选后的数据按city列进行计数
df_inner.loc[(df_inner[‘city‘] != ‘beijing‘), [‘id‘,‘city‘,‘age‘,
‘category‘,‘gender‘]].sort([‘id‘]).city.count()

#使用query函数进行筛选
df_inner.query(‘city == ["beijing", "shanghai"]‘)

#对筛选后的结果按price进行求和
df_inner.query(‘city == ["beijing", "shanghai"]‘).price.sum()
12230

六、数据汇总

1.分类汇总

使用groupby函数进行分类汇总

#对所有列进行计数汇总
df_inner.groupby(‘city‘).count()

#对两个字段进行汇总计数
df_inner.groupby([‘city‘,‘size‘])[‘id‘].count()

#对city字段进行汇总并计算price的合计和均值。
df_inner.groupby(‘city‘)[‘price‘].agg([len,np.sum, np.mean])

2.数据透视

七、数据统计

1.数据采样

2.描述统计

3.标准差

4.协方差

5.相关分析

八、数据输出

1.写入Excel

#输出到Excel格式
df_inner.to_Excel(‘Excel_to_Python.xlsx‘, sheet_name=‘bluewhale_c
c‘)
  1. 写入csv
#输出到CSV格式
df_inner.to_csv(‘Excel_to_Python.csv‘)

原文地址:https://www.cnblogs.com/yiweiblog/p/12652558.html

时间: 2024-11-03 22:23:05

使用python完成对excel的操作的相关文章

【Python开发】Excel的操作之——读取

主要思路参考这篇博客的内容,把地址贴上: http://www.cnblogs.com/zhoujie/p/python18.html 下面贴上我自己的代码 读取excel数据的demo代码如下: 1 def read_excel_demo(): 2 # 打开文件 3 workbook = xlrd.open_workbook(r'C:\Users\wxz\Desktop\2018年信用卡花费(Kevin).xlsx') 4 # 获取所有sheet 5 print('打印所有sheet表名称:'

python之数据驱动Excel+ddt操作(方法二)

一.Mail163数据如下: 二.Excel+ddt代码如下: import xlrdimport unittestfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom ddt import ddt,data,unpackimport time #安装:pip install xlrd#读取的数据存储在list表中def readExcels(): table = xlrd.open_workb

python excel读写操作

1.读操作 xlrd 下载地址:https://pypi.python.org/pypi/xlrd 使用代码 # encoding : utf-8 #设置编码方式 import xlrd #导入xlrd模块 #打开指定文件路径的excel文件 xlsfile = r'D:\AutoPlan\apisnew.xls' book = xlrd.open_workbook(xlsfile) #获得excel的book对象 #获取sheet对象,方法有2种: sheet_name=book.sheet_

python实现对excel表的读写操作(一)

Part 1. 模块介绍: 使用python实现对excel表的读写操作有两个模块,分别为: 1. 对excel表读取模块 xlrd 0.9.3  :下载地址: https://pypi.python.org/pypi/xlrd 英文释意:The package is for reading data and formatting information from Excel files. 2. 对excel表写入模块 xlwt 0.7.5 : 下载地址:https://pypi.python.

python中Excel表操作

python中关于excel表个的操作 使用 python中的xlwt和xlrd模块进行操作 # 2003之前:Excel:xls# 2003之后:Excel:xlsx# xlrd:读取的模块:xls,xlsx# xlwt:写分模块:xls# openpyxl:既能读也能写,只能操作xlsx 所以后面一般操作excel表格最好是使用openpyxl进行操作 # encoding=utf-8 import time import xlrd import xlwt import openpyxl i

Delphi中使用python脚本读取Excel数据

Delphi中使用python脚本读取Excel数据2007-10-18 17:28:22标签:Delphi Excel python原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://seewind.blog.51cto.com/249547/46669前段时间,在正式项目中使用Python来读取Excel表格的数据.具体需求是,项目数据库中有些数据需要根据Excel表格里面的数据进行一些调整,功能应该比较简单.为了学习Pyth

[笔记]用python + openpyxl处理excel(07+)文档 + 一些中文处理的技巧

最近要帮做RA的老姐写个合并excel工作表的脚本……源数据是4000+个excel 工作表,分布在9个xlsm文件里,文件内容是中英文混杂的一些数据,需要从每张表中提取需要的部分,分门别类合并到多个大的表里. 寻觅工具 确定任务之后第一步就是找个趁手的库来干活. Python Excel上列出了xlrd.xlwt.xlutils这几个包,但是 它们都比较老,xlwt甚至不支持07版以后的excel 它们的文档不太友好,都可能需要去读源代码,而老姐的任务比较紧,加上我当时在期末,没有这个时间细读

Python开发-实现Excel套打打印

一.目的 目前本人就职与甲方的工作,由于公司的ERP比较烂无法完美的设计套打,就想着自己用Python开发一个套打工具. 二.开发过程 刚开始我打算用Html的方式生成打印的文档,但是有两个无法解决的问题. 1.Chrome对html的最小字号锁定了8号,需要写缩放. 2.HTML的设计只有开发才能完成,会把工作留在自己部门. 最后锁定了还是EXCEL做个套打的模板,根据EXCEL来生成需要打印的EXCEL. 三.实现的功能 1.模板Sheet页中所有格式完美的打印. 包括行高.列高.合并单元格

对于excel的操作

对于excel的操作,python 可用的包比较多 1.xlrd & xlwt 这两个模块主要是在操作xls的文件,对于xlsx的文件处理很挫,甚至xlwt都不支持 2.pandas 作为数据分析利器,在处理excel方面也比较犀利 3.xlsxwriter 有丰富的特征,支持很多功能,缺点是不能打开/修改已有文件 4.openpyxl https://www.cnblogs.com/zeke-python-road/p/8986318.html 原文地址:https://www.cnblogs