python数据分析-数据处理

数据导入：

 导入csv
from pandas import read_csv;

df = read_csv(‘D://PA//4.1//1.csv‘)
导入文本，要转成UTF-8无BOM格式：
from pandas import read_table;

df = read_table(‘D://PA//4.1//2.txt‘)
导入excle
from pandas import read_excel;

df = read_excel(‘C:/PA/4.1/3.xlsx‘)

数据导出：

数据的导出：

from pandas import DataFrame;

df = DataFrame({
    ‘age‘: [21, 22, 23],
    ‘name‘: [‘KEN‘, ‘John‘, ‘JIMI‘]
});

df.to_csv("c:/PA/4.1/df.csv");

#不导入序号
df.to_csv("c:/PA/4.1/df.csv", index=False);

重复值处理：

from pandas import read_csv;

df = read_csv(‘C:/PA/4.1/data.csv‘)

newDF = df.drop_duplicates();

缺失值处理：

from pandas import read_csv;

df = read_csv(‘C:/PA/4.4/data.csv‘)

newDF = df.dropna();

空格值处理：

from pandas import read_csv;

df = read_csv(‘C:/PA/4.5/data.csv‘)

newDF = df["name"].str.strip();
df["name"]=newDF;

字段抽取：

astype(str) 转换成字符型数据，以便于处理。

from pandas import read_csv;

df = read_csv(‘C:/PA/4.6/data.csv‘)

df["tel"]=df["tel"].astype(str);

bands=df["tel"].str.slice(0,3);

areas=df["tel"].str.slice(3,7);

numbs=df["tel"].str.slice(7,11);

字段拆分：

from pandas import read_csv;
df=read_csv("C:/PA/4.7/data.csv");

newDF=df["name"].str.split(" ",1,True);
newDF.columns=["band","name"];

记录抽取：

import pandas;
from pandas import read_csv;
df=read_csv("C:/PA/4.8/data.csv",sep="|");
df[df.comments>1000];
df[df.comments.between(1000,10000)];
df[pandas.isnull(df.title)];
df[df.title.str.contains("台电",na=False)];
df[(df.comments>=1000)&(df.comments<=10000)]

随机抽样：

import numpy;
from pandas import read_csv;
df=read_csv("C:/PA/4.9/data.csv");
r=numpy.random.randint(0,10,3);
df.loc[r,:];

记录合并：

import pandas;
from pandas import read_csv;

df1=read_csv("C:/PA/4.10/data1.csv",sep="|");
df2=read_csv("C:/PA/4.10/data2.csv",sep="|");
df3=read_csv("C:/PA/4.10/data3.csv",sep="|");

df=pandas.concat([df1,df2,df3])

字段合并：

from pandas import read_csv;

df = read_csv(
     "C:/PA/4.11/data.csv",
    sep=" ",
    names=[‘band‘, ‘area‘, ‘num‘]
);

df = df.astype(str);

tel = df[‘band‘] + df[‘area‘] + df[‘num‘]

字段匹配：

import pandas;
from pandas import read_csv;
item=read_csv(
        "C:/PA/4.12/data1.csv",
        sep="|",
        names=["id","comments","title"]
);
prices=read_csv(
         "C:/PA/4.12/data1.csv",
         sep="|",
         names=["id","oldprice","newprice"]
        )
itemprices=pandas.merge(
        item,
        prices,
        left_on="id",
        right_on="id"
 );

简单计算：

import pandas;
from pandas import read_csv;

df=read_csv("C:/PA/4.13/data.csv",sep="|");
result=df.price*df.num
df["sum"]=result

数据标准化：

import pandas;
from pandas import read_csv;

df=read_csv("C:/PA/4.14/data.csv");

scale=(df.score-df.score.min())/(df.score.max()-df.score.min())

数据分组：

import pandas;
from pandas import read_csv;

df = read_csv("C:\\PA\\4.15\\data.csv", sep=‘|‘);

bins = [min(df.cost)-1, 20, 40, 60, 80, 100, max(df.cost)+1];

labels = [‘20以下‘, ‘20到40‘, ‘40到60‘, ‘60到80‘, ‘80到100‘, ‘100以上‘];

pandas.cut(df.cost, bins)

pandas.cut(df.cost, bins, right=False)

pandas.cut(df.cost, bins, right=False, labels=labels)

日期转换：

import pandas;
from pandas import read_csv;
from pandas import to_datetime;

df = read_csv("C:\\PA\\4.16\\data.csv",encoding="utf-8");
df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");

日期格式化：

import pandas;
from pandas import read_csv;
from pandas import to_datetime;

df = read_csv("C:\\PA\\4.16\\data.csv",encoding="utf-8");
df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");
df_dt_str=df_dt.apply(lambda x:datatime.strftime(x,"%d-%m-%Y"))

日期抽取：

import pandas;
from pandas import read_csv;
from pandas import to_datetime;

df = read_csv("C:\\PA\\4.18\\data.csv",encoding="utf-8");
df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");
df_dt.dt.year;
df_dt.dt.second;
df_dt.dt.minute;
df_dt.dt.hour;
df_dt.dt.day;
df_dt.dt.month;
df_dt.dt.weekday;

原文地址：https://www.cnblogs.com/qiuyuyu/p/9144034.html

时间： 2024-11-19 05:48:51

python数据分析-数据处理的相关文章

python 数据分析--数据处理工具Pandas（1）

说明: 本文用到的数据集下载地址: 链接:https://pan.baidu.com/s/1zSOypUVoYlGcs-z2pT2t0w 提取码:z95a Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换.缺失值的处理.描述性统计分析.数据的汇总等.Pandas模块的核心操作对象就是序列(Series)和数据框(DataFrame).序列可以理解为数据集中的一个字段,数据框是指含有至少两个字段(或序列)的数据集. 1. 序列和数据框的构造 1.1 构造序列构造一个序

python 数据分析--数据处理工具Pandas(2)

在前面的学习中主要了解了Pandas如何构造序列和数据框,如何读取和写入各种格式的数据,以及如何对数据进行初步描述,本文将进一步了解Pandas如何处理字符串和日期数据,数据清洗,获取数据子集,透视表,分组聚合操作等内容. 4. Pandas处理字符串和日期数据待处理的数据表数据处理要求: 更改出生日期birthday和手机号tel两个字段的数据类型. 根据出生日期birthday和开始工作日期start_work两个字段新增年龄和工龄两个字段. 将手机号tel的中间四位隐藏起来. 根据邮箱

Python数据分析、数据采集、数据可视化、图像数据处理分析视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

python 数据分析，R语言与数据挖掘｜学习资料分享 05

python 数据分析为什么选 python 做数据分析? 在数据分析和交互.探索性计算以及数据可视化等方面,Python 将不可避免地接近于其他开源和商业的领域特定编程语言/工具,如R.MATLAB.SAS.Stata等.近年来,由于 Python 有不断改良的库(主要是 pandas),使其成为数据处理任务的一大替代方案.结合其在通用编程方面的强大实力,我们完全可以只使用 Python 这一种语言去构建以数据为中心的应用程序. R语言是由 AT&T 贝尔实验室开发的一种用来进行数据探索.统

Python大数据处理模块Pandas

Python大数据处理模块Pandas [这篇转载自CSDNchengxuyuanyonghu的博客:http://blog.csdn.net/chengxuyuanyonghu/article/details/54956207] 目录读取数据索引选择数据简单运算 import pandas as pd read_csv to_csv 数据框操作一创建对象二查看数据三选择四缺失值处理

Python数据分析案例（实战）视频教程

Python数据分析班

第一课 Python入门知识点1:Python安装知识点2:常用数据分析库NumPy.Scipy.Pandas.matplotlib安装知识点3:常用高级数据分析库scikit-learn.NLTK安装知识点4:IPython的安装与使用知识点5:Python2与Python3区别简介实战项目:Python常用科学计算第二课准备数据与Numpy知识点1:多维数组对象知识点2:元素级别处理函数知识点3:利用数组进行数据处理知识点4:文件输入输出知识点5:线性代数相关功能以及线性代数基础知识知识点

Python数据分析基础与实践 Python数据分析实践课程 Python视频教程

课程简介: Python数据分析基础与实践 Python数据分析实践课程 Python视频教程----------------------课程目录------------------------------├<章节1Python概况>├<章节2Python安装>├<章节3数据准备>├<章节4数据处理>├<章节5数据可视化>├<章节6网页数据抓取>├<章节7连接MySQL>├<章节8数据分析> 下载地址:百度网盘

从Excel到Python——数据分析进阶指南 PDF 下载（高清版）PDF

从Excel到Python--数据分析进阶指南 PDF 下载(高清版)PDF百度网盘链接:https://pan.baidu.com/s/1cKksjlnOq6OLjUFJc3JHYA 提取码:3y05 复制这段内容后打开百度网盘手机App,操作更方便哦Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作.在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最