数据分析(3) Pandas数据读取

  通过Pandas提供的read_xxx相关的函数可以读取文件中的数据,并形成DataFrame,常用的数据读取方法为:read_csv( )和read_excel( ),主要可以读取文本类型的数据。

1 读取格式

  pd.read_csv ( filepath, encoding, sep, header, names, usecols, index_col, skiprows, nrows……)

(1)filepath:文件存储路径,可以用r‘ ‘进行非转义限定,路径最好是纯英文(文件名也是),不然会经常碰到编码不对问题,最方便是直接将文件存储在Pandas默认的路径下,则直接输入文件名即可

  (2)encoding:pandas默认编码是utf-8,如果同样读取默认uft-8的txt或者json格式,则可以忽略这个参数,如果是CSV,且数据中有中文时,则要指定encoding=‘gbk‘

  (3)sep:指定分割符形式,CSV默认逗号分割,可以忽略这个参数,如果是其它分割方式,则要填写。默认为单字符,若为双字符分割,需要增加参数engine=‘python‘

import pandas as pd
df1 = pd.read_csv(‘test1.txt‘)
df2 = pd.read_csv(‘test2.txt‘, sep=‘;‘)
df3 = pd.read_csv(‘test3.txt‘, sep=‘::‘, engine=‘python‘)
print(‘===== 逗号分割 =====\n‘, df1)
print(‘===== 分号分割 =====\n‘, df2)
print(‘===== 双冒号分割 =====\n‘, df3)
# ===== 逗号分割 =====
#      name  age  scores
# 0  gerry   18    98.5
# 1    tom   21    78.2
# 2   lili   24    98.5
# 3   john   20    89.2
# ===== 分号分割 =====
#      name  age  scores
# 0  gerry   18    98.5
# 1    tom   21    78.2
# 2   lili   24    98.5
# 3   john   20    89.2
# ===== 双冒号分割 =====
#      name  age  scores
# 0  gerry   18    98.5
# 1    tom   21    78.2
# 2   lili   24    98.5
# 3   john   20    89.2

  (4)header:指定第一行是否是列名,通常有三种用法:忽略或header=0(表示数据第一行为列名),header=None(表明数据没有列名),常与names搭配使用

  (5)names:指定列名,通常用一个字符串列表表示,当header=0时,用names可以替换掉数据中的第一行作为列名,如果header=None,用names可以增加一行作为列名,如果没有header参数时,用names会增加一行作为列名,原数据的第一行仍然保留

df4 = pd.read_csv(‘test2.txt‘, sep=‘;‘, header=None)
df5 = pd.read_csv(‘test2.txt‘, sep=‘;‘, header=None, names=[‘A‘, ‘B‘, ‘C‘])
print(‘===== 默认列名保留第一行 =====\n‘, df4)
print(‘===== 指定列名保留第一行 =====\n‘, df5)
# ===== 默认列名保留第一行 =====
#         0    1       2
# 0   name  age  scores
# 1  gerry   18    98.5
# 2    tom   21    78.2
# 3   lili   24    98.5
# 4   john   20    89.2
# ===== 指定列名保留第一行 =====
#         A    B       C
# 0   name  age  scores
# 1  gerry   18    98.5
# 2    tom   21    78.2
# 3   lili   24    98.5
# 4   john   20    89.2

  (6)usecols:一个字符串列表,可以指定读取的列名

  (7)index_col:一个字符串列表,指定哪几列作为索引

  (8)skiprows:跳过多少行再读取数据,通常是数据不太干净,需要去除掉表头才会用到

  (9)nrows:仅读取多少行,后面的处理也都仅限于读取的这些行

2 写入格式

  DataFrame.to_csv(‘filename‘)

【其他数据格式持续补充......】

原文地址:https://www.cnblogs.com/wisefaith/p/12293321.html

时间: 2024-10-07 16:21:10

数据分析(3) Pandas数据读取的相关文章

数据分析与展示——Pandas数据特征分析

Pandas数据特征分析 数据的排序 将一组数据通过摘要(有损地提取数据特征的过程)的方式,可以获得基本统计(含排序).分布/累计统计.数据特征(相关性.周期性等).数据挖掘(形成知识). .sort_index()方法在指定轴上根据索引进行排序,默认升序 .sort_index(axis=0, ascending=True) In [1]: import pandas as pd In [2]: import numpy as np In [3]: b = pd.DataFrame(np.ar

pandas小记:pandas数据规整化

http://blog.csdn.net/pipisorry/article/details/39506169 数据分析和建模方面的大量编程工作都是用在数据准备上的:加载.清理.转换以及重 塑.有时候,存放在文件或数据库中的数据并不能满足数据处理应用的要求. pandas和Python标准库提供了一组高级的.灵活的.高效的核心函数和算法,它们能够轻松地将数据规整化为正确的形式. 数据正则化data normalization pandas.dataframe每行都减去行平均值 use DataF

pandas小记:pandas数据输入输出

http://blog.csdn.net/pipisorry/article/details/52208727 数据输入输出 数据pickling pandas数据pickling比保存和读取csv文件要快2-3倍(lz测试不准,差不多这么多). ltu_df.to_pickle(os.path.join(CWD, 'middlewares/ltu_df')) ltu_df = pd.read_pickle(os.path.join(CWD, 'middlewares/ltu_df')) [re

[数据分析工具] Pandas 功能介绍(二)

条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某列进行排序 “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表 ascending 默认值是 True 列中的每行上的 apply 函数 在前一篇的增加列的部分,根据风速计算人体感觉是否舒适,为了功能的演示,在这里使用 DataFrame 的 apply 方法

python数据分析实战-第9章-数据分析实例气象数据

第9章 数据分析实例--气象数据 2309.1 待检验的假设:靠海对气候的影响 2309.2 数据源 2339.3 用IPython Notebook做数据分析 2349.4 风向频率玫瑰图 2469.5 小结 251 123 import numpy as npimport pandas as pdimport datetime 1 ferrara = pd.read_json('http://api.openweathermap.org/data/2.5/history/city?q=Fer

第四节 pandas 数据加载

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中read_csv和read_table这两个使用最多. #导包import pandas as pd from pandas import DataFrame,Series import numpy as np 一 文件操作 1.1  读取文件 文件数据 读取代码 df = pd.read_csv('./data-07/type-.txt',sep='-',header=None) # sep:分隔符 # header

Spark学习之数据读取与保存总结(二)

8.Hadoop输入输出格式 除了 Spark 封装的格式之外,也可以与任何 Hadoop 支持的格式交互.Spark 支持新旧两套Hadoop 文件 API,提供了很大的灵活性. 要使用新版的 Hadoop API 读入一个文件,需要告诉 Spark 一些东西. newAPIHadoopFile接收一个路径以及三个类.第一个类是“格式”类,代表输入格式.相似的函数hadoopFile() 则用于使用旧的 API 实现的 Hadoop 输入格式.第二个类是键的类,最后一个类是值的类.如果需要设定

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + Spark Core 实例练习

第1章 RDD 概念1.1 RDD 为什么会产生1.2 RDD 概述1.2.1 什么是 RDD1.2.2 RDD 的属性1.3 RDD 弹性1.4 RDD 特点1.4.1 分区1.4.2 只读1.4.3 依赖1.4.4 缓存1.4.5 CheckPoint第2章 RDD 编程2.1 RDD 编程模型2.2 RDD 创建2.2.1 由一个已经存在的 Scala 集合创建,即集合并行化(测试用)2.2.2 由外部存储系统的数据集创建(开发用)2.3 RDD 编程2.3.1 Transformatio

数据分析 --- 02.Pandas

一.Series 对象(一维数组) Series是一种类似与一维数组的对象,由下面两个部分组成: values:一组数据(ndarray类型) index:相关的数据索引标签 1.创建 # 导入模块 from pandas import Series,DataFrame import pandas as pd import numpy as np ①使用列表创建 #使用列表创建Series #默认索引 Series(data=[1,2,3]) #指定索引 Series(data=[1,2,3],