利用Python进行数据分析 第6章 数据加载、存储与文件格式

学习时间:2019/10/20 周日下午17点开始。共23页,目标3天学完,每天8页,预期1021学完。

6.1 读写文本格式的数据

6.1.1 逐块读取文本文件

6.1.2 将数据写出到文本格式

6.1.3 处理分隔符格式

6.1.4 JSON数据

6.1.5 XML和HTML:Web信息收集

6.1.6 利用lxml.objectify解析XML

6.2 二进制数据格式

6.2.1 使用HDF5格式

6.2.2 读取Microsoft Excel文件

6.3 Web APIs交互

6.4 数据库交互

6.5 总结

访问数据通常是数据分析的第一步。本章已经介绍学习了一些有用的工具,接下来的章节中,将深入研究数据规整、数据可视化、时间序列分析和其他主题。

原文地址:https://www.cnblogs.com/ElonJiang/p/11708163.html

时间: 2024-11-05 16:09:29

利用Python进行数据分析 第6章 数据加载、存储与文件格式的相关文章

利用python进行数据分析-08-第六章 数据加载、存储与文件格式

1.读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数. 文件导入,使用read_csv将数据导入一个DataFrame df= pd.read_csv('B:/test/ch06/ex1.csv') df Out[142]: a b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 foo read_table,只不过需要制定分隔符 df = pd.read_table('B:/test/

《利用python进行数据分析》读书笔记--数据加载、存储与文件格式

输入输出一般分为下面几类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据.利用Web API操作网络资源. 1.读写文本格式的数据 自己感觉读写文件有时候"需要运气",经常需要手工调整.因为其简单的文件交互语法.直观的数据结构,以及诸如元组打包解包之类的便利功能,Python在文本和文件处理方面已经成为一门招人喜欢的语言.pandas提供了一些用于将表格型数据读取为DataFrame对象的函数.见下表: 下面大致介绍一下这些函数在文本数据转换为DataFrame时的一些技术

数据加载存储和文件格式

原文地址: https://github.com/AsuraDong/Blog/blob/master/Articles/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E6%95%B0%E6%8D%AE%E5%8A%A0%E8%BD%BD%E5%AD%98%E5%82%A8%E5%92%8C%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F.md 1.读取文本格式数据 import pandas as pd import numpy as np

利用Python进行数据分析 第7章 数据清洗和准备

学习时间:2019/10/25 周五晚上22点半开始. 学习目标:Page188-Page217,共30页,目标6天学完,每天5页,预期1029学完. 实际反馈:X集中学习1.5小时,学习6页.实际XXX学完,耗时N天,M小时 数据准备工作:加载.清理.转换以及重塑,通常会占用分析师80%的时间或更多!!!学会高效的数据清洗和准备,将绝对提升生产力!本章将讨论处理缺失数据.重复数据.字符串操作和其他分析数据转换的工具.下一章将关注用多种方法合并.重塑数据集. 7.1 处理缺失数据 缺失数据在pa

利用Python进行数据分析 第5章 pandas入门(2)

5.2 基本功能 (1)重新索引 - 方法reindex 方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引. 如,对下面的Series数据按新索引进行重排: 根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN: 利用reindex的method选项,实现插值处理.尤其对于时间序列这样的有序数据,会经常用到该选项. 如,使用 ffill 实现 前向值 填充: 利用DataFrame,reindex修改(行)索引和列.

利用Python进行数据分析 第4章 NumPy基础-数组与向量化计算(2)

2.3 NumPy数组的运算 数组,不需要编写循环即可对数据执行批量运算!NumPy用户称此特性为矢量化(vectorization). (1)大小相等的数组之间的任何算术运算都会将运算应用到元素级 (2)数组与标量的算术运算将标量值传播到各个元素 PS:**在python中表示幂运算,如,2**3表示2的3次方 (3)大小相同的数组之间的比较会生成布尔值数组 (不同大小的数组之间的运算叫广播,本书不需要多广播机制深入理解) 2.4 基本的索引和切片 数组与列表的重要区别在于:数组切片是原始数组

利用Python进行数据分析 第5章 pandas入门

pandas库,含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具.pandas是基于NumPy数组构建. pandas常结合数值计算工具NumPy和SciPy.分析库statsmodels和scikitlearn,和可视化库matplotlib等工具一同使用. 5.1 pandas数据结构介绍 pandas的主要数据结构:Series和DataFrame (1)Series Series是一种类似于一维数组的对象,由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)

《利用Python进行数据分析》.(Wes McKinney).[PDF].pdf

下载地址:网盘下载 内容简介  · · · · · · [名人推荐] "科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法.本书在未来几年里肯定会成为Python领域中技术计算的权威指南." --Fernando Pérez 加州大学伯克利分校 研究科学家, IPython的创始人之一 [内容简介] 还在苦苦寻觅用python控制.处理.整理.分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy.pan

《利用Python进行数据分析》(Wes McKinney).pdf高清版免费下载

下载地址:网盘下载 备用地址:网盘下载 内容简介  · · · · · ·[名人推荐] “科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法.本书在未来几年里肯定会成为Python领域中技术计算的权威指南.” ——Fernando Pérez 加州大学伯克利分校 研究科学家, IPython的创始人之一 [内容简介] 还在苦苦寻觅用Python控制.处理.整理.分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy