《利用Python进行数据分析》第4章学习笔记

NumPy基础:数组和矢量计算

NumPy的ndarray:一种多维数组对象

该对象是一个快速灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样

列表转换为数组

二维列表

数据类型

其他一些自动生成的数组

arange()

ndarray的数据类型

使用astype()方法转换类型,如果将浮点数转换成整数,则小数部分将会被截断,如果某个字符串数组全是数字,也可以用其转换为数值形式

数组和标量之间的运算

数组很重要,因为它使你不用编写循环即可对主句执行批量运算。这通常就叫做矢量化。大小相等的数组之间的任何算术运算都会将运算应用到元素级。

数组*数组就是相应位置每个数的乘积,数组也可以和标量进行加减乘除运算。

不同大小的数组之间的运算叫做广播。

基本的索引和切片

跟python中列表类似,数组切片是原始数组的视图。

arr[0][2]
arr[0,2]
这两个是相同的

布尔型索引

可以使用!=,-,或者&,|进行运算。

花式索引

指的是利用整数数组进行索引。

数组转置和轴对称

arr.T,

np.dot(arr.T,arr)计算内积

高位数组的转置不太明白

还有一个swapaxes方法,需要接受一个对轴编号。不太理解

通用函数:快速的元素级数组函数

利用数组进行数据处理

矢量化:用数组表达式代替循环的做法。

时间: 2024-12-29 01:42:07

《利用Python进行数据分析》第4章学习笔记的相关文章

利用python进行数据分析--(阅读笔记一)

以此记录阅读和学习<利用Python进行数据分析>这本书中的觉得重要的点! 第一章:准备工作 1.一组新闻文章可以被处理为一张词频表,这张词频表可以用于情感分析. 2.大多数软件是由两部分代码组成:少量需要占用大部分执行时间的代码,以及大量不经常执行的“粘合剂代码”. cython已经成为python领域中创建编译型扩展以及对接c/c++代码的一大途径. 3.在那些要求延迟性非常小的应用程序中(例如高频交易系统),为了尽最大可能地优化性能,耗费时间使用诸如C++这样更低级.更低生产率的语言进行

利用Python进行数据分析 第7章 数据清洗和准备

学习时间:2019/10/25 周五晚上22点半开始. 学习目标:Page188-Page217,共30页,目标6天学完,每天5页,预期1029学完. 实际反馈:X集中学习1.5小时,学习6页.实际XXX学完,耗时N天,M小时 数据准备工作:加载.清理.转换以及重塑,通常会占用分析师80%的时间或更多!!!学会高效的数据清洗和准备,将绝对提升生产力!本章将讨论处理缺失数据.重复数据.字符串操作和其他分析数据转换的工具.下一章将关注用多种方法合并.重塑数据集. 7.1 处理缺失数据 缺失数据在pa

利用Python进行数据分析 第6章 数据加载、存储与文件格式

学习时间:2019/10/20 周日下午17点开始.共23页,目标3天学完,每天8页,预期1021学完. 6.1 读写文本格式的数据 6.1.1 逐块读取文本文件 6.1.2 将数据写出到文本格式 6.1.3 处理分隔符格式 6.1.4 JSON数据 6.1.5 XML和HTML:Web信息收集 6.1.6 利用lxml.objectify解析XML 6.2 二进制数据格式 6.2.1 使用HDF5格式 6.2.2 读取Microsoft Excel文件 6.3 Web APIs交互 6.4 数

利用Python进行数据分析 第5章 pandas入门(2)

5.2 基本功能 (1)重新索引 - 方法reindex 方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引. 如,对下面的Series数据按新索引进行重排: 根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN: 利用reindex的method选项,实现插值处理.尤其对于时间序列这样的有序数据,会经常用到该选项. 如,使用 ffill 实现 前向值 填充: 利用DataFrame,reindex修改(行)索引和列.

利用Python进行数据分析 第4章 NumPy基础-数组与向量化计算(2)

2.3 NumPy数组的运算 数组,不需要编写循环即可对数据执行批量运算!NumPy用户称此特性为矢量化(vectorization). (1)大小相等的数组之间的任何算术运算都会将运算应用到元素级 (2)数组与标量的算术运算将标量值传播到各个元素 PS:**在python中表示幂运算,如,2**3表示2的3次方 (3)大小相同的数组之间的比较会生成布尔值数组 (不同大小的数组之间的运算叫广播,本书不需要多广播机制深入理解) 2.4 基本的索引和切片 数组与列表的重要区别在于:数组切片是原始数组

利用python进行数据分析-08-第六章 数据加载、存储与文件格式

1.读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数. 文件导入,使用read_csv将数据导入一个DataFrame df= pd.read_csv('B:/test/ch06/ex1.csv') df Out[142]: a b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 foo read_table,只不过需要制定分隔符 df = pd.read_table('B:/test/

利用Python进行数据分析 第5章 pandas入门

pandas库,含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具.pandas是基于NumPy数组构建. pandas常结合数值计算工具NumPy和SciPy.分析库statsmodels和scikitlearn,和可视化库matplotlib等工具一同使用. 5.1 pandas数据结构介绍 pandas的主要数据结构:Series和DataFrame (1)Series Series是一种类似于一维数组的对象,由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)

Python基础教程 第六章 学习笔记

收集函数 把实际参收集到元组和字典当中 1 def print_params(*params): 2 print(params) 3 """ 4 print_parasm(1,2,3) 5 output: (1,2,3) 6 """ 7 8 def print_params_2(**params): 9 print(params) 10 11 """ 12 print_params_2(x=1, y=2, z=3)

利用python进行数据分析——(一)库的学习

总结一下自己对python常用包:Numpy,Pandas,Matplotlib,Scipy,Scikit-learn 一. Numpy: 标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指 针.这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象.对于数值运算来说这种结构显然比较浪费内存和CPU计算时间. 此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和

PYTHON学习(三)之利用python进行数据分析(1)---准备工作

学习一门语言就是不断实践,python是目前用于数据分析最流行的语言,我最近买了本书<利用python进行数据分析>(Wes McKinney著),还去图书馆借了本<Python数据分析基础教程--NumPy学习指南>(第二版),准备将python数据分析工具的门给入了哈哈,闲话少说,直接切入正题. 首先<利用python进行数据分析>此书的译者强烈建议计算机环境的配置最好与书上的一致,所以我找了半天书上要求用的安装包 第一,安装32位的EPDFree(书上的版本就是3