Python大数据与机器学习之NumPy初体验

本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库。

通过本文系列文章您将能够学到的知识如下:

  • 应用Python进行大数据与机器学习
  • 应用Spark进行大数据分析
  • 实现机器学习算法
  • 学习使用NumPy库处理数值数据
  • 学习使用Pandas库进行数据分析
  • 学习使用Matplotlib库进行Python绘图
  • 学习使用Seaborn库进行统计绘图
  • 使用Plotly库进行动态可视化
  • 使用SciKit-learn处理机器学习任务
  • K-Means聚类
  • 逻辑回归
  • 线性回归
  • 随机森林与决策树
  • 自然语言处理与垃圾邮件过滤
  • 神经网络
  • 支持向量机

另外小编也会拥抱变化,根据评论中的需求情况增加其它有意义的内容。例如增加一些相关面试题等等。

什么是NumPy

NumPy是非常重要的Python数值计算扩展库,基本整个Python大数据生态都依赖它,并且由于绑定了C语言库,因此速度非常快。可以说我们要学好Python大数据,必须要学的就是NumPy库了。

安装NumPy

如果你根据之前的文章安装了anaconda,那么你已经默认安装了NumPy库了。如想单独安装请继续往下看。

使用conda安装的命令:

conda install numpy

使用pip安装的命令:

pip install numpy

NumPy array

本系列文章主要用到的是numpy的array(数组);

numpy array有两种基本形式:vector(向量)和matrics(矩阵)

vector是一维的,而matrics是二维的。

打开Jupyter,输入如下内容:

import numpy as np

my_list = [1,2,3]

arr = np.array(my_list)

arr

运行得到如下结果:

以上就是vector的一般形式

继续输入如下内容:

my_mat = [[1,2,3],[4,5,6],[7,8,9]]

np.array(my_mat)

运行得到如下结果:

以上就是二维matrics矩阵。

numpy有自己的range函数

np.arange(0,10)

运行结果如下:

还可以指定步长np.arange(0,10,2)

运行结果如下:

生成所有元素为0的向量np.zeros(3)

运行结果如下:

生成所有元素为0的矩阵np.zeros((5,5))

运行结果如下:

同样生成所有元素为1的向量和矩阵分表为np.ones(4),np.ones((2,3))

运行结果如下:

np.linspace(0,5,20)

第一个参数是起始点,第二个参数是结束点,第三个参数是从起点到终点距离分成多少份。

运行结果如下:

np.eye(4)生成4*4的主对角线为1的矩阵

运行结果如下:

np.random.rand(5)生成随机向量

运行结果如下:

np.random.rand(5,5)生成5*5的随机向量

运行结果如下:

np.random.randn(2)生成标准正态分布曲线。

运行结果如下:

np.random.randn(4,4)二维的标准正态分布曲线

运行结果如下:

提示:

在Jupyter输入框中按tab键可以提示联想菜单,按shift+tab可以提示函数用法

按tab键

按shift+tab键

np.random.randint(1,100)生成1个1到100之间的随机整数,不包含100

运行结果如下:

np.random.randint(1,100,10)生成10个1到100之间的随机整数,不包含100

运行结果如下:

array类型支持的一些函数:

reshape函数可以修改array的维数。例如:

arr = np.arange(25)

arr.reshape(5,5)

运行结果如下:

max函数:最大值

min函数:最小值

argmax函数:返回最大值的索引

argmin函数:返回最小值的索引

ranarr = np.random.randint(1,100,10)

ranarr.max()

ranarr.min()

ranarr.argmax()

ranarr.argmin()

运行结果如下:

shape函数,返回array的大小

dtype,返回数据类型

调用简化:

from numpy.random import randint

我们就可以直接使用randint了

randint(2,10)

运行结果如下:

原文地址:https://www.cnblogs.com/cuiyubo/p/8979518.html

时间: 2024-08-03 21:27:43

Python大数据与机器学习之NumPy初体验的相关文章

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴. 同时还要大数据学习群:784557197 实战练习 在Jupyter Notebook上执行以下代码: import pandas as pd df = pd.Data

Spark2.x+Python大数据机器学习视频课程

Spark2.x+Python大数据机器学习视频课程下载地址:https://pan.baidu.com/s/1imjFFStyjbRqyMtnboPgpQ 提取码: 32pb 本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案. 第一章.搭建Spark 2.x+Python开发环境及基本开发入门 1.快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接2.快速环境搭建:Windo

Spark2.x+Python大数据机器学习实战视频教程

提取码:6o68 课程学习:https://pan.baidu.com/s/13kOswCBRsnXBJWsPGBZDqQ 机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测.机器学习技术不断进步,应用相当广泛,例如推荐引擎.定向广告.需求预测.垃圾邮件过滤.医学诊断.自然语言处理.搜索引擎.诈骗侦测.证券分析.视觉辨识.语音识别.手写识别等. 为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练.大数据的兴起带来

小草说----大数据和机器学习为什么这样火

小草说--大数据和机器学习为什么这样火 标签(空格分隔): SPARK机器学习 欢迎关注小小草的微信号:大数据机器学习.日后不定期分享大数据,机器学习的学习资料与博文,希望与大家共同学习进步~ 很多年前,当我还在应付着微分方程,条件概率,用问卷星写抽样调查报告在QQ群发求填,对着30多条就被称为大样本的数据做检验和回归的时候,"大数据"的概念已经如火如荼地在微博圈和朋友圈里圈圈相传了. 但是到底大数据是什么,和我们生活有什么关系,企业是怎么"大数据"的,它到底在星星

大数据与机器学习的一些博文整理

Spark VS MapReduce 时间节约66%,计算节约40% http://mp.weixin.qq.com/s?__biz=MzA3MjY1MTQwNQ==&mid=200820787&idx=1&sn=638a4b16445a5ee7a184b7a9becf4d5d&scene=2&from=timeline&isappinstalled=0#rd 数据挖掘十大算法总结--核心思想,算法优缺点,应用领域 http://mp.weixin.qq.c

《大数据与机器学习》读书思考

这是一本纯技术类的工具书,里边有许多好的思想与方法供实际工作者使用.对于我这种只会R编程的人来说.读起来是有些吃力!不过随着大数据知识架构的逐步完善,相信这本书会在未来体现出它的价值来. 第一部分  平台篇 实际上,这一部分是讲到了大数据的一些基本概念,以及数据挖掘及实时分析的一般流程.读完这一部分,相当于你在大数据领域可以扫盲了.但是要对里边组件有一个深入理解,就需要你在工作上对它们有常规应用. 这一部分,也是自己总结最多的地方.可能是怕自己大数据掌握的还不是很熟悉的原因吧!总想把架构这一块能

H2O是开源基于大数据的机器学习库包

H2O是开源基于大数据的机器学习库包 H2O能够让Hadoop做数学,H2O是基于大数据的 统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口,使的BigData爱好者和专家可以利用一系列简单的先进算法对数据集进行探索,建模和评估.数据收集是很容易,但是决 策是很难的. H2O使得能用更快更好的预测模型源实现快速和方便地数据的挖掘. H2O愿意将在线评分和建模融合在一个单一平台上. H2O提供了机器学习的培训手册供学习:H2O训练

《零起点Python大数据与量化交易》中文PDF+源代码

下载:https://pan.baidu.com/s/1JWmwMFHZV0mYAyAl-HkPyw 更多资料:http://blog.51cto.com/3215120 <零起点Python大数据与量化交易>中文PDF+源代码中文PDF,带目录和书签,655页,文字可以复制粘贴.配套源代码. 本书是国内关于Python大数据与量化交易的原创图书. 如图: 原文地址:http://blog.51cto.com/4820691/2311108

分享《白话大数据与机器学习》PDF+《图解机器学习》PDF

下载:https://pan.baidu.com/s/1Ut4iePZzQjBw7WANBNfLnQ 更多资料分享:http://blog.51cto.com/3215120 <白话大数据与机器学习>PDF+<图解机器学习>PDF<白话大数据与机器学习>PDF,345页,带目录和书签<图解机器学习>PDF,242页,带目录和书签如图所示: 原文地址:http://blog.51cto.com/3215120/2313180