第四十九篇 入门机器学习——数据归一化(Feature Scaling)

No.1. 数据归一化的目的

数据归一化的目的,就是将数据的所有特征都映射到同一尺度上,这样可以避免由于量纲的不同使数据的某些特征形成主导作用。

No.2. 数据归一化的方法

数据归一化的方法主要有两种:最值归一化和均值方差归一化。

最值归一化的计算公式如下:

最值归一化的特点是,可以将所有数据都映射到0-1之间,它适用于数据分布有明显边界的情况,容易受到异常值(outlier)的影响,异常值会造成数据的整体偏斜。

均值方差归一化的计算公式如下:

均值方差归一化的特点是,可以将数据归一化到均值为0方差为1的分布中,不容易受到异常值(outlier)影响。

No.3. 向量和矩阵的最值归一化

向量的最值归一化

矩阵的最值归一化

No.4. 向量和矩阵的均值方差归一化

向量的均值方差归一化

矩阵的均值方差归一化

No.5. sklearn中对数据集归一化的流程

No.6. 使用鸢尾花数据集进行数据归一化

No.7. 简单实现一个自己的StandardScaler类

No.8. 机器学习流程回顾:

首先我们需要将数据集分成训练数据集和测试数据集两部分;对于kNN这种算法,我们需要保证数据在同一尺度下,因此要进行数据的归一化,训练数据集通过一个Scaler进行数据的归一化;将归一化后的数据进行训练,训练过程中要使用网格搜索来寻找最好的超参数,训练后得到最终的模型;之后,对于测试数据集,需要使用相同的Scaler进行归一化,然后送进用训练数据集得到的模型,得到模型分类的准确度,这样就可以确定训练数据集得到的模型的优劣。

原文地址:https://www.cnblogs.com/xuezou/p/9332763.html

时间: 2024-10-08 00:11:09

第四十九篇 入门机器学习——数据归一化(Feature Scaling)的相关文章

小刘同学的第四十九篇博文

事实证明是每天坚持编程是特别困难的,看看自己昨天立下的flag真的..可能又是无法做到. 那个鼠标切换背景的代码可能就不去研究了,起码是今天不研究了. 今天是把鼠标拖动盒子的代码稍微对比了下,就暂时放在这儿吧,晚上要赶火车,必须要早点睡了. <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</t

无限互联奖学金文章连载北京总部四十九期胡梦川 第一篇

无限互联奖学金文章连载北京总部四十九期胡梦川 第一篇: 今天是来到无限互联的第四天,严格来说已经第六天了,刚来就是开班典礼,给人一种很好的氛围.老师讲了很多关于以后学习的技巧和规定,我的第一感觉是,比备战高考还要严格,不过这才能体现一个组织的负责任.正式开讲才感觉到这个班级的大神无处不在,不努力根本赶不上,就是这个学习氛围和高强度的练习很重要.多用心你才能感觉到有些事其实很简单.关于学习时间大家基本都是一天不动的在敲代码,等于给自己一个机会吧.时间飞逝,抓住机会才重要.刚来第一周,感受最深就是好

Python之路【第十九篇】:爬虫

Python之路[第十九篇]:爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. Requests Python标准库中提供了:urllib.urllib2.httplib等模块以供Http请求,但是,它的 API 太渣了.它是为另一个时代.另一个互联网所创建的.它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务. import

QT开发(四十九)——数据库用户接口层

QT开发(四十九)--数据库用户接口层 用户接口层主要包括Qt SQL模块中的QSqlQueryModel.QSqlTableModel.QSqlRelationalTableModel.用户接口层的类实现了将数据库中的数据链接到窗口部件上,是使用模型/视图框架实现的,是更高层次的抽象,即便不熟悉SQL也可以操作数据库.需要注意的是,在使用用户接口层的类之前必须先实例化QCoreApplication对象. QT中使用了自己的机制来避免使用SQL语句,提供了更简单的数据库操作及数据显示模型,分别

Python开发【第十九篇】:Python操作MySQL

Python开发[第十九篇]:Python操作MySQL 本篇对于Python操作MySQL主要使用两种方式: 原生模块 pymsql ORM框架 SQLAchemy pymsql pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同. 下载安装 ? 1 pip3 install pymysql 使用操作 1.执行SQL + ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

第十九篇:USB Audio/Video Class设备协议

在Spring 3 中,对表单提交的校验方式比较常见的有两种 (1)基于注解:对于简单的属性校验,例如,长度,非空等,可以使用Spring,或是Hibernate自带的校验注解 (2)自定义校验类:对于复杂的业务校验可以自定义校验类,该类继承自org.springframework.validation.Validator (3)前台JS校验 增加表单校验功能大概分一下几个步骤 定义校验规则 基于注解的验证 只需要在相关的实体字段上添加校验注解即可,下面的例子基于hibernate的校验标签 i

第四十九象 壬子

第四十九象 壬子 谶 曰山谷少人口 欲剿失其巢帝王称弟兄 纷粉是英豪 颂 曰一个或人口内啼分南分北分东西六爻占尽文明见棋布星罗日月济 金圣叹注解:久分必合,久合必分,理数然也,然有文明之象,当不如割据者之纷扰也. 推背图网解: 解图八把刀,显然八位能人各居一方.刀非指武力统治,下文有“文明”象,这里刀在八卦中表兑卦,兑为口,显然是通过舆论宣传法律.社会公德在治理各自的“行政区”. 解谶山谷少人口 欲剿失其巢——“谷”字少了人.口剩下“八”:“剿”少了巢剩下“刀”旁,暗示割据自治有八方.  帝王称

鲁迅散文——随感录四十九

随感录四十九 凡有高等动物,倘若没有遇着意外的变故,总是从幼到壮,从壮到老,从老到死. 我们从幼到壮,既然毫不为奇的过去了:自此以后,自然也该毫不为奇的过去. 可惜有一种人,从幼到壮,居然也毫不为奇的过去了:从壮到老,便有点古怪:从老到死,却更是奇想天开,要占尽了少年的道路,吸尽了少年的空气. 少年在这时候,只能先行萎黄,且待将来老了,神经血管一切变质以后,再来活动.所以社会上的状态,先是"少年老成":直待弯腰曲背时期,才更加"逸兴遄飞",似乎从此以后,才上了做人的

第四十九章

第四十九章1 圣人无心,将心比心 圣人恒无心,以百姓之心为心. 优秀的领导者自己的心是空的,把老百姓的心作为自己的心. 领导者要换位思考,想老板姓所想.要学会将心比心. 各位朋友大家好,今天我们接着来聊<道德经>. 不知道各位双十一过得怎么样?大家都买了很多东西吧?双十一那天我开玩笑,我发一个微博,我还在自己朋友圈里发了个微信,在我朋友圈说,双十一大酬宾了,我讲的<道德经>200多期,全部今天免费.我是搞笑,结果真有的网友留言,真的吗?太好了,我一看我晕了,我说我是开玩笑,他真的一