机器学习:样本去中心化目的

作者:Spark
链接:https://www.zhihu.com/question/37069477/answer/132387124
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。

  • 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
  • 计算过程由下式表示:
  • 下面解释一下为什么需要使用这些数据预处理步骤。

在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。

  • 简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
  • 下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。


其实,在不同的问题中,中心化和标准化有着不同的意义,

  • 比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
  • 另外,对于主成分分析(PCA)问题,也需要对数据进行中心化和标准化等预处理步骤。
时间: 2024-07-30 21:39:59

机器学习:样本去中心化目的的相关文章

区块链对人工智能的变革:去中心化将带来数据新范式

区块链对人工智能的变革:去中心化将带来数据新范式 2017-01-03 14:59:27  来源:网络大数据  CIO时代抢沙发 摘要:本文基于我个人在人工智能和区块链研究方面的经验,描述了区块链技术可以如何辅助人工智能.二者结合一处即发!区块链技术--尤其是行星尺度的--可以帮助实现人工智能和数据团体长期以来的一些梦想,并打开一些机会.关键词: 区块链 人工智能 近年,从围棋到人类水平的语音识别,人工智能(AI)研究者终于在他们几十年一直努力探索的领域取得了突破.取得突破进展的关键一点是研究者

谈互联网开放平台:“去中心化”大势所趋 zz

文/磐石之心 几天前与好友聊到众筹咖啡馆的事情,他向我讲述了一个非常具有特色的众筹咖啡馆案例.而这个案例也引发我对当前互联网开放.去中心和集权的一些思考,今天就简单写出来与大家分享. 一个无赚钱目的的众筹咖啡馆案例 众筹咖啡馆其实听起来并无新意,无非是有一个发起人,找一群人入股,然后通过咖啡馆进行营利,然后众筹者参与分成.而众筹项目的发起人是咖啡馆的最大股东,对咖啡馆具有所有权和经营权. 但是我今天要讲的众筹咖啡馆案例与普通的众筹案例完全不同.这个特色众筹咖啡馆项目是在北大毕业的人群中发起,这群

以太坊开发完整去中心化应用 —— 区块链投票系统

第一节 课程概述 本课程面向初学者,内容涵盖以太坊开发相关的基本概念,并将手把手地教大家如何构建一个 基于以太坊的完整去中心化应用 -- 区块链投票系统. ethereum logo 通过本课程的学习,你将掌握: 以太坊区块链的基本知识 开发和部署以太坊合约所需的软件环境 使用高级语言(solidity)编写以太坊合约 使用NodeJS编译.部署合约并与之交互 使用Truffle框架开发分布式应用 使用控制台或网页与合约进行交互 前序知识要求 为了顺利完成本课程,最好对以下技术已经有一些基本了解

一个轻客户端,多语言支持,去中心化,自动负载,可扩展的实时数据写服务的实现方案讨论

背景 背景是设计一个实时数据接入的模块,负责接收客户端的实时数据写入(如日志流,点击流),数据支持直接下沉到HBase上(后续提供HBase上的查询),或先持久化到Kafka里,方便后续进行一些计算和处理,再下沉到文件系统或做别的输出. 在设计中,对于客户端和服务端有这么些目标. 客户端需要支持多语言(Java,C++),做得尽量轻量级,只要连上服务端的ip:port,以RPC的形式调用简单的write就可以把数据写出去.客户端不承担任何逻辑的处理,服务端的负载均衡对客户端是透明的. 服务端想要

去中心化概念模型与架构设计

去中心化概念模型与架构设计 今天打算写写关于 IM 去中心化涉及的架构模型变化和设计思路,去中心化的概念就是说用户的访问不是集中在一个数据中心,这里的去中心是针对数据中心而言的. 站在这个角度而言,实际上并非所有的业务都能做去中心化设计,对于一致性要求越高的业务去中心化越难做.比如电商领域的库存就是一个对一致性要求很高的业务,不能超卖也不能少卖,这在单中心容易实现,但多中心纯从技术层面感觉无解,可能需要从业务和技术层面一起去做个折衷. 反过来看 IM 的业务场景是非常适合做去中心化设计的,因为其

从微商乱象 看去中心化的崩溃

最近微商圈子最热门的事,无疑是接二连三在多地以各种名义召开的微商大会.这些带有明显意味的各种秀,抛开产品本来的价值竞争不谈,把焦点聚光在依靠各种手法赚得盆满钵满的微商明星上.和电商平台相比,这种脱离平台约束,将流量.关系网归还用户的去中心社交状态让他们得到爆发式发展. 曾经何时,各种伪好友.夸产品.秀赚钱的信息内容充斥于整个朋友圈中.虽然管理者也出手试图阻止这种乱象的发生,但没有中心,却促成无数信息漩涡的生态,正在逐步走向它的崩溃边缘.  没有中心 导流超越服务成第一要素 "完整意义上的分布式架

我们开发了一个去中心化虚拟互联网,请评测。

经过40天的努力,新的去中化虚拟互联网DVPN,中文名字昆仑网发布了. 在这个网络中,网络中的基础架构最主要体现在如下几个版块: 1.实现P2P域名系统,域名可以无阻碍使用任何文字和后缀,域名实现和传统域名并用,不发生冲突,同一个网站,可以在两个网中同时运行.:(a.传统互联网上所有的域名都可以再注册一遍,也可以是单词,也可以是一句话:b.秒杀花生壳) 2.实现P2P远程代理功能.既我能上这个网,我邀请你,你能通过我上这个网:(这个是一个非常个性化的代理上网方式,比如你有亲人和朋友在国外,你就可

《区块链100问》第52集:区块链资产能去中心化记账

区块链资产的第三大特点是记账去中心化. 你给别人的转账,不会因为记账机构要放假,所以延迟几天到账:不会因为记账机构要盈利,所以要付很高手续费:更不会因为记账机构作弊,而受到损失. 因为它的记账是全网共同进行的.你给别人转账记录的账本,不会因为你这里或者对方那里的账本数据丢失,而无法统一,因为这个账本是全网共同维护,每个全节点都有备份.如果你转账0.5个币给火币牛牛,你们俩一起看全网的记录数据就好:有没有到账.几个确认了等等,十分透明公正. 原文地址:https://www.cnblogs.com

BLOCKCHAIN 区块链的去中心化P2P服务的JAVA代码的实现

为什么要用去中心化? 借贷关系证明举例 中心化借贷关系证明带来的问题: 机器挂了,公司倒闭了,被黑客黑了,借贷关系就不存在了 借贷关系涉及到个人隐私,中心化的机构会拿去做大数据分析.例如各大电子商务公司,会根据购物习惯,分析个人喜好,继而指导利益可图的商业行为,但这本身是侵犯隐私的. 去中心化可以解决上述的问题: 去中心化的一个节点挂了,对数据丢失影响很小,节点越多,黑客越难攻击. 使用复杂的密码学,保证隐私 区块链中的P2P概念 P2P(Peer to Peer)对等计算机或对等网络,一种计算