深入了解机器学习

深入了解机器学习

https://www.jianshu.com/p/2fafcdebf915

摘要: 了解机器学习发展史、机器学习是什么?机器学习有什么?看看本文就够了。

如今机器学习已经成为了这个时代的热门话题。机器学习已经存在了几十年,但直到最近我们才得以利用这项技术。

接下来,让我们一起回顾一下机器学习的发展历史:

 

它是怎么运行的呢?

机器学习(ML)的处理系统和算法主要通过在数据和通过找出数据里隐藏的模式进而做出预测的识别模式。这里值得一提的是,机器学习属于人工智能(AI)领域,而人工智能又与更广泛的数据挖掘和知识发现领域相交叉。

 

 

机器学习(ML)其他用法的例子:

机器学习还可以用于下列内容:

·医疗保健:识别高危客户;优化诊断准确性;改进健康计划成本。

·社会:预测广告活动效果;预测消费者情绪或其反馈。

·航空:预测火箭发动机爆炸;预测试点能力;预测航线。

还有其他一些行业也希望通过利用这种技术来获得商业价值。事实上,根据普华永道2017年全球数字智商调查,54%的机构正在大量投资人工智能和机器学习。

 

它是如何完成的呢?

机器学习任务分为三类。

1. 监督ML:

大多数情况下,机器学习依赖于被标记为真或假的数据。

示例:教计算机学会根据人类完成的交易标签来识别潜在的欺诈性或非欺诈性交易,以确保获得高质量的数据。了解到欺诈性交易与非欺诈性交易之间的差异后,ML会自动对新交易数据进行分类以获得潜在的欺诈性活动。

2. 未受监督的ML:

与监督学习依赖于标签有所不同,该种类型的算法需要对象的各个方面提供大量的数据。

示例:在欺诈发生的情况下,提供欺诈者的各种属性以及一些交易价值,根据交易的固有特征和描述特征,无监督ML可以将交易分为两个不同的组。

3. 强化学习的ML:

示例:学习玩流行的棋盘游戏奥赛罗,ML会收到关于玩家是赢还是输的信息。该程序没有将数据库中的所有的动作都标记为赢了或输了,但却能知道整个游戏的最终结果。然后,ML可以进行多种游戏,每次都重视那些导致获胜组合的动作。

 

一些流行的方法:

ML中采用了多种学习方法,下面将为大家介绍一些最为常见的方法。

 

决策树学习:

一个预测模型,通过映射关于项目的观察结果,得出结论;使用决策节点的层次结构,当逐步回答时,可以将交易分类为欺诈或非欺诈。

 

回归学习:

回归学习是最重要和广泛使用的机器学习和统计工具之一。它能够通过学习依赖变量和预测变量之间的关系做出数据预测。

 

朴素贝叶斯学习:

这是一个概率图形模型,表示一组随机变量及其条件独立性;例如,欺诈者与交易金额,年龄,行为等之间的概率关系。

 

神经网络学习:

神经网络学习由多个隐藏层组成,模仿人脑的行为。深度学习包括多个一个接一个的神经网络。

 

 

使用机器学习打击金融诈骗:

由于金融诈骗给企业带了很大的信誉损失和财务破坏,引起了全球很多方面的关注。每年都有数百万的家庭遭受金融诈骗,经济损失达数亿美元。

曾经,有一家金融界被称为佼佼者的机构同意支付165亿美元来解决金融诈骗案。考虑到所有这些情况,将数据挖掘工具和技术用于检测可能的欺诈活动或事件变得很重要。

在研究可帮助我们识别欺诈活动的数据挖掘技术之前,首先根据2016年普华永道经济犯罪调查来查看欺诈行为。

 

 

排名前三的风险预测算法和案例:

三大风险预测算法和案例如下:

·分类方法:用于生成可能的值(即true,false,yes,no,o,1等)。这种机器学习技术可以根据各种预测变量来分类特定债务会变成“好”还是“坏”。

 

·神经网络:在包含神经元和具有输入、输出和隐藏层节点的大型数据集上显示更好的结果。这种方法通常用于使用各种人口学,年龄和其他变量作为输入来执行信用评级预测。

 

·随机决策森林:分类的集合学习方法。他们在培训和输出种类时(即分类模式)构建了许多决策树。这被广泛用于执行信用风险预测。

Beneish M-Score是另一个在财务报表欺诈领域受欢迎的新兴数学模型。该模型使用财务比率和八个变量来确定一个组织是否操纵了其收入。这些变量是根据公司财务报表中的数据构建的,一旦计算出来,就会创建一个M-Score来描述盈余被操纵的程度。请注意,作为概率模型,它不会识别100%准确度的操纵器。

 

结论:

机器学习的好处主要是:

·通过快速集成进行数据驱动的决策:机器学习利用各种数据,帮助企业根据最新的数据模式不断升级其策略。

·加速洞察力:机器学习能够加快识别相关数据的速度使得利益相关者能够及时行动。例如,机器学习可以不断优化客户的下一个最佳报价,因此客户在中午可能看到的内容可能与同一个客户在晚上看到的内容不同。

·风险规避:机器学习给企业提供了防止诈骗者陷入困境并减轻潜在货币和监管复杂化的能力。

本文由阿里云云栖社区组织翻译。

文章原标题《Deep Dive Into Machine Learning》

作者:Sunil Kappal

译者:乌拉乌拉,审校:袁虎。

原文地址:https://www.cnblogs.com/DicksonJYL/p/9582354.html

时间: 2024-10-09 09:13:39

深入了解机器学习的相关文章

机器学习—逻辑回归理论简介

下面是转载的内容,主要是介绍逻辑回归的理论知识,先总结一下自己看完的心得 简单来说线性回归就是直接将特征值和其对应的概率进行相乘得到一个结果,逻辑回归则是这样的结果上加上一个逻辑函数 这里选用的就是Sigmoid函数,在坐标尺度很大的情况下类似于阶跃函数 在确认特征对应的权重值也就是回归系数的时候 最常用的方法是最大似然法,EM参数估计,这个是在一阶导数能够有解的前提下 如果一阶导数无法求得解析值,那么一般选取梯度上升法,通过有限次的迭代过程,结合代价函数更新回归系数至收敛 //////////

【机器学习实战】Machine Learning in Action 代码 视频 项目案例

MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网) 视频每周更新:如果你觉得有价值,请帮忙点 Star[后续组织学习活动:sklearn + tensorflow] ApacheCN - 学习机器学习群[629470233] 第一部分 分类 1.) 机器学习基础 2.) k-近邻算法 3.) 决策树 4.) 基于概率论的分类方法:朴素

机器学习 一 监督学习和无监督学习的区别

前话: 最近一直想学机器学习的东西,无奈自己的书太多但无法专心看一本,纯理论的东西看了感觉不记下来就忘记类,所以我想理论学习和实践一起. 所以最近想把机器学习实战这本书看完,并做好记录.加油.!~ 一:什么是监督学习? 监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力.

R语言使用机器学习算法预测股票市场

quantmod 介绍 quantmod 是一个非常强大的金融分析报, 包含数据抓取,清洗,建模等等功能. 1. 获取数据 getSymbols 默认是数据源是yahoo 获取上交所股票为 getSymbols("600030.ss"), 深交所为 getSymbols("000002.sz").  ss表示上交所, sz表示深交所 2. 重命名函数 setSymbolLookup 3. 股息函数 getDividends 4. 除息调整函数 adjustOHLC

一次失败的却又成功的尝试机器学习经历

一遍看书一遍运行着书中提供的代码,我学习到K-NN分类算法.于是晚上找到一串数据进行尝试. 数据来自于网络1401班C语言教学平台里的数据 首先我对数据进行了简单的处理得到以下结果.这里的分类是对学生的期末考试分数(总评分)和省二级分数综合评定的 最后真正被使用的是txt格式的文件 然后使用了python读取TXT文件,用matplotlib库对数据画图 讲道理确实看不出来有什么规律,大概就是做题少的同学最后至少有一次考试不及格. 然后对数据的随堂测试.自由练习次数进行归一化处理,使用kNN模型

深度学习(deeplearing)(5月完成)共三部分 第一部分应用数学与机器学习(5.1-5.10)线性代数

第一章:线性代数: 学习一个新东西,首先要从概念开始,抓住其核心点 机器学习相关问题中,数据集多是以矩阵的形式存在,而模型的参数如W也是以矩阵或向量的形式存在,所以一个模型从数学的角度来说,就是矩阵间的运算,而运算中矩阵相乘的运算又是最常用的运算.本章后半部分讲解了在机器学习中会用到的一些矩阵运算的概念,如范数.行列式. 特征分解.奇异值分解等 一.基本单元:标量.向量.矩阵.张量 二.

TensorFlow【机器学习】:如何正确的掌握Google深度学习框架TensorFlow(第二代分布式机器学习系统)?

本文标签:   机器学习 TensorFlow Google深度学习框架 分布式机器学习 唐源 VGG REST   服务器 自 2015 年底开源到如今更快.更灵活.更方便的 1.0 版本正式发布,由 Google 推出的第二代分布式机器学习系统 TensorFlow一直在为我们带来惊喜,一方面是技术层面持续的迭代演进,从分布式版本.服务框架 TensorFlow Serving.上层封装 TF.Learn 到 Windows 支持.JIT 编译器 XLA.动态计算图框架 Fold 等,以及

机器学习进阶笔记之一 | TensorFlow安装与入门

原文链接:https://zhuanlan.zhihu.com/p/22410917 TensorFlow 是 Google 基于 DistBelief 进行研发的第二代人工智能学习系统,被广泛用于语音识别或图像识别等多项机器深度学习领域.其命名来源于本身的运行原理.Tensor(张量)意味着 N 维数组,Flow(流)意味着基于数据流图的计算,TensorFlow 代表着张量从图象的一端流动到另一端计算过程,是将复杂的数据结构传输至人工智能神经网中进行分析和处理的过程. -- 由 UCloud

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的. 模型组合(比如

机器学习——概率图模型(CPD)

CPD是conditional probability distribution的缩写,翻译成中文叫做 条件概率分布.在概率图中,条件概率分布是一个非常重要的概念.因为概率图研究的是随机变量之间的练习,练习就是条件,条件就要求条件概率. 对于简单的条件概率而言,我们可以用一个条件概率表来表达.如图1所示.图1 中表达的是p(g|i,d).幸运的是id都只有两个取值,是一个伯努利分布的函数.但是如果i d 有六个取值呢?比如骰子.那么这张表就会猛然增加到6^2那么长.这是不科学的.并且,常规情况下