机器学习介绍及基本概念

什么是机器学习?

机器学习技术的存在,使得人们可以享受强大的垃圾邮件过滤带来的便利,拥有方便的文字和语音识别软件,能够使用可靠的网络搜索引擎,同时在象棋的网络游戏对阵中棋逢对手,而且在可见的将来,我们将拥有安全高效的无人驾驶汽车。

分类:

  监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)。

监督学习:

  监督学习的主要目的是使用有类标的训练(training)数据构建模型,我们可以使用经训练得到的模型对未来数据进行预测。此处,术语监督(supervised)是指训练数据集中的每个样本均有一个已知的输出项(类标(label))。

  分为:分类和回归

分类

  示例:检测垃圾邮件的例子是一个典型的二类别分类,此外还包含多分类(多标签)、多输出多分类

  算法:

    1.逻辑斯谛回归logistic 

    2.SVM

    3.决策树和随机森林

    4.朴素贝叶斯

     5.KNN

    6.神经网络

回归

  针对连续型输出变量进行预测,也就是所谓的回归分析

  例如,假定我们想预测学生SAT考试中数学科目的成绩。如果花费在学习上的时间和最终的考试成绩有关联,则可以将其作为训练数据来训练模型,以根据学习时间预测将来要参加考试的学生的成绩。

  算法:

    1.最小二乘

    

无监督学习:

  将处理无类标数据或者是总体分布趋势不明朗的数据。通过无监督学习,我们可以在没有已知输出变量和反馈函数指导的情况下提取有效信息来探索数据的整体结构。

  算法:

    1.聚类:

      聚类是一种探索性数据分析技术。在没有任何相关先验信息的情况下,它可以帮助我们将数据划分为有意义的小的组别(即簇(cluster))。对数据进行分析时,生成的每个簇中其内部成员之间具有一定的相似度,而与其他簇中的成员则具有较大的

      不同,这也是为什么聚类有时被称为“无监督分类”。聚类是获取数据的结构信息,以及导出数据间有价值的关系的一种很好的技术,例如,它使得市场人员可以基于用户的兴趣将其分为不同的类别,以分别制定相应的市场营销计划。

    2.数据压缩中的降维

      数据降维(dimensionality reduction)是无监督学习的另一个子领域。通常,我们面对的数据都是高维的(每一次采样都会获取大量的样本值),这就对有限的数据存储空间以及机器学习算法性能提出了挑战。

      无监督降维是数据特征预处理时常用的技术,用于清除数据中的噪声,它能够在最大程度保留相关信息的情况下将数据压缩到一个维度较小的子空间,但同时也可能会降低某些算法在准确性方面的性能。

强化学习:

  强化学习的目标是构建一个系统(Agent),在与环境(environment)交互的过程中提高系统的性能。

  环境的当前状态信息中通常包含一个反馈(reward)信号,我们可以将强化学习视为与监督学习相关的一个领域。然而,在强化学习中,这个反馈值不是一个确定的类标或者连续类型的值,而是一个通过反馈函数产生的对当前系统行为的评价。

  通过与环境的交互,Agent可以通过强化学习来得到一系列行为,通过探索性的试错或者借助精心设计的激励系统使得正向反馈最大化。

  示例:象棋对弈的游戏。

  算法:

    1.策略梯度  

    2.深层Q网络(DQN)

机器学习流程:

  1.数据预处理:特征抽取、特征选择、缺失值填充

  2.训练模型

  3.微调模型(网格搜索)

  4.完成,模型预测

批量学习和在线学习:

  如果你想让一个批量学习系统明白新数据(例如垃圾邮件的新类型),就需要从头训练一个系统的新版本,使用全部数据集(不仅有新数据也有老数据),然后停掉老系统,换上新系统。

  在在线学习中,你可以循序渐进地给系统提供训练数据,逐步积累学习成果。这种提供数据的方式可以是单独的,也可以采用小批量(mini-batches)的小组数据来进行训练。

原文地址:https://www.cnblogs.com/czlong/p/11697017.html

时间: 2024-10-08 07:06:03

机器学习介绍及基本概念的相关文章

C#多线程之旅(1)——介绍和基本概念

原文目录C#多线程之旅(1)——介绍和基本概念 C#多线程之旅目录: C#多线程之旅(1)——介绍和基本概念 C#多线程之旅(2)——创建和开始线程 C#多线程之旅(3)——线程池 C#多线程之旅(4)——同步本质 ...... C#多线程之旅(1)——介绍和基本概念 一.多线程介绍 C#通过多线程支持并行执行的代码.一个线程是一个独立执行的路径,可以同时与其他线程一起运行.一个C#客户端程序(Console,WPF,Winows Forms)开始于一个单独的线程,该线程由CLR和操作系统自动地

Stanford公开课机器学习---1.Intrduction 机器学习介绍

文章是下面这个公开课的个人笔记,推荐的笔记里记的比较全,完全依据视频课程(有少量小错误),我的笔记依据课程按自己的理解记录一些重点,方便快速回顾.另外自己开始学这门课时搜到的好的资料,推荐给大家: |- Coursera上斯坦福大学Andrew Ng教授的"机器学习公开课" |-- 类 别:适合入门 |-- 网页地址: https://www.coursera.org/learn/machine-learning/outline |-- 学习笔记:推荐 @小小人_V 同学这门课程的学习

最通俗的机器学习介绍

最通俗的机器学习介绍 https://zhuanlan.zhihu.com/p/43612979 摘要:在本文中,我将描述数据分析是如何与机器学习相关的,还将揭开机器学习中的一些荒唐和错误的说法,并解释机器学习的过程和类型. 如果你不是一个人工智能专家,不要担心,我不会提及线性回归和k-均值聚类. 数据分析和机器学习 如果你认为大数据仅仅是关于SQL语句查询和海量的数据的话,那么别人也会理解你的,但是大数据真正的目的是通过对数据的推断,从数据中获取价值.从数据中发现有用的东西.例如,"如果我降低

01_机器学习介绍

01 机器学习介绍 人工智能的发展 人工智能 - 机器学习 - 深度学习 机器学习的用途 图像识别 CV 无人驾驶 医疗 - 识别CT图细微区别 图片艺术化 iphone 人脸识别 自然语言处理 NLP 新闻自动生成机器人 传统预测 信贷.销量预测 机器学习库和框架 Scikit-learn Pytorch Tensorflow 学习书籍推荐 统计学习方法 (不建议直接读) 2.编程实战类 (课程结束后,重点关注案例) 学习目标 机器学习各种算法原理 算法的使用 算法库和框架 什么是机器学习?

【机器学习】一些基本概念及符号系统

注:其实自认为还是非常喜欢数学的,但是对于复杂的公式还是有种恐惧感,就像最开始学英语时,对英语的感觉一样.但是数学与英语不同的地方在于,你可以尽情的刨根问底,从最基础的知识开始了解,直到最终把一个符号或者公式的含义弄明白.在机器学习的过程中,也会碰到各种各样的符号,尤其是遇到多参数,多样本的情况时,更是让人眼花缭乱.最近学习完coursera上吴恩达的机器学习前两周的课程,有种豁然开朗的感觉.在此做一个小结. 1. 一些基本概念 图1. 机器学习的基本过程 训练集(Training Set):为

机器学习笔记之基础概念

本文基本按照<统计学习方法>中第一章的顺序来写,目录如下: 1. 监督学习与非监督学习 2. 统计学习三要素 3. 过拟合与正则化(L1.L2) 4. 交叉验证 5. 泛化能力 6. 生成模型与判别模型 7. 机器学习主要问题 8. 提问 正文: 1. 监督学习与非监督学习 从标注数据中学习知识的规律以及训练模型的方法叫做监督学习,但由于标注数据获取成本较高,训练数据的数量往往不够,所以就有了从非标注数据,也就是非监督数据中学习的方法. 由于非监督数据更容易获取,所以非监督学习方法更适合于互联

机器学习介绍

1. 监督学习(supervised learning): 给定输入样本集,机器可以从中推演出指定目标的可能结果. 一般采用两种类型的目标变量:标称型和数值型. - 标称型:标称型目标变量的结果只有在有限目标集中取值,如真与假,动物分类集合 {爬行类,鱼类, 哺乳类,两栖类} - 数值型:数值型目标变量可以在无限数值集合中取值,如 0.001. 42.001. 1000.743 等.数 值型目标变量主要用于回归分析. 2. 无监督学习:数据没有类别信息,不会给定目标值. - 聚类:无监督学习中,

Kubernetes介绍及基本概念

kubernetes介绍 Kubernetes是Google在2014年6月开源的一个容器集群管理系统,使用Go语言开发,Kubernetes也叫K8S.K8S是Google内部一个叫Borg的容器集群管理系统衍生出来的,Borg已经在Google大规模生产运行十年之久.K8S主要用于自动化部署.扩展和管理容器应用,提供了资源调度.部署管理.服务发现.扩容缩容.监控等一整套功能.2015年7月,Kubernetes v1.0正式发布,截止到2018年1月27日最新稳定版本是v1.9.2.Kube

人工智能_1_初识_机器学习介绍_特征工程和文本特征提取

# 人工智能:预测,分类 # 人工智能: # 自动的工作 # 机器学习(包含深度学习) # 以前的限制因素:计算能力,数据,算法发展 # 用途: # 图像识别 # 识别图片中不同的地方(医学CT) 不用人工识别 # 图片艺术化(可以替代ps) # 无人驾驶 # 人脸识别 # 自然语言处理 # 语音识别 # 自动写报告 # 传统预测 # 性能评估 # NLP # 推荐系统 # 机器学习的数据:文件格式,csv(逗号分隔值) # 不使用数据库: # 1,性能瓶颈,数量过多,2,3GB 读取慢 # 2