初识机器学习

  翻开周志华老师的《机器学习》这本书,摘自绪论这段话:机器学习正是这样的一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。而在计算机系统当中,“经验”就是以“数据”的形式存在,所以,机器学习所研究的主要内容是:关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

  要进行机器学习,首先要有数据,数据的集合称为数据集,而其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”,就像自己要做的MoviesLens数据集一样,用户、物品、评分、时间戳等为该数据集的属性;而对应的用户id,物品id,用户对物品的评分值作为属性值;可通过一个三维空间来描述这样的向量关系,用户id,物品id,评论值三者作为三条坐标轴,那么每一条这样的数据都可以在这个三维空间当中找到自己的位置。这里的“维数”就是指有多少个属性,例如MoviesLens数据集一般只用到三个属性,即可看成是三维空间。

  从数据中学得模型的过程称为“学习或训练”,这是通过算法实现的过程。那么这里所训练的数据称为“训练集”。那么要想得到一个“预测”模型,首先要得到结果信息,比如对于推荐系统,我看了一部电影,例如《赌神》,那么在1000部电影当中有10部电影是我喜欢的类型,通过预测模型计算出来的10部电影和我本身想得到结果进行对比,就可以知道我的这个预测模型准确率是多少了。

  若预测的是离散值,此类学习任务称为“分类”,若预测的是连续值,称为“回归”。根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习”和“无监督学习”,其中分类和回归是前者的代表,聚类则是后者的代表。机器学习的目标是使学得的模型能很好的适用于“新样本”,而学得的模型适用于新样本的能力。称为“泛化”能力,且一般而言,训练的样本越多,就越有可能获得强泛化能力的模型。

  对于目前的大数据时代,作为三大关键技术:机器学习、云计算、众包;其中机器学习提供数据分析能力、云计算提供数据处理能力、众包提供数据标记能力。

  初识机器学习,以后会继续更新。

时间: 2024-10-10 01:42:48

初识机器学习的相关文章

初识机器学习算法有哪些?

机器学习无疑是现在数据分析领域的一个重要内容,凡事从事IT工作领域的人都在平时的工作中或多 或少的会用到机器学习的算法. 机器学习有很多算法,不过大的方面可分为两类:一个是学习的方式,一个是算法的类似性. 学习方式: 根据数据类型的不同,对一个问题的建模有不同的方式.在机器学习或者人工智能领域,人们首先会 考虑算法的学习方式.在机器学习领域,有几种主要的学习方式.将算法按照学习方式分类是一个不 错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得 最好的结果.

初识机器学习-理论篇(慕课笔记)

什么是机器学习 定义: 利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策. 从数据中寻找规律 寻找规律:概率学 统计学统计学方法:抽样 -> 统计 -> 假设检验随着计算机处理能力增强 -> 不需要采样数据增加 -> 维度增加 -> 无法可视化 -> 只能数学方式表示 我们进行机器学习的一个目的就是从大量的数据中归纳出一个合适的数学模型 机器学习发展的原动力 大数据概念的出现 用数据代替专家经济驱动,数据变现 业务系统发展的历史 基于专家经验(头脑

Andrew Ng机器学习第一章——初识机器学习

机器学习的定义 计算机程序从经验E中学习,解决某一任务T.进行某一性能度量P,通过P测定在T上的表现因E而提高. 简而言之:程序通过多次执行之后获得学习经验,利用这些经验可以使得程序的输出结果更为理想,就是机器学习. 主要的两类机器学习算法 监督学习和无监督学习 监督学习 定义:对于数据集中的每个样本,我们想要算法预测得出正确的答案.例如预测房子的价格.肿瘤良性或者恶性 回归问题:预测连续值的输出(房子的价格) 分类问题:预测离散值的输出(肿瘤的性质良或恶) 无监督学习 定义:给定的数据集,找可

1.0初识机器学习

1.欢迎参加<机器学习> 当我们使用谷歌或者必应搜索网页的时候,当我们搜索相册中老友的照片的时候,当我们的电子邮箱收到许多邮件,而垃圾邮件被自动的过滤的时候,都有机器学习在起作用. 但最值得我们兴奋的是,我们可以梦想有一天,我们可以通过机器学习制造出像我们一样智能的AI,虽然这个目标距离我们还很远,但是已经有许多人,在通过机器学习,采用学习算法尝试模拟人类大脑的学习方式. 本套课程就是里介绍这些算法.通过本套课程,你将学习到最先进的机器学习算法.但仅知道算法及其数学含义,却不知道如何用来解决用

1、绪论初识机器学习

p.p1 { margin: 0.0px 0.0px 2.0px 0.0px; font: 14.0px ".PingFang SC" } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC" } p.p3 { margin: 0.0px 0.0px 2.0px 0.0px; font: 14.0px "Helvetica Neue"; min-height: 17

吴恩达《机器学习》章节1绪论:初识机器学习

1.欢迎参加<机器学习> 2.什么是机器学习? 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳.综合而不是演绎. 监督学习和无监督学的的区别为是否需要人工参与数据结果的标注. 3.监督学习(Super

初识机器学习-人脸识别

感谢知乎老狼https://zhuanlan.zhihu.com/p/27275307,点击链接 Anaconda的安装 face_recognition库安装 1.代码 from PIL import Image import face_recognition # Load the jpg file into a numpy array image = face_recognition.load_image_file("wang.jpg") # Find all the faces

【慕课网】初始机器学习.md

初始机器学习 什么是机器学习 什么是机器学习? 机器学习指的是计算机对历史数据进行统计分析,找出规律,建立模型,最关键的是可以对未来不确定性场景进行判断和决策 具体可见:什么是机器学习 那什么是不确定性的场景呢?比如说太阳明天从什么地方升起,这就是确定的场景,因为永远都是从东方升起,从西方落下.但是下个季度的能完成多少业绩,这就是不确定的. 理解机器学习需要注意以下几个要点: 对历史数据的分析的主体是机器而不是人,这就与数据分析区别开了. 数据分析因为主体是人,所以能分析出什么很大程度取决于人的

Coursera-AndrewNg(吴恩达)机器学习笔记——第一周

一.初识机器学习 何为机器学习?A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.理解:通过实验E,完成某一项任务T,利用评价标准P对实验结果进行迭代优化! 机器学习主要包括监督学习