【华为云技术分享】机器学习(01)——机器学习简介

最近在研究机器学习,随手将学习的过程记录下来,方面自己的学习与回顾

1. 机器学习是什么?

机器学习(Machine Learning,ML)是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一门科学技术。

它使用计算机技术,应用微积分、概率论、统计学、逼近论、凸分析、算法等多种不同的理论与学科,针对分析目标建立有针对性的数据模型,通过对过往历史数据的学习(分类、回归、聚类等),完成基本算法模型,并能通过后续持续的学习(数据输入),在将杂乱的数据转换(输出)成有用信息的同时,还能不断优化改造自身。

2. 机器学习能解决什么问题?

对于学习,人的学习过程,是通过观察(输入),根据过往经验对观察到的内容进行思考(处理),最后得出结论(输出)的过程。

而机器学习是计算机利用已有的数据(一般是海量数据),得出了某种模型(算法模型),并利用此模型预测未来的一种方法。

机器学习主要解决的问题可以归纳为:优化,预测,相关性。可以说,只要是涉及到优化,预测,个性化相关的问题,机器学习和深度学习都可以处理。

比如说,我们去买百香果吃,我们没有买百香果的经验,不知道那些是甜的那些是酸的,然后我们买了一大堆回来,有大的、小的、轻的、重的、红的、紫的、白的、黄的、果皮光滑的、干皱的...然后每一个都尝一便,最后发现,百香果原来有两大类,紫红和黄白两类,紫红类的,果皮越深(越紫越黑)的越甜,黄白类的越黄越甜,跟大小无关,跟果皮的光滑度无关,而同样大小,越重的果汁越多。黄白类的比紫红类的果子甜度更高一些。那么下次去买的时候,自然就懂得如何挑选了。

而机器学习跟买水果的过程类似,通过建模(对水果甜度的判断)、设计策略(针对百香果不同的形状特性)和算法(品尝百香果,得出酸甜结论),然后输入大量数据(一大堆不同种类与特征的百香果)进行训练,最后学会判断的过程(知道什么类型的百香果比较甜)。模型建好后,就可以针对更多的数据进行测试并输出结果(下次去买水果直接挑选学习后的水果类型,可以直接根据特征判断酸甜度),而这些结果也将不断的修正模型(买回来后继续品尝,观察酸甜度,继续总结经验,调整判断方法),提升模型的准确率,更好的帮我们预测数据。

当前,机器学习广泛应用于搜索引擎、垃圾邮件处理、广告推荐、数据挖掘、图像识别、自然语言处理、生物特征识别、医学诊断、证券投资分析、DNA序列测序、语音和手写识别、机器人运用等诸多领域,且应用的领域越来越广泛。

3. 学习机器学习,需要具备什么能力?

入门学习机器学习,只需要掌握下面这些能力:

  • 了解一些数学基础常识
  • 掌握一门编程语言(最好是python)

对于入门来说,不一定要具备了所有的数学理论基础才能开始,不具备这些知识并不代表不能灵活操作各个机器学习库,只是有些算法的理解会更困难。这些基础理论在后续需要慢慢补上,它们关系到你在AI领域天花板的高度。而直接从实践入手,会更容易理解算法,对后续算法的深入学习也有很大的帮助。

而想进阶成为专家,除了需要加强数学基础理论(高数、线性代数、统计学、概率论、信息论等数学基础)的学习外,还需要学习大数据相关的知识与技能(如:Hadoop、HBase、Spark、kafka、Flume、Sqoop、Storm等)。然后根据发展方向,有针对性的学习NLP、神经网络等内容,往更多更专业的领域深入学习。

4. 怎么学?

学习机器学习,需要分阶段循序渐进学习,尽量不要一下子就深入算法的推导中(除非你的数学理论非常扎实),不要试图掌握所有的相关数学知识再开始学习,否则很容易从入门到崩溃,从崩溃到放弃。

对于初学者,建议从这几方面来学习:

  1. 首先了解什么是机器学习,以及机器学习的相关理论常识,对机器学习有个总体的了解与认识。
  2. 知道有哪些学习资源,了解这些资源哪些适合初学者。
  3. 大体了解机器学习的技术栈,了解涉及哪些知识体系,然后与自己的技术体系进行比较,了解学习方向,并做好长期学习的计划与心态。
  4. 然后花些时间,了解机器学习的常用专业术语,大概了解这些专业名词的意思,方便后续学习时更容易理解学习内容(不需要全部了解,只需要大体知道是什么就行了,在学习机器学习的过程中会不断的加深学习与理解)。
  5. 接着直接进入学习,可以学习《机器学习实战》这本书,也可以学习ApacheCN分享出来的文本或视频教程,学习各种机器学习算法,先实践再到理论。
  6. 入门后再根据所要用到的基础理论或机器学习相关算法和知识点,再针对性的学习,逐步提高。

参考资料:

https://www.cnblogs.com/subconscious/p/4107357.html

https://github.com/apachecn/AiLearning/blob/master/docs/ml/1.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80.md

原文地址:https://www.cnblogs.com/huaweicloud/p/12523528.html

时间: 2024-07-30 13:14:56

【华为云技术分享】机器学习(01)——机器学习简介的相关文章

【华为云技术分享】漫谈LIteOS-物联网操作系统介绍

[摘要] 本文主要对于目前物联网操作系统的定义以及主要特点进行了分析,最后介绍了几个常见的物联网操作系统. 1简介 提到操作系统,可能首先想到的就是苹果操作系统,windows,Linux,Unix,Android,IOS等,显然目前比较为人熟知的操作系统基本都是一些手机或者电脑端的操作系统.而随着互联网技术的不断发展,硬件的体积越来越小,物联网技术也迎来了爆棚式的发展.物理网不同于 互联网的不同在于后者更关注的是人与人的互联,而前者是更加强调人与物,物与物的连接,从而实现万物互联(IOT).显

王晶:华为云OCR文字识别服务技术实践、底层框架及应用场景 | AI ProCon 2019【华为云技术分享】

演讲嘉宾 | 王晶(华为云人工智能高级算法工程师王晶) 出品 | AI科技大本营(ID:rgznai100) 近期,由 CSDN 主办的 2019 中国AI 开发者大会(AI ProCon 2019)在北京举办.在计算机视觉技术专题,华为云OCR人工智能高级算法工程师王晶分享了“文字识别服务的技术实践.底层框架及应用场景”的主题演讲. 演讲的第一部分,他分享了文字检测和识别的基础知识以及难点和最新进展.第二部分是华为云文字识别服务关键能力.关键技术,以及落地过程中遇到的“坑”,这对其他人工智能产

【华为云技术分享】如何设计高质量软件-领域驱动设计DDD(Domain-Driven Design)学习心得

DDD做为软件设计方法于2004年提出,一直不温不火,最近几年突然火起来了,为啥呢?正所谓机会给有准备的人,因为微服务的流行,大家都跃跃欲试把传统单体软件转成微服务架构,但理论很丰满,现实很骨感,光是分解微服务就让人找不到北,而DDD是歪打正着也好,富有远见也好,正好适合微服务转型设计,不火都难. 最近学习了领域驱动设计(Domain-Driven Design),感觉受益匪浅,那到底啥是DDD呢?这里分享一下学习心得.网上有很多详细的资料,感兴趣可以看看这个https://www.infoq.

【华为云技术分享】技术探秘:华为云瑶光何以定方向

作为北斗第七星,瑶光自古就可用来判断四季更迭.引向定时.而作为全新发布的智能云操作系统,瑶光智慧云脑又是如何做到统领云上各类资源.实现租户需求与资源供应之间最佳匹配的呢?在华为云瑶光实验室.华为云算法创新实验室里,我们找到了答案. #初识资源调度# 云OS:我太“南”了 依托虚拟化技术,我们得以将数据中心海量的计算.存储资源以云服务的形式对外提供.而随着数据中心规模扩展.边缘计算带来的算力延伸,承担着高效.精准资源调度的云操作系统面临着三大挑战: 第一个挑战是云计算的资源消耗/售卖模式带来的.云

华为云实战开发】5.如何快速创建免费Git代码仓库【华为云技术分享】

1 文章目的 本文主要帮助已经掌握或者想要掌握Git的开发者,如何更好的应用Git,以及更好的将Git与DevCloud结合应用. 2 概述 2.1 版本控制系统介绍 从狭义上来说,版本控制系统是软件项目开发过程中管理代码所有修订版本的软件,能够存储.追踪文件的修改历史,记录多个版本的开发和维护,事实上我们可以将任何对项目有帮助的文档交付版本控制系统进行管理.版本控制系统(Version Control Systems)主要分为两类,集中式和分布式. 2.1.1 集中式版本控制系统 集中式版本控

【我的物联网成长记3】如何开发物联网应用?【华为云技术分享】

[摘要] 物联网应用是设备管理.故障监测.数据分析的重要工具.本文介绍如何基于物联网平台开发应用,包括API.SDK和图形化开发三种方式. -------------------整体方案------------------- 物联网应用是企业和开发者进行设备管理.告警&故障监测.业务监控.数据分析的重要工具.物联网平台屏蔽了设备接入的复杂性和协议的差异性,解耦应用与设备,为上层应用提供统一格式的数据,简化终端厂商开发的同时,也让应用提供商聚焦于自身的业务开发.基于华为物联网平台的应用开发方案如下

揭秘丨7分钟看懂华为云鲲鹏Redis背后的自研技术【华为云技术分享】

2019年5月,华为云发布全球首个基于自研ARM架构的分布式缓存鲲鹏Redis,搭载华为LibOS+华为编译器+安全容器引擎三项黑科技,在保证Redis强劲高性能外,还降低客户30%的使用成本,真正实现了好用不贵的普惠型分布式缓存Redis产品. 本文从技术视角解读华为云鲲鹏Redis是如何通过数据中心基础设施.芯片.硬件.软件等全栈创新优化,达成以上效果. 一.为什么ARM架构适合Redis? 众所周知,Redis是一款风靡全球的高性能.高灵活性.数据结构类型丰富的key-value内存数据库

华为云流媒体性能测试解决方案 轻松应对流量危机【华为云技术分享】

背景 随着带宽提速和互联网发展,内容丰富.形式多样的视频正成为碎片化时代娱乐消费的新宠,短视频.视频直播.在线钢琴陪练.合唱直播一系列新玩法层出不穷,涉及电竞.社交.电商.教育等各个行业.网络视频快速发展对系统性能带来了巨大的考验. 流媒体业务场景 下面是用户与流媒体服务器的简化交互关系,主要分为推流和拉流2大类. 推流就是从外界采集数据后利用流媒体协议将文件推流至流媒体服务器端,拉流就是将文件从流媒体服务器拉取至本地播放的过程,流媒体的文件主要是由音频和视频2个部分组成,youtube.土豆.

【华为云技术分享】#探索鲲鹏#之“在鲲鹏上使用编程语言——C语言

[内容简介]本文将从三部分手把手教大家如何在鲲鹏上使用编程语言:1.编写hello world,并在鲲鹏上运行:2.编写一个带cmake的标准跨平台C工程,完成软件在鲲鹏平台上的编译,安装功能:3.选择一种由C / C ++语言编写的跨平台开源软件Mysql,完成该软件的编译,安装,制作成可分发的替代. 正文开始 在鲲鹏上使用编程语言——C语言 这不是一个C语言的教程. 然后接下来的几期,主要介绍各种编程语言在鲲鹏上如何从二进制编译到二进制文件,从二进制文件编成一体,从软件包制作成码头工人或者V

【华为云技术分享】大数据容器化,头部玩家尝到了甜头

[摘要] 大数据容器化,大势所趋.头部玩家在进行大数据容器化后,尝到了甜头? 大数据的需求热度,从来都是这个时代的浪尖.然而由于大数据系统的复杂性,一度导致业界大数据已死的各种声音不断.尤其是当MapR被HPE收购,Cloudera公司股票持续跌成狗,使得这种声音进一步放大.其实,大数据的需求一直在,只是传统的大数据实现系统需要考虑重新构建.而容器依靠其自身的标准化,一次构建,随处运行的能力,使得非常适合大数据系统的构建和管理.容器技术当前正是那只火遍全球的当红辣子鸡. 1 华为云BigData