有趣的数学,给你的机器学习增加点信心

相似的判断
下面两个句子相同吗?怎么判断?思路呢?

句子A:这只皮靴号码大了。那只号码合适

句子B:这只皮靴号码不小,那只更合适

1)分词

句子A:这只/皮靴/号码/大了。那只/号码/合适。

句子B:这只/皮靴/号码/不/小,那只/更/合适。

列出所有的词:这只,皮靴,号码,大了。那只,合适,不,小,很

2)计算词频(词出现的次数)

句子A:这只1,皮靴1,号码2,大了1。那只1,合适1,不0,小0,更0

句子B:这只1,皮靴1,号码1,大了0。那只1,合适1,不1,小1,更1

3)写出词频向量。

句子A:(1,1,2,1,1,1,0,0,0),即:x 坐标数据

句子B:(1,1,1,0,1,1,1,1,1),即:y 坐标数据

4)余弦公式

,∑表示求和符号

0.81非常接近于1,所以上面的句子A和句子B是基本相似的

虽然上面的例子并无法用于正式场合,但是基本说明了“数学不难”,高中知识就足够

对数函数的魅力
有一个这样的场景:某两个字的频率分别都是500,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2xlog500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。

我们再看另外一个场景:产品A卖500元打完折后卖200元 和 产品B卖800元折后价格500元,同样是相差300元,但是消费者对哪组数据更加敏感呢? log500-log200>log800-log500

也就是说,数值小的“差异”敏感程度比数值大“差异”敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了

求导的意义
简单的介绍:一阶导数-求某一时间点的瞬时速度。二阶导数-求某一时间点的瞬时加速度。

函数求导主要是研究函数值随自变量的值的变化而变化的趋势,如果导数小于零,那么事物发展的趋势是越来越慢或者是越来越小,相反如果导数大于零,那么事物发展的趋势是越来越快或者是越来越大。

特征值和特征向量什么意思
举例说:去让你给我接个人,她有很多特征,我会挑几个特典型如长发超级大美女、身材高挑皮肤好...其中特征值就是多高,多美,特征向量就是这些分类。

矩阵中的特征值和特征向量呢,再举例:小红姑娘是个矩阵,在这个矩阵中脸部轮廓是特征向量,相貌就是特征值,等比例伸缩就是“眼睛多大,鼻子多高”,最后通过特征值大小=你能知道这个人到底有多美,体型身材是特征向量,三围就是特征值,等比例伸缩就是“胸部多大,臀部多高”,最后通过特征值大小=你能知道这个人到身材多好。

给一任意矩阵,该矩阵到底是谁,不容易知道,例如哪一个矩阵代表的是小红姑娘?但是当你把矩阵附加到某一具体事物(相貌)上观察,例如反复运用矩阵相乘(相乘就是多个相同数量的相加,加就是放大,其他事物也放大,但是程度不如特征向量),矩阵所代表的人的最明显的特征,如相貌最大的方向(特征值是特征向量的等比伸缩),就由最大特征值对应的特征向量展现出来(即运算越来越贴合到最大的特征值对应的特征空间,注意也不是无限运算,因为某次结果后又将远离特征空间,即围绕特征空间旋转)

以上内容来自网易云课堂海畅智慧出品的《机器学习算法》,转载请注明。

原文地址:http://blog.51cto.com/11296318/2129248

时间: 2024-10-23 08:32:30

有趣的数学,给你的机器学习增加点信心的相关文章

github 专案介绍 – Python 范例:透过互动式的 Jupyter 和数学解释流行的机器学习演算法

对于机器学习有兴趣,不少人应该会先从 Andrew Ng ( 吴恩达 ) 的机器学习课程开始,但是吴恩达的课程是使用 octave 这个工具当作练习.这个 github 项目包含使用 Python 实现流行机器学习算法的范例,并解释了其背后的 数学原理. 每个算法都有交互式的 Jupyter Notebook 示范,可以让你玩训练数据.算法配置,并立即在浏览器中 检视结果.图表和预测. 在大多数情况下,这些解释都是基于 Andrew Ng 的这门伟大的机器学习课程. 这个储存库的目的不是通过使用

有趣的数学之赌徒输光问题

昨天刷某瓜视频刷到一条非常有意思的内容.下面的内容来自李永乐老师的某瓜视频. 问题:有一个赌徒m,来到×××,×××里的游戏是非常公平的每次都有50%的概率赢,那么请问这个×××是否真的像所说的那样公平呢? 分析:假设这个赌徒m有本金A(RMB),又是一个控制能力极强的人,假设赢到B (RMB)或者输光本金就不玩了. 赢1RMB概率50%,输1RMB概率50% 赌徒m有本金A => a.输光,为Bad,b.赢到B,为Good. 那么为了说明这个问题,我们花一条数轴.如下图: A到A-1和A到A+

有趣的数学 -- 数学归纳法 -- 互不重叠的单位正方形

这里有个题目,如下,这里本质是求递推公式,考察的是数学归纳法,s(n) 和 s(n-1) 有联系,求s(n) 图1,2,3,4分别包含1,5,13和25个互不重叠的单位正方形,按同样的方式构造图形,则第个图包含______个互不重叠的单位正方形. 分析思路: 如下图,相邻图形是一个包含关系,即很容易得到s(n+1) = s(n) + 4n - 4 那紧接着问题变成了如何根据这个公式求s(n). 从上到下列出来之后,左右相加,很容易得到最终结果. 计算过程:

有趣的数学问题

十斤酒,一个七斤的瓶子,一个三斤的瓶子,平均分 首先,10斤要分为两个5斤,肯定需要两个容器大于5:所以除了总的酒器容量,还需要至少一个容器大于5 然后通过最小的容器开始取酒,5-3 =2:所以我们需要一个2斤的酒.怎么样出来二斤呢? 3 - 1 =2:怎么样出来一斤呢? 7 - 3*2 = 1: 问题得解

机器学习原来如此有趣:用深度学习识别人脸

本系列文章目前已经更新两期,分别是: 机器学习原来如此有趣!全世界最简单的机器学习入门指南. 机器学习原来如此有趣:如何故意欺骗神经网络 你是否有注意到Facebook最近开发了一个非同寻常的功能:将你照片中的好友识别出来.过去,Facebook 让你手动点击照片上的好友,输入他们的名字,然后加上标签.现在只要你上传一张照片,Facebook就会像变魔术一样为你自动标记出所有人: 这项技术就叫做人脸识别.在你的朋友的脸被标记了几次之后,Facebook的算法就可以识别他了.这是一个让人惊艳的技术

【转】机器学习发展简史

本文主要参考中科院自动化研究所复杂系统与智能科学实验室王珏研究员<关于机器学习的讨论>,讨论机器学习的描述,理论基础,发展历史以及研究现状. 0引言 20世纪90年代初,当时的美国副总统提出了一个重要的计划——国家信息基本设施计划(NationalInformation Infrastructure,NII).这个计划的技术含义包含了四个方面的内容: (1)不分时间与地域,可以方便地获得信息. (2)不分时间与地域,可以有效地利用信息. (3)不分时间与地域,可以有效地利用软硬件资源. (4)

机器学习资源大全【转】

本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统. 通用机器学习 MLPack DLib ecogg shark Closure 通用机器学习 Closure Toolbox—Clojure语言库与工具的分类目录 Go 自然语

【知乎转载】机器学习、数据挖掘 如何进阶成为大神?

著作权归作者所有. 商业转载请联系作者获得授权,非商业转载请注明出处. 作者:淩清风 链接:https://www.zhihu.com/question/37256015/answer/85198013 来源:知乎 我不是大神. 背景:某二本院校大四学生: 说一说自己的学习经历吧.不知道能不能对题主有所帮助. 跟大多数人一样,是从Andrew Ng大神的coursera课程接触到机器学习.在学那门课的时候也就老老实实的看完,看到最后,听到Andrew说看完这些课程的人基本上已经超过硅谷半数的工程

推荐!国外程序员整理的机器学习资源大全

推荐!国外程序员整理的机器学习资源大全 本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). 伯乐在线已在 GitHub 上发起「机器学习资源大全中文版」的整理.欢迎扩散.欢迎加入. https://github.com/jobbole/awesome-machine-learning-cn C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows