相似的判断
下面两个句子相同吗?怎么判断?思路呢?
句子A:这只皮靴号码大了。那只号码合适
句子B:这只皮靴号码不小,那只更合适
1)分词
句子A:这只/皮靴/号码/大了。那只/号码/合适。
句子B:这只/皮靴/号码/不/小,那只/更/合适。
列出所有的词:这只,皮靴,号码,大了。那只,合适,不,小,很
2)计算词频(词出现的次数)
句子A:这只1,皮靴1,号码2,大了1。那只1,合适1,不0,小0,更0
句子B:这只1,皮靴1,号码1,大了0。那只1,合适1,不1,小1,更1
3)写出词频向量。
句子A:(1,1,2,1,1,1,0,0,0),即:x 坐标数据
句子B:(1,1,1,0,1,1,1,1,1),即:y 坐标数据
4)余弦公式
,∑表示求和符号
0.81非常接近于1,所以上面的句子A和句子B是基本相似的
虽然上面的例子并无法用于正式场合,但是基本说明了“数学不难”,高中知识就足够
对数函数的魅力
有一个这样的场景:某两个字的频率分别都是500,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2xlog500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。
我们再看另外一个场景:产品A卖500元打完折后卖200元 和 产品B卖800元折后价格500元,同样是相差300元,但是消费者对哪组数据更加敏感呢? log500-log200>log800-log500
也就是说,数值小的“差异”敏感程度比数值大“差异”敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了
求导的意义
简单的介绍:一阶导数-求某一时间点的瞬时速度。二阶导数-求某一时间点的瞬时加速度。
函数求导主要是研究函数值随自变量的值的变化而变化的趋势,如果导数小于零,那么事物发展的趋势是越来越慢或者是越来越小,相反如果导数大于零,那么事物发展的趋势是越来越快或者是越来越大。
特征值和特征向量什么意思
举例说:去让你给我接个人,她有很多特征,我会挑几个特典型如长发超级大美女、身材高挑皮肤好...其中特征值就是多高,多美,特征向量就是这些分类。
矩阵中的特征值和特征向量呢,再举例:小红姑娘是个矩阵,在这个矩阵中脸部轮廓是特征向量,相貌就是特征值,等比例伸缩就是“眼睛多大,鼻子多高”,最后通过特征值大小=你能知道这个人到底有多美,体型身材是特征向量,三围就是特征值,等比例伸缩就是“胸部多大,臀部多高”,最后通过特征值大小=你能知道这个人到身材多好。
给一任意矩阵,该矩阵到底是谁,不容易知道,例如哪一个矩阵代表的是小红姑娘?但是当你把矩阵附加到某一具体事物(相貌)上观察,例如反复运用矩阵相乘(相乘就是多个相同数量的相加,加就是放大,其他事物也放大,但是程度不如特征向量),矩阵所代表的人的最明显的特征,如相貌最大的方向(特征值是特征向量的等比伸缩),就由最大特征值对应的特征向量展现出来(即运算越来越贴合到最大的特征值对应的特征空间,注意也不是无限运算,因为某次结果后又将远离特征空间,即围绕特征空间旋转)
以上内容来自网易云课堂海畅智慧出品的《机器学习算法》,转载请注明。
原文地址:http://blog.51cto.com/11296318/2129248