首先看看一些关键词:K-NN算法,训练集,测试集,特征(空间),标签
举实验楼中的样例,通俗的讲讲K-NN算法:电影有两个分类(标签)-动作片-爱情片。两个特征--打斗场面--亲吻画面。
将那些数字和分类用图像表示大概如下:
两个红圆圈分别代表两种电影,他们包含了表中的数据,求解中间蓝色方框(就一个点(X,Y))属于哪一类,k-nn算法的解决方式是计算方框到两圆的距离,离谁近就属于谁。再具体点就是通过特征值来计算,假设接吻镜头次数=x,打斗=y,那么根据计算方式 d = ((X - x)^2 + (Y - y)^2)^0.5 可以得到如图数据:
然后是k值的选择(尽可能小原则),可以看到前三个数据与后三个数据有巨大差距,那k就取3吧,所以未知电影归于爱情片。
这就是K-NN算法我的理解。对于实验楼中提到的算法优缺点还有待研究,后期再补上。(未完待续.....)2017/7/14 1:39:0
时间: 2024-10-14 04:47:13