学习OpenCV——KNN算法

转自:http://blog.csdn.net/lyflower/article/details/1728642

文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。

该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。

重点:

1:特征降维(一般用CHI方法)

2:截尾算法(三种截尾算法)

3:降低计算量

演示代码:

[cpp] view plain copy

print?

  1. #include "ml.h"
  2. #include "highgui.h"
  3. int main( int argc, char** argv )
  4. {
  5. const int K = 10;
  6. int i, j, k, accuracy;
  7. float response;
  8. int train_sample_count = 100;
  9. CvRNG rng_state = cvRNG(-1);//初始化随机数生成器状态
  10. CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );
  11. CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );
  12. IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );
  13. float _sample[2];
  14. CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );
  15. cvZero( img );
  16. CvMat trainData1, trainData2, trainClasses1, trainClasses2;
  17. // form the training samples
  18. cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回数组的一行或在一定跨度内的行
  19. cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用随机数填充数组并更新 RNG 状态
  20. cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );
  21. cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );
  22. cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );
  23. cvSet( &trainClasses1, cvScalar(1) );
  24. cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );
  25. cvSet( &trainClasses2, cvScalar(2) );
  26. // learn classifier
  27. CvKNearest knn( trainData, trainClasses, 0, false, K );
  28. CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);
  29. for( i = 0; i < img->height; i++ )
  30. {
  31. for( j = 0; j < img->width; j++ )
  32. {
  33. sample.data.fl[0] = (float)j;
  34. sample.data.fl[1] = (float)i;
  35. // estimates the response and get the neighbors‘ labels
  36. response = knn.find_nearest(&sample,K,0,0,nearests,0);
  37. // compute the number of neighbors representing the majority
  38. for( k = 0, accuracy = 0; k < K; k++ )
  39. {
  40. if( nearests->data.fl[k] == response)
  41. accuracy++;
  42. }
  43. // highlight the pixel depending on the accuracy (or confidence)
  44. cvSet2D( img, i, j, response == 1 ?
  45. (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :
  46. (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );
  47. }
  48. }
  49. // display the original training samples
  50. for( i = 0; i < train_sample_count/2; i++ )
  51. {
  52. CvPoint pt;
  53. pt.x = cvRound(trainData1.data.fl[i*2]);
  54. pt.y = cvRound(trainData1.data.fl[i*2+1]);
  55. cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );
  56. pt.x = cvRound(trainData2.data.fl[i*2]);
  57. pt.y = cvRound(trainData2.data.fl[i*2+1]);
  58. cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );
  59. }
  60. cvNamedWindow( "classifier result", 1 );
  61. cvShowImage( "classifier result", img );
  62. cvWaitKey(0);
  63. cvReleaseMat( &trainClasses );
  64. cvReleaseMat( &trainData );
  65. return 0;
  66. }

详细说明:http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
改进的KNN:http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html

from: http://blog.csdn.net/yangtrees/article/details/7482890

时间: 2024-12-10 16:58:25

学习OpenCV——KNN算法的相关文章

Machine Learning In Action 第二章学习笔记: kNN算法

本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数字识别 通过“约会对象”功能,基本能够了解到kNN算法的工作原理.“手写数字识别”与“约会对象预测”使用完全一样的算法代码,仅仅是数据集有变化. 约会对象预测 1 约会对象预测功能需求 主人公“张三”喜欢结交新朋友.“系统A”上面注册了很多类似于“张三”的用户,大家都想结交心朋友.“张三”最开始通过自己筛选的

学习日志---knn算法实现

KNN算法实现: 提取文本: import numpy as np //提取文本 def loadDataSet(fileName):     numFeat = len(open(fileName).readline().split(','))     dataMat = []; labelMat = []     fr = open(fileName)     for line in fr.readlines():         lineArr=[]         line = line

KNN算法Python实现

好久没有写博客了,心血来潮.写一个刚学学习的KNN算法,其实就是比相似度,靠的进的相似度高 废话不说上代码 from numpy import * import operator #创建初始矩阵 group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) label = ['A','A','B','B'] def classfy(inX,dataSet,labes,k): dataSetSize = dataSet.shape[0]#获取矩阵的维度,就是

Opencv学习之路—Opencv下基于HOG特征的KNN算法分类训练

在计算机视觉研究当中,HOG算法和LBP算法算是基础算法,但是却十分重要.后期很多图像特征提取的算法都是基于HOG和LBP,所以了解和掌握HOG,是学习计算机视觉的前提和基础. HOG算法的原理很多资料都可以查到,简单来说,就是将图像分成一个cell,通过对每个cell的像素进行梯度处理,进而根据梯度方向和梯度幅度来得到cell的图像特征.随后,将每个cell的图像特征连接起来,得到一个BLock的特征,进而得到一张图片的特征.Opencv当中自带HOG算法,可以直接调用,进行图像的特征提取.但

K-NN算法 学习总结

1. K-NN算法简介 K-NN算法 ( K Nearest Neighbor, K近邻算法 ), 是机器学习中的一个经典算法, 比较简单且容易理解. K-NN算法通过计算新数据与训练数据特征值之间的距离, 然后选取 K (K>=1) 个距离最近的邻居进行分类或者回归. 如果K = 1 , 那么新数据将被分配给其近邻的类. K-NN算法是一种有监督学习, K-NN算法用于分类时, 每个训练数据都有明确的label, 也可以明确的判断出新数据的label, K-NN用于回归时也会根据邻居的值预测出

py4CV例子1猫狗大战和Knn算法

1.什么是猫狗大战: 数据集来源于Kaggle(一个为开发商和数据科学家提供举办机器学习竞赛.托管数据库.编写和分享代码的平台),原数据集有12500只猫和12500只狗,分为训练.测试两个部分. 2.什么是Knn算法: K最近邻(k-Nearest Neighbor,KNN)基本思想:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 如果用比较平实的话来说,就是"我们已经存在了一个带标签的数据库,现在输入没有标签的新数据后,将新

【从零学习openCV】IOS7人脸识别实战

前言 接着上篇<IOS7下的人脸检測>,我们顺藤摸瓜的学习怎样在IOS7下用openCV的进行人脸识别,实际上非常easy,因为人脸检測部分已经完毕,剩下的无非调用openCV的方法对採集到的人脸样本进行训练,终于得到一个能够预測人脸的模型.可是当中的原理可谓是博大精深,因为快临最近末考试了,没时间去琢磨当中详细的细节,这次就先写个大概的demo,下次更新文章就得到6月20号之后了. 原理: 从OpenCV2.4之后,openCV增加了新的类FaceRecognizer,我们能够使用它便捷地进

KNN算法--物以类聚,人以群分

KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归.如果K=1,那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习,数据都有明确的label(分类针对离散分布,回归针对连续分布),根据机器学习产生的模型可以将新数据分到一个明确的类

Python KNN算法

机器学习新手,接触的是<机器学习实战>这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间.今天学习的是k-近邻算法. 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息.而机器学习就是把生活中无序的数据转换成有用的信息.例如,对于垃圾邮件的检测,侦测一个单词是否存在并没有多大的作用,然而当某几个特定单词同时出现时,再辅以考虑邮件的长度及其他因素,人们就可以更准确地判定该邮件是否为垃圾邮件. 机器学习分为监督学习和无监督学习,其中: (1)监督学