使用KNN对iris数据集进行分类——python

filename=‘g:\data\iris.csv‘

lines=fr.readlines()
Mat=zeros((len(lines),4))
irisLabels=[]
index=0
for line in lines:
line=line.strip()
if len(line)>0:
listFromline=line.split(‘,‘)
irisLabels.append(listFromline[-1])
Mat[index,:]=listFromline[0:4]
index=index+1
Mat=Mat[0:150,:]
rowCount=Mat.shape[0]
hoRatio=0.2
testNum=int(hoRatio*rowCount)
train=Mat.copy()
train=train[testNum:,:]
trainLabel=irisLabels[testNum:]
def classify1(inX,train,labels,k):
rowCount=train.shape[0]
diffMat=tile(inX,(rowCount,1))-train
diffMat=diffMat**2
sqDistances=diffMat.sum(1)
distances=sqDistances**0.5
sortedDistIndices=distances.argsort()
classCount={}
for i in range(k):
voteLabels=labels[sortedDistIndices[i]]
classCount[voteLabels]=classCount.get(voteLabels,0)+1
sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]
errorCount=0
for i in range(testNum):
classifyResult=classify1(Mat[i,:],train,trainLabel,3)
if(irisLabels[i]!=classifyResult): errorCount+=1
print errorCount

时间： 2024-10-12 22:04:11

使用KNN对iris数据集进行分类——python的相关文章

关于IRIS数据集的Python分析-一份带注释的代码

所有内容都在python源码和注释里,可运行! ########################### #说明: # 撰写本文的原因是,笔者在研究博文“http://python.jobbole.com/83563/”中发现 # 原内容有少量笔误,并且对入门学友缺少一些信息.于是笔者做了增补,主要有: # 1.查询并简述了涉及的大部分算法: # 2.添加了连接或资源供进一步查询: # 3.增加了一些lib库的基本操作及说明: # 4.增加了必须必要的python的部分语法说明: # 5.增加了对

用Python实现岭回归算法与Lasso回归算法并处理Iris数据集

在介绍岭回归算法与Lasso回归算法之前,先要回顾一下线性回归算法.根据线性回归模型的参数估计公式可知可知,得到的前提是矩阵可逆.换句话说就是样本各个特征(自变量)之间线性无关.然而在实际问题中,常常会出现特征之间出现多重共线性的情况,使得行列式的值接近于0,最终造成回归系数无解或者无意义. 为了解决这个问题,岭回归算法的方法是在线性回归模型的目标函数之上添加一个l2的正则项,进而使得模型的回归系数有解.具体的岭回归目标函数可表示为如下: 在Python中,岭回归算法的实现方法如下. 在Pyth

从Iris数据集开始---机器学习入门

代码多来自<Introduction to Machine Learning with Python>. 该文集主要是自己的一个阅读笔记以及一些小思考,小总结. #前言在开始进行模型训练之前,非常有必要了解准备的数据:数据的特征,数据和目标结果之间的关系是什么?而且这可能是机器学习过程中最重要的部分. 在开始使用机器学习实际应用时,有必要先回答下面几个问题: 解决的问题是什么?现在收集的数据能够解决目前的问题吗? 该问题可以转换成机器学习问题吗?如果可以,具体属于哪一类?监督 or 非监督

85、使用TFLearn实现iris数据集的分类

''' Created on 2017年5月21日 @author: weizhen ''' #Tensorflow的另外一个高层封装TFLearn(集成在tf.contrib.learn里)对训练Tensorflow模型进行了一些封装 #使其更便于使用. #使用TFLearn实现分类问题 #为了方便数据处理,本程序使用了sklearn工具包, #更多信息可以参考http://scikit-learn.org from sklearn import model_selection from sk

数据分析经典案例-鸢尾花(iris)数据集分析

鸢尾花(iris)数据集分析 Gaius_Yao 关注 0.8 2018.12.23 14:06 字数 724 阅读 4827评论 0喜欢 5 Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例.数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度.花萼宽度.花瓣长度.花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种.

菜鸟之路——机器学习之KNN算法个人理解及Python实现

KNN(K Nearest Neighbor) 还是先记几个关键公式距离:一般用Euclidean distance E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离嘛. 还有其他距离的衡量公式,余弦值(cos),相关度(correlation) 曼哈顿距离(manhatann distance).我觉得针对于KNN算法还是Euclidean distance最好,最直观. 然后就选择最近的K个点.根据投票原则分类出结果. 首先利用sklearn自带的的iris

KNN及其改进算法的python实现

一. 马氏距离我们熟悉的欧氏距离虽然很有用,但也有明显的缺点.它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求.例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性.因此,有时需要采用不同的距离函数. 如果用dij表示第i个样品和第j个样品之间的距离,那么对一切i,j和k,dij应该满足如下四个条件: ①当且仅当i=j时,dij=0 ②dij>0 ③dij＝dji(对称性) ④dij≤dik+dkj(三角不等式) 显

Faster-RCNN+ZF用自己的数据集训练模型(Python版本)

说明:本博文假设你已经做好了自己的数据集,该数据集格式和VOC2007相同.下面是训练前的一些修改. (做数据集的过程可以看这里) Faster-RCNN源码下载地址: Matlab版本:https://github.com/ShaoqingRen/faster_rcnn Python版本:https://github.com/rbgirshick/py-faster-rcnn 本文用到的是Python版本,在Linux下运行. 准备工作: 1.配置caffe 这个不多说,网上教程很多. 2.其

sklearn训练感知器用iris数据集

简化版代码 1 from sklearn import datasets 2 import numpy as np 3 4 #获取data和类标 5 iris = datasets.load_iris() 6 X = iris.data[:,[2,3]] 7 y = iris.target 8 9 #测试样本和训练样本三七分 10 from sklearn.model_selection import train_test_split 11 X_train,X_test,y_train,y_te

猜你喜欢

PHP 导出Excel

在开发一个商城网站的时候,客户需要一个导出报表的功能,我使用PHPExcel来实现这个功能. 下载PHPExcel_1.8.0_doc.zip,将解压后的文件夹里的Classes上传到网站的根目录下, ...

SqlServer 获得存储过程的返回值（参数返回），别玩了output

declare @dingdanid int declare @fanhuizhi int set @dingdanid = 1 exec 检测订单出库资格 @dingdanid ,@fanhuizh ...

Asp.net MVC中Controller向View传值

一.使用Model 首先创建一个Model public class HelloModel { private string _name; private string _text; public s ...

杭电 1421 搬寝室

搬寝室 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submis ...

[再寄小读者之数学篇](2014-05-18 从正定矩阵构造正定矩阵)

设 A 为 n 阶正定矩阵, x , y 为 n 维列向量且满足 xty>0 . 证明矩阵 M=A+xxtxty?AyytAytAy 正定. [再寄小读者之数学篇](2014-05-18 从正定 ...

Golang使用pprof和qcachegrind进行性能监控

Golang为我们提供了非常方便的性能测试工具pprof,使用pprof可以非常方便地对Go程序的运行效率进行监测.本文讲述如何使用pprof对Go程序进行性能测试,并使用qcachegrind查看性 ...

什么VPN好用国内比较好用VPN

哪个VPN最好用国内什么VPN最好用手机VPN哪个比较好用,一直是个备受争议的话题.现在用过这么多VPN软件大家知道哪个VPN好用吗?现如今是这个网络覆盖的社会,无论是走到哪儿,基本上全部都有网络的覆 ...

psoc学习

第一是:项目的路径需要放在Documents and Settings\,也就是默认的文件夹的地方,不然会报错错误范例为:Question:CY8CKIT-023 kit example projec ...

二叉树中两个节点的最近公共祖先节点

#include <iostream> using namespace std; template<class T> struct BinaryTreeNode { ...

Tomcat不能编译.java文件

查看project --> Build Automatically有没有选中?如果没有,勾上以后,clean一下,重启eclipse.

乘法取模

当我要计算两个数相乘后取模的结果时,可以这样写: 1 typedef long long LL; 2 3 LL multi(LL a, LL b, LL mo){ 4 LL ans = 0; 5 wh ...

九图秒懂五险一金，不会用=白交钱！

阿里云服务器上搭建openvpn

为了能从办公室直接连进ECS(阿里云服务器)进行调试,所以这几天断断续续是研究开源翻墙软件pptp和openvpn,直到今天才成功.(这里很鄙视阿里云的客服和售后工程师,一会说能搭建vpn,一会说又不 ...

Linux基础服务之lrzsz

文件版本: V1.0 文件编号: R&D0023 发布日期: 2016-11-03 编制: 审批: Linux基础服务之lrzsz 目录 1.文件传输4 1.1.在线安装4 ...

学习linux决心计划书

我叫孙瑞阳,经过老男孩教育linux运维班五个月的学习后,我一定要达到的薪水目标是7k,为了达到此目标,我将采取如下行动或方案: 1, 每天学习时间最少要有十个小时 2, 把老 ...

关于Kendo UI的使用心得

1.在筛选里面的条件选项进行编辑 filterable: { extra: false, operators: { string: { startswith: "Starts with&qu ...

intellij idea安装教程

1. 双击ideaIU-12.1.1.exe,点击下一步,安装目录改为d:\Program Files\JetBrains\IntelliJ IDEA,其他项都默认即可(此处更改目录方便重做系统,不用 ...

MySQL之字符集-校对规则

一.字符集(Character set) 是多个字符(英文字符,汉字字符,或者其他国家语言字符)的集合,字符集种类较多,每个字符集包含的字符个数不同. 特点: ①字符编码方式是用一个或多个字节表示字符 ...

使用webuploader上传图片

使用方法很简单,就是引用一下js文件,然后在js里配置一下要上传的地址就可以了 <script type="text/javascript" src="./js/j ...

GDI+ 填充背景时，非常多时候不起作用，GDI、GDI+配合运用

在ONDRAW中运行GDI+ 填充背景时,不起作用,不知道什么原因 [cpp] view plaincopy Graphics graphics(pDC->GetSafeHdc()); Bitm ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.