K最邻近算法(下)

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 from sklearn.datasets import make_blobs
 4 from sklearn.neighbors import KNeighborsRegressor
 5 from sklearn.datasets import  make_regression
 6 from sklearn.datasets import  load_wine
 7 from sklearn.model_selection import  train_test_split
 8
 9 wine_dataset = load_wine()
10 X_train,X_test,y_train,y_test = train_test_split(wine_dataset[‘data‘],wine_dataset[‘target‘],random_state=0)
11 #将random_state = 0是因为tarin_test_split函数会生成一个为随机函数,并且会根据这个伪随机数对数据集进行拆分
12 knn = KNeighborsRegressor(n_neighbors=1)
13
14 #查看参数设定
15 knn.fit(X_train,y_train)
16 print(knn)
17 print(‘模型得分:{:,.2f}‘.format(knn.score(X_test,y_test)))
18
19 #预测新红酒的分类
20 X_new = np.array([[13.2, 2.77, 2.51, 18.5, 96.6, 1.04, 2.55, 0.57, 1.47, 6.21, 1.05, 3.33, 820]])
21 prediction = knn.predict(X_new)
22 print("预测新红酒的分类为:{}".format(wine_dataset[‘target_names‘][prediction]))
23 #print(‘X-_train shape:{}‘.format(X_train.shape))
24 # print("红酒数据集中的键:\n{}".format(wine_dataset.keys()))
25 #
26 # print("数据概况:{}".format(wine_dataset[‘data‘].shape))
27 #
28 # print(wine_dataset[‘DESCR‘])

以上代码是一个关于酒分类的问题

具体的后面还会继续做

原文地址:https://www.cnblogs.com/weiyang2/p/11959344.html

时间: 2024-10-15 06:28:49

K最邻近算法(下)的相关文章

k最邻近算法——加权kNN

加权kNN 上篇文章中提到为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重,在此描述如何加权. 反函数 该方法最简单的形式是返回距离的倒数,比如距离d,权重1/d.有时候,完全一样或非常接近的商品权重会很大甚至无穷大.基于这样的原因,在距离求倒数时,在距离上加一个常量: weight = 1 / (distance + const) 这种方法的潜在问题是,它为近邻分配很大的权重,稍远一点的会衰减的很快.虽然这种情况是我们希望的,但有时候也会使算法对噪声数据变得更加敏感. 高斯函数 高

k邻近算法

3.1k邻近算法 给定一个训练数据集,对于新的输入实例,在训练数据集中找到该实例最近的K 的实例,这k个实例的多数属于某个类,酒吧该输入实例分为这个类. 算法3.1 输入:训练数据集 其中xi为实例的特征向量,yi为实例的类别, 输出:实例x的类y (1)根据给定的距离度量,在训练集T中找出与x最邻近的k个点,涵盖这个K个点的x的邻域记做Nk(x): (2)在Nk(x)中根据分类决策规则(如多数表决决定x的类别y): I为指示函数,当yi=cj时,I为1,否则I为0. k邻近算法的特殊情况是k=

《机器学习实战》学习笔记一K邻近算法

 一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征(向量的每个元素)与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的的分类标签.由于样本集可以很大,我们选取前k个最相似数据,然后统计k个数据中出现频率最高的标签为新数据的标签. K邻近算法的一般流程: (1)收集数据:可以是本地数据,也可以从网页抓取. (2)准备数

K Nearest Neighbor 算法

K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类.你可以简单的理解为由那离自己最近的K个点来投

机器学习经典算法详解及Python实现--K近邻(KNN)算法

(一)KNN依然是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归.如果K=1,那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习,数据都有明确的label(分类针对离散分布,回归针对连续分布),根据机器学习产

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法

(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离近期的邻居进行分类推断(投票法)或者回归.假设K=1.那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习.数据都有明白的label(分类针对离散分布,回归针对连续分布),依据机器学习产

机器学习实战笔记-利用K均值聚类算法对未标注数据分组

聚类是一种无监督的学习,它将相似的对象归到同一个簇中.它有点像全自动分类.聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好 簇识别给出聚类结果的含义.假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么.聚类与分类的最大不同在于,分类的目标事先巳知,而聚类则不一样.因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类(unsupervised classification ). 聚类分析试图将相似对象归人同一簇,将不相似对象归到不

KNN- K最邻近算法

KNN分类算法:一个样本i与距离样本i最近的k个样本归属于同一类,如果k个样本属于不同的分类,则样本i属于k个中大多数样本所属的那一类 ①距离的定义:分为两种 第一种距离 L1:曼哈顿距离 第二种距离 L2:欧氏距离 ②K:k=1时,退化为最邻近算法:应存在一个k使得算法整体最优 ③算法过程: step.1---初始化距离为最大值 step.2---计算未知样本和每个训练样本的距离dist step.3---得到目前K个最邻近样本中的最大距离maxdist step.4---如果dist小于ma

K-means算法

K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢?     那我们就用K-means算法进行划分吧. 算法很简单,这么做就可以啦: 第一步:随机初始化每种类别的中心点,u1,u2,u3,--,uk; 第二步:重复以下过程: 然后 ,就没有然后了,就这样子. 太简单, 不解释.