04_有监督学习--分类模型--K 近邻（kNN）

有监督学习--分类模型--K 近邻（kNN）0.引入依赖1.数据的加载和预处理2.核心算法实现3.测试4.自动化测试

有监督学习--分类模型--K 近邻（kNN）

0.引入依赖

import numpy as np # 数值计算、矩阵运算、向量运算import pandas as pd # 数值分析、科学计算

# 这里直接引入 sklearn 里的数据集 --> iris 鸢尾花from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split # 切分数据集为训练集和测试集from sklearn.metrics import accuracy_score # 计算分类预测的准确率

1.数据的加载和预处理

iris = load_iris()# iris # 字典# type(iris) # sklearn.utils.Bunch

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)# print(df)

df[‘class‘] = iris.targetdf[‘class‘] = df[‘class‘].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})# df

df.describe()

输出结果如下：

小测试：

x = iris.data# x # x 是二维数组

# y = iris.target# y # y 是一维数组，需要转成二维数组

y = iris.target.reshape(-1, 1) # 变成 n 行 1 列的列向量# y

print(x.shape, y.shape) # (150, 4) (150, 1)

输出结果：

(150, 4) (150, 1)

划分训练集和测试集：

# 划分训练集和测试集，第三个参数我们选取简单交叉验证，第四个参数表示随机划分，第五个参数表示按照 y 的分布等比例分割x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=35, stratify=y)

print(x_train.shape, y_train.shape)print(x_test.shape, y_test.shape)

# 测试# x_test = x_test[0].reshape(1, -1) # 将一维数组 x.test[0] 变为 二维数组# x_test.shape # (1, 4)# print(x_train)# print(x_test)# np.sum(np.abs(x_train - x_test), axis=1)

# distances = np.array([2, 1, 5, 4, 3, 11, 15, 20, 9, 110])# print(np.argsort(distances)) # [1 0 4 3 2 8 5 6 7 9]

# nn_index = np.argsort(distances)# print(nn_index[0:3]) # [1 0 4]

# nn_y = y_train[nn_index[0:3]].ravel()

# print(nn_y) # [2 1 1]# print(np.bincount(nn_y)) # [0 2 1]# print(np.argmax(np.bincount(nn_y))) # 1

输出结果：

(105, 4) (105, 1)(45, 4) (45, 1)

2.核心算法实现

# 定义距离函数# 曼哈顿距离的平方def l1_distance(a, b): # 这里要求：a 可以是矩阵，b 必须是向量，且是行向量    return np.sum(np.abs(a - b), axis=1) # axis=1 表示将 sum 的运算结果保存成 1 列

# 欧式距离def l2_distance(a, b):     return np.sqrt(np.sum((a - b) ** 2, axis=1))

# 分类器实现class kNN(object):    # 定义一个初始化方法，形式是 __init__ 是类的构造方法    def __init__(self, n_neighbors=1, dist_func=l1_distance):        self.n_neighbors = n_neighbors        self.dist_func = dist_func

    # 定义模型的训练方法    def fix(self, x, y):        self.x_train = x        self.y_train = y

    # 定义模型的预测方法    def predict(self, x):        # 初始化预测分类数组        y_pred = np.zeros((x.shape[0], 1), dtype=self.y_train.dtype)

        # 遍历输入的 x 数据点，取出每一个数据点的序号 i 和数据 x_test        for i, x_test in enumerate(x):            # 计算 x_test 与各个训练数据之间的距离            distances = self.dist_func(self.x_train, x_test)

            # 得到的距离按照由近到远排序，取的是索引值            nn_index = np.argsort(distances)

            # 选取最近的 k 个点，保存它们对应的分类类别            nn_y = self.y_train[nn_index[0:self.n_neighbors]].ravel()

            # 统计类别中出现频率最高的那个，赋值给 y_pred[i]            y_pred[i] = np.argmax(np.bincount(nn_y))

        return y_pred

3.测试

# 定义一个 kNN 的实例knn = kNN(n_neighbors=3)# 训练模型knn.fix(x_train, y_train)# 测试模型y_pred = knn.predict(x_test)

# 求出预测的准确率accuracy = accuracy_score(y_test, y_pred)print(‘预测准确率：‘, accuracy)

输出结果：

预测准确率： 0.9333333333333333

4.自动化测试

# 定义一个 kNN 的实例knn = kNN()# 训练模型knn.fix(x_train, y_train)

# 保存结果 listresult_list = []

# 针对不同的参数选取做预测for p in [1, 2]:    knn.dist_func = l1_distance if p == 1 else l2_distance    # 考虑不同的 k 取值    for k in range(1, 10, 2): # 1, 3, 5, 7, 9 注意：二元分类中我们选取 k 为奇数，但是本题中是三元分类，效果不明显        knn.n_neighbors = k        # 传入测试数据，测试模型        y_pred = knn.predict(x_test)        # 求出预测的准确率        accuracy = accuracy_score(y_test, y_pred)        result_list.append([k, ‘l1_distance‘ if p == 1 else ‘l2_distance‘, accuracy])

df = pd.DataFrame(result_list, columns=[‘k‘, ‘距离函数‘, ‘预测正确率‘])df

输出结果如下：

原文地址：https://www.cnblogs.com/chenmingjun/p/10884545.html

时间： 2024-10-10 05:21:12

04_有监督学习--分类模型--K 近邻（kNN）的相关文章

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法

(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离近期的邻居进行分类推断(投票法)或者回归.假设K=1.那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习.数据都有明白的label(分类针对离散分布,回归针对连续分布),依据机器学习产

05_无监督学习--聚类模型--K 均值

无监督学习--聚类模型--K 均值0.引入依赖1.数据的加载和预处理2.算法实现3.测试无监督学习--聚类模型--K 均值 0.引入依赖 import numpy as npimport matplotlib.pyplot as plt # 这里直接 sklearn 里的数据集from sklearn.datasets.samples_generator import make_blobs 1.数据的加载和预处理 x, y = make_blobs(n_samples=100, centers

机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)

六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocessing.py import numpy as np class StandardScaler: def __init__(self): self.mean_ = None self.scale_ = None def fit(self, X): """根据训练数据集X获得数据的均

机器学习经典算法详解及Python实现--K近邻(KNN)算法

(一)KNN依然是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归.如果K=1,那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习,数据都有明确的label(分类针对离散分布,回归针对连续分布),根据机器学习产

k近邻(KNN)复习总结

摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合内容: 1.算法概述 K近邻算法是一种基本分类和回归方法:分类时,根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测:k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的"模型".(Cover和Hart 在1968)--参考自<统计学习方法> 2.算法推导 2.1 kNN三要素 k值的选择:当k值较小时,预测结果对近邻的实例点非常敏感,容易发生过拟

最基础的分类算法-k近邻算法 kNN简介及Jupyter基础实现及Python实现

k-Nearest Neighbors简介对于该图来说,x轴对应的是肿瘤的大小,y轴对应的是时间,蓝色样本表示恶性肿瘤,红色样本表示良性肿瘤,我们先假设k=3,这个k先不考虑怎么得到,先假设这个k是通过程序员经验得到. 假设此时来了一个新的样本绿色,我们需要预测该样本的数据是良性还是恶性肿瘤.我们从训练样本中选择k=3个离新绿色样本最近的样本,以选取的样本点自己的结果进行投票,如图投票结果为蓝色:红色=3:0,所以预测绿色样本可能也是恶性肿瘤. 再比如此时来了一个新样本,我们选取离该样本最近

j简单的分类实现-K近邻

1 __author__ = 'worfzyq' 2 from numpy import * 3 import operator 4 5 def creatDataset() : 6 group=array([[1.0,1.1],[1.0,1.0],[0.0,0.0],[0,0.1]]) 7 labels=['A','A','B','B'] 8 return group,labels 9 10 def classify0(inX,dataSet,labels,k) :1

k近邻算法（k-nearest neighbor,k-NN）

kNN是一种基本分类与回归方法.k-NN的输入为实例的特征向量,对应于特征空间中的点:输出为实例的类别,可以取多类.k近邻实际上利用训练数据集对特征向量空间进行划分,并作为其分类的"模型".k值的选择.距离度量及分类决策规则是k近邻的三个基本要素. 算法输入:训练数据集T={(x1,y1),(x2,y2),--..,(xN,yN)} 输出:实例x所属的类y (1)根据给定的距离度量,在训练集T中找到与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x) (2)在Nk(x)中根据分类

k近邻算法理论（一）

时间 :2014.07.05 地点:基地 ----------------------------------------------------------------------------------- 一.简述 K近邻法(k-nearest neighbor,kNN)是一种基本分类与回归方法.k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别.k近邻算法的基本思想是:给定训练数据集,实例类别已定,在对目标实例进行分类时,我们根据与目标实例k个最近邻居的训练实例的类别,通过