sklearn库kmeans实现实例

# -*- coding: utf-8 -*-from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpyimport pandas as pddef kmeans(inputfile,n):

final = open(‘data/dataset.csv‘ , ‘r‘)

data = [line.strip().split(‘,‘) for line in final]    feature = [[float(x) for x in row[1]] for row in data]    # print feature    #调用kmeans类    clf = KMeans(n_clusters=n)  #给定类别个数为3    s = clf.fit(feature)    # print s    #聚类中心坐标    print ‘聚类中心‘,clf.cluster_centers_    #每个样本所属的簇    print ‘每个样本所属的簇‘,clf.labels_ #每个点的分类    #用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数    print clf.inertia_ #每个点到其簇的质心的距离之和    #进行预测    df = pd.read_csv(‘data/dataset1.csv‘)  #未添加类标签的数据集    label = clf.predict(feature)    labelpre = pd.DataFrame(label,columns=[‘label‘])    df[‘label‘] = labelpre  #将聚类之后的类标签添加到数据集中    # print clf.predict(feature)    print df    #保存模型    joblib.dump(clf , ‘data/km.pkl‘)

#载入保存的模型    clf = joblib.load(‘data/km.pkl‘)    print ‘clf‘,clf    ‘‘‘    #用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数    for i in range(5,30,1):        clf = KMeans(n_clusters=i)        s = clf.fit(feature)        print i , clf.inertia_    ‘‘‘kmeans(‘data/danger.csv‘,3)

原文地址:https://www.cnblogs.com/eternallql/p/8142990.html

时间: 2024-10-08 07:29:52

sklearn库kmeans实现实例的相关文章

Python的Sklearn库的基本用法

Sklearn库是基于Python的第三方库,它包括机器学习开发的各个方面. 机器学习的开发基本分为六个步骤,1)获取数据,2)数据处理,3)特征工程,4)机器学习的算法训练(设计模型),5)模型评估,6)应用. 机器学习的算法一般分为两种:一种既有目标值又有特征值的算法称之为监督学习,另一种只有特征值的算法称之为无监督学习.而监督学习还可以继续细分为分类算法和回归算法. 1)获取数据⑤ Sklearn中获取数据集使用的包为Sklearn.datasets,之后可以接load_* 和fetch_

复盘一篇讲sklearn库学习文章(上)

认识 sklearn 官网地址: https://scikit-learn.gor/stable/ 从2007年发布以来, scikit-learn已成为重要的Python机器学习库, 简称sklearn, 支持包括分类, 回归, 降维和聚类等机器学习算法, 还包括了特征提取, 数据处理, 模型评估三大模块. sklearn是Scipy的扩展, 建立在Numpy, Matplotlib..等库的基础上. 拥有完善的文档, 上手容易, API丰富, 同时封装了大量的机器学习算法, 且内置了大量数据

Python3.5 数据处理 –jieba + sklearn库安装及第一个示例

一,安装pip3: #sudo apt-get install pip3 二,安装jieba: #sudo pip3 install jieba 三,安装sklearn: #sudo pip3 install scikit-learn 四,安装sklearn依赖(numpy,scipy): #sudo pip3 install numpy #sudo pip3 install scipy eg:国内安装时可能出现time-out错误-解决办法如下: #sudo pip3 install -i h

sklearn库的安装

sklearn库 sklearn是scikit-learn的简称,是一个基于Python的第三方模块.sklearn库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用sklearn库中提供的模块就能完成大多数的机器学习任务. sklearn库是在Numpy.Scipy和matplotlib的基础上开发而成的,因此在介绍sklearn的安装前,需要先安装这些依赖库. Numpy库:Numpy(Numerical Python的缩写)是一个开源的Python科学

聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用

4 用python实现K均值算法 x=np.random.randint(1,100,[20,1]) y=np.zeros(20) k=3 def initcenter(x,k): return x[:k] def nearest(kc,i): d = (abs(kc - i)) w = np.where(d ==np.min(d)) return w [0] [0] kc = initcenter(x,k) nearest(kc,14) for i in range(x.shape[0]):

03_有监督学习--简单线性回归模型(调用 sklearn 库代码实现)

有监督学习--简单线性回归模型(调用 sklearn 库代码实现)0.引入依赖1.导入数据(data.csv)2.定义损失函数3.导入机器学习库 sklearn4.测试:运行算法,从训练好的模型中提取出系数和截距5.画出拟合曲线6.附录-测试数据 有监督学习--简单线性回归模型(调用 sklearn 库代码实现) 0.引入依赖 import numpy as npimport matplotlib.pyplot as plt 1.导入数据(data.csv) points = np.genfro

1.1.2:sklearn库的下载安装

sklearn库的下载安装 方法一 anaconda优雅安装 方法二 pycharm内安装 方法三 pip和shell安装(内心OS:???) 方法四 官网下载,pip安装,如下 ? 该地址也提供了很多其它库.注意:sklearn库的安装方式和另外三个是不同的.如下: ? ? ? ? 测试是否安装成功 进入python的命令行模式,导入包进行测试.没有错误则说明全部安装成功. ? 原文地址:https://www.cnblogs.com/nishida-rin/p/12253010.html

1.1.3:sklearn库中的标准数据集及基本功能

sklearn的数据集种类: 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name> 计算机生成的数据集(Generated Dataset):sklearn.datasets.make_<name> svmlight/libsvm格式的数据集:sklearn.datasets.load_svmli

python sklearn库实现逻辑回归的实例代码

Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法. Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具 让每个人能够在复杂环境中重复使用 建立NumPy.Scipy.MatPlotLib之上 代