【scikit-learn】学习Python来分类现实世界的数据

引入

一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。

这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。

Iris数据集

Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本,每个样本还有4个特征参数(分别是萼片<sepals>的长宽和花瓣<petals>的长宽,以厘米为单位),Fisher利用这个数据集开发了一个线性判别模型来辨别花朵的品种。

基于Fisher的线性判别模型,该数据集成为了机器学习中各种分类技术的典型实验案例。

现在我们要解决的分类问题是,当我们看到一个新的iris花朵,我们能否根据以上测量参数成功预测新iris花朵的品种。

我们利用给定标签的数据,设计一种规则进而应用到其他样本中做预测,这是基本的监督问题(分类问题)。

由于iris数据集样本量和维度都很小,所以可以方便进行可视化和操作。

数据的可视化(visualization)

scikit-learn自带有一些经典的数据集,比如用于分类的iris和digits数据集,还有用于回归分析的boston house prices数据集。

可以通过下面的方式载入数据:

from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

该数据集是一种字典结构,数据存储在.data成员中,输出标签存储在.target成员中。

画出任意两维的数据散点图

可以用下面的方式画出任意两个维度的散点图,这里以第一维sepal length和第二维数据sepal width为例:

from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np

iris = datasets.load_iris()
irisFeatures = iris["data"]
irisFeaturesName = iris["feature_names"]
irisLabels = iris["target"]

def scatter_plot(dim1, dim2):
    for t,marker,color in zip(xrange(3),">ox","rgb"):
           # zip()接受任意多个序列参数,返回一个元组tuple列表
        # 用不同的标记和颜色画出每种品种iris花朵的前两维数据
        # We plot each class on its own to get different colored markers
        plt.scatter(irisFeatures[irisLabels == t,dim1],
                    irisFeatures[irisLabels == t,dim2],marker=marker,c=color)
    dim_meaning = {0:‘setal length‘,1:‘setal width‘,2:‘petal length‘,3:‘petal width‘}
    plt.xlabel(dim_meaning.get(dim1))
    plt.ylabel(dim_meaning.get(dim2))

plt.subplot(231)
scatter_plot(0,1)
plt.subplot(232)
scatter_plot(0,2)
plt.subplot(233)
scatter_plot(0,3)
plt.subplot(234)
scatter_plot(1,2)
plt.subplot(235)
scatter_plot(1,3)
plt.subplot(236)
scatter_plot(2,3)

plt.show()

效果如图:

构建分类模型

根据某一维度的阈值进行分类

如果我们的目标是区别这三种花朵,我们可以做一些假设。比如花瓣的长度(petal length)好像将Iris Setosa品种与其它两种花朵区分开来。我们可以以此来写一段小代码看看这个属性的边界是什么:

petalLength = irisFeatures[:,2] #select the third column,since the features is 150*4
isSetosa = (irisLabels == 0) #label 0 means iris Setosa
maxSetosaPlength = petalLength[isSetosa].max()
minNonSetosaPlength = petalLength[~isSetosa].min()

print (‘Maximum of setosa:{0} ‘.format(maxSetosaPlength))
print (‘Minimum of others:{0} ‘.format(minNonSetosaPlength))

‘‘‘
显示结果是:
Maximum of setosa:1.9
Minimum of others:3.0
‘‘‘

我们根据实验结果可以建立一个简单的分类模型,如果花瓣长度小于2,就是Iris Setosa花朵,否则就是其他两种花朵。

这个模型的结构非常简单,是由数据的一个维度阈值来确定的。我们通过实验确定这个维度的最佳阈值。

以上的例子将Iris Setosa花朵和其他两种花朵很容易的分开了,然而我们不能立即确定Iris Virginica花朵和Iris Versicolor花朵的最佳阈值,我们甚至发现,我们无法根据某一维度的阈值将这两种类别很完美的分开。

比较准确率来得到阈值

我们先选出非Setosa的花朵。

irisFeatures = irisFeatures[~isSetosa]
labels = irisLabels[~isSetosa]
isVirginica = (labels == 2)    #label 2 means iris virginica

这里我们非常依赖NumPy对于数组的操作,isSetosa是一个Boolean值数组,我们可以用它来选择出非Setosa的花朵。最后,我们还构造了一个新的Boolean数组,isVirginica。

接下来,我们对每一维度的特征写一个循环小程序,然后看一下哪一个阈值能得到更好的准确率。

# search the threshold between virginica and versicolor
irisFeatures = irisFeatures[~isSetosa]
labels = irisLabels[~isSetosa]
isVirginica = (labels == 2)    #label 2 means iris virginica

bestAccuracy = -1.0
for fi in xrange(irisFeatures.shape[1]):
    thresh = irisFeatures[:,fi].copy()
    thresh.sort()
    for t in thresh:
        pred = (irisFeatures[:,fi] > t)
        acc = (pred == isVirginica).mean()
        if acc > bestAccuracy:
            bestAccuracy = acc;
            bestFeatureIndex = fi;
            bestThreshold = t;

print ‘Best Accuracy:\t\t‘,bestAccuracy
print ‘Best Feature Index:\t‘,bestFeatureIndex
print ‘Best Threshold:\t\t‘,bestThreshold

‘‘‘
最终结果:
Best Accuracy:        0.94
Best Feature Index:    3
Best Threshold:        1.6
‘‘‘

这里我们首先对每一维度进行排序,然后从该维度中取出任一值作为阈值的一个假设,再计算这个假设的Boolean序列和实际的标签Boolean序列的一致情况,求平均,即得到了准确率。经过所有的循环,最终得到的阈值和所对应的维度。

最后,我们得到了最佳模型针对第四维花瓣的宽度petal width,我们就可以得到这个决策边界decision boundary。

评估模型——交叉检验

上面,我们得到了一个简单的模型,并且针对训练数据实现了94%的正确率,但这个模型参数可能过于优化了。

我们需要的是评估模型针对新数据的泛化能力,所以我们需要保留一部分数据,进行更加严格的评估,而不是用训练数据做测试数据。为此,我们会保留一部分数据进行交叉检验。

这样我们就会得到训练误差和测试误差,当复杂的模型下,可能训练的准确率是100%,但是测试时效果可能只是比随机猜测好一点。

交叉检验

在许多实际应用中,数据是不充足的。为了选择更好的模型,可以采用交叉检验方法。交叉检验的基本想法是重复地使用数据;把给定数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。

S-fold交叉检验

应用最多的是S折交叉检验(S-fold cross validation),方法如下:首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。

如上图,我们将数据集分成5部分,即5-fold交叉检验。接下来,我们可以对每一个fold生成一个模型,留出20%的数据进行检验。

leave-one-out交叉检验方法

留一交叉检验(leave-one-out cross validation)是S折交叉检验的特殊情形,是S为给定数据集的容量时情形。

我们可以从训练数据中挑选一个样本,然后拿其他训练数据得到模型,最后看该模型是否能将这个挑出来的样本正确的分类。

def learn_model(features,labels):
    bestAccuracy = -1.0
    for fi in xrange(features.shape[1]):
        thresh = features[:,fi].copy()
        thresh.sort()
        for t in thresh:
            pred = (features[:,fi] > t)
            acc = (pred == labels).mean()
            if acc > bestAccuracy:
                bestAccuracy = acc;
                bestFeatureIndex = fi;
                bestThreshold = t;
    ‘‘‘
    print ‘Best Accuracy:\t\t‘,bestAccuracy
    print ‘Best Feature Index:\t‘,bestFeatureIndex
    print ‘Best Threshold:\t\t‘,bestThreshold
    ‘‘‘
    return {‘dim‘:bestFeatureIndex, ‘thresh‘:bestThreshold, ‘accuracy‘:bestAccuracy}

def apply_model(features,labels,model):
    prediction = (features[:,model[‘dim‘]] > model[‘thresh‘])
    return prediction

#-----------cross validation-------------
error = 0.0
for ei in range(len(irisFeatures)):
    # select all but the one at position ‘ei‘:
    training = np.ones(len(irisFeatures), bool)
    training[ei] = False
    testing = ~training
    model = learn_model(irisFeatures[training], isVirginica[training])
    predictions = apply_model(irisFeatures[testing],
                              isVirginica[testing], model)
    error += np.sum(predictions != isVirginica[testing])

上面的程序,我们用所有的样本对一系列的模型进行了测试,最终的估计说明了模型的泛化能力。

小结

对于上面对数据集进行划分时,我们需要注意平衡分配数据。如果对于一个子集,所有的数据都来自一个类别,则结果没有代表性。

基于以上的讨论,我们利用一个简单的模型来训练,交叉检验过程给出了这个模型泛化能力的估计。

参考文献

Wiki:Iris flower data set

Building Machine Learning Systems with Python

转载请注明作者Jason Ding及其出处

Github主页(http://jasonding1354.github.io/)

CSDN博客(http://blog.csdn.net/jasonding1354)

简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

时间: 2024-08-13 16:32:17

【scikit-learn】学习Python来分类现实世界的数据的相关文章

【机器学习实验】学习Python来分类现实世界的数据

引入 一个机器能够依据照片来辨别鲜花的品种吗?在机器学习角度,这事实上是一个分类问题.即机器依据不同品种鲜花的数据进行学习.使其能够对未标记的測试图片数据进行分类. 这一小节.我们还是从scikit-learn出发,理解主要的分类原则,多动手实践. Iris数据集 Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集.能够作为判别分析(discriminant analysis)的样本.该数据集包括Iris花的三个品种(Iris setosa, Iri

机器学习-scikit learn学习笔记

scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习问题一般可以分为: 监督学习(supervised learning) 分类(classification) 回归(regression) 非监督学习(unsupervised learning) 聚类(clustering) 监督学习和非监督学习的区别就是,监督学习中,样本数据会包含要预测的标签(

在ubuntu中配置深度学习python图片分类实验环境

1 安装numpy,scipy, matplotlib, sudo apt-get install python-numpy sudo apt-get install python-scipy sudo apt-get install python-matplotlibsudo apt-get install python-dev 2 图片处理相关的科学库 pip install scikit-image

Python之扩展包安装(scikit learn)

scikit learn 是Python下开源的机器学习包.(安装环境:win7.0 32bit和Python2.7) Python安装第三方扩展包较为方便的方法:easy_install + packages name 在官网 https://pypi.python.org/pypi/setuptools/#windows-simplified 下载名字为 的文件. 在命令行窗口运行 ,安装后,可在python2.7文件夹下生成Scripts文件夹.把路径D:\Python27\Scripts

Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数,

如何让强化学习走进现实世界?

来源商业新知网,原标题:应用|如何让强化学习走进现实世界? 火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实.控制物理世界中的物体呢? DeepMind已经开始往这方面努力.他们昨天发布的控制套件“ DeepMind Control Suite ”,就为设计和比较用来控制物理世界的强化学习算法开了个头. 就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们

scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类

scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import numpy as np from sklearn.pipeline import Pipeline from sklearn.linear_model import SGDClassifier from sklearn.grid_search import GridSearchCV from sk

吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

学习Python的day1

自己以前从来没有写博客的想法,但是学Python,里面的老师也说了,写博客可以加深自己的记忆,也能回顾内容.还能给别人参考.挺值的.2017-09-16 一. Python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承. 最新的TIOBE排行榜,Python赶超PHP占据第五, Python崇尚优美.清晰.简单,是一个优秀并广泛使用的语言. Py