【火炉炼AI】机器学习017-使用GridSearch搜索最佳参数组合

【火炉炼AI】机器学习017-使用GridSearch搜索最佳参数组合

(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )

在前面的文章(【火炉炼AI】机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法),我们使用了验证曲线来优化模型的超参数,但是使用验证曲线难以同时优化多个参数的取值,只能一个参数一个参数的优化,从而获取每个参数的最优值,但是有时候,一个非常优秀的模型,可能A参数取最优值时,B参数并不一定是最优值,从而使得验证曲线的方式有其自身的弊端。

此处介绍的使用GridSearch来搜索最佳参数组合的方法,可以避免上述弊端,GridSearch可以同时优化多个不同参数的取值。

1. 准备数据集

数据集的准备工作和文章(【火炉炼AI】机器学习014-用SVM构建非线性分类模型)中一模一样,此处不再赘述。

2. 使用GridSearch函数来寻找最优参数

使用GridSearch函数来寻找最优参数,需要首先定义要搜索的参数候选值,然后定义模型的评价指标,以此来评价模型的优虐。,GridSearch会自动计算各种参数候选值,从而得到最佳的参数组合,使得评价指标最大化。

from sklearn import svm, grid_search, cross_validation
from sklearn.metrics import classification_report

parameter_grid = [  {‘kernel‘: [‘linear‘], ‘C‘: [1, 10, 50, 600]}, # 需要优化的参数及其候选值
                    {‘kernel‘: [‘poly‘], ‘degree‘: [2, 3]},
                    {‘kernel‘: [‘rbf‘], ‘gamma‘: [0.01, 0.001], ‘C‘: [1, 10, 50, 600]},
                 ]

metrics = [‘precision‘, ‘recall_weighted‘] # 评价指标好坏的标准

for metric in metrics:
    print("Searching optimal hyperparameters for: {}".format(metric))

    classifier = grid_search.GridSearchCV(svm.SVC(C=1),
            parameter_grid, cv=5, scoring=metric)
    classifier.fit(train_X, train_y)

    print("\nScores across the parameter grid:")
    for params, avg_score, _ in classifier.grid_scores_:  # 打印出该参数下的模型得分
        print(‘{}: avg_scores: {}‘.format(params,round(avg_score,3)))

    print("\nHighest scoring parameter set: {}".format(classifier.best_params_))

    y_pred =classifier.predict(test_X) # 此处自动调用最佳参数??
    print("\nFull performance report:\n {}".format(classification_report(test_y,y_pred)))

-------------------------------------输---------出--------------------------------

Searching optimal hyperparameters for: precision

Scores across the parameter grid:

{‘C‘: 1, ‘kernel‘: ‘linear‘}: avg_scores: 0.809

{‘C‘: 10, ‘kernel‘: ‘linear‘}: avg_scores: 0.809

{‘C‘: 50, ‘kernel‘: ‘linear‘}: avg_scores: 0.809

{‘C‘: 600, ‘kernel‘: ‘linear‘}: avg_scores: 0.809

{‘degree‘: 2, ‘kernel‘: ‘poly‘}: avg_scores: 0.859

{‘degree‘: 3, ‘kernel‘: ‘poly‘}: avg_scores: 0.852

{‘C‘: 1, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 1.0

{‘C‘: 1, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.0

{‘C‘: 10, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.968

{‘C‘: 10, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.855

{‘C‘: 50, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.946

{‘C‘: 50, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.975

{‘C‘: 600, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.948

{‘C‘: 600, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.968

Highest scoring parameter set: {‘C‘: 1, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}

Full performance report:

precision recall f1-score support

0 0.75 1.00 0.86 36

1 1.00 0.69 0.82 39

avg / total 0.88 0.84 0.84 75

Searching optimal hyperparameters for: recall_weighted

Scores across the parameter grid:

{‘C‘: 1, ‘kernel‘: ‘linear‘}: avg_scores: 0.653

{‘C‘: 10, ‘kernel‘: ‘linear‘}: avg_scores: 0.653

{‘C‘: 50, ‘kernel‘: ‘linear‘}: avg_scores: 0.653

{‘C‘: 600, ‘kernel‘: ‘linear‘}: avg_scores: 0.653

{‘degree‘: 2, ‘kernel‘: ‘poly‘}: avg_scores: 0.889

{‘degree‘: 3, ‘kernel‘: ‘poly‘}: avg_scores: 0.884

{‘C‘: 1, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.76

{‘C‘: 1, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.507

{‘C‘: 10, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.907

{‘C‘: 10, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.658

{‘C‘: 50, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.92

{‘C‘: 50, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.72

{‘C‘: 600, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.933

{‘C‘: 600, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.902

Highest scoring parameter set: {‘C‘: 600, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}

Full performance report:

precision recall f1-score support

0 1.00 0.92 0.96 36

1 0.93 1.00 0.96 39

avg / total 0.96 0.96 0.96 75

--------------------------------------------完-------------------------------------

########################小**********结###############################

1. 使用GridSearch中的GridSearchCV可以实现最佳参数组合的搜索,但需要指定候选参数和模型的评价指标。

2. 使用classifier.best_params_函数可以直接把最佳的参数组合打印出来,方便以后参数的直接调用

3. classifier.predict函数是自动调用最佳的参数组合来预测,从而得到该模型在测试集或训练集上的预测值。

#################################################################

如果要使用最佳参数来构建SVM模型,可以采用下面的代码来实现:

best_classifier=svm.SVC(C=600,gamma=0.01,kernel=‘rbf‘) # 上面的full performance report的确使用的是最佳参数组合
best_classifier.fit(train_X, train_y)
y_pred =best_classifier.predict(test_X)
print("\nFull performance report:\n {}".format(classification_report(test_y,y_pred)))

得到的结果和上面full performance report一模一样。

注:本部分代码已经全部上传到(我的github)上,欢迎下载。

参考资料:

1, Python机器学习经典实例,Prateek Joshi著,陶俊杰,陈小莉译

原文地址:https://www.cnblogs.com/RayDean/p/9765701.html

时间: 2024-08-29 09:57:36

【火炉炼AI】机器学习017-使用GridSearch搜索最佳参数组合的相关文章

【火炉炼AI】机器学习018-项目案例:根据大楼进出人数预测是否举办活动

[火炉炼AI]机器学习018-项目案例:根据大楼进出人数预测是否举办活动 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 我们经常看到办公大楼中人来人往,进进出出,在平时没有什么活动的时候,进出大楼的人数会非常少,而一旦举办有大型商业活动,则人山人海,熙熙攘攘,所以很明显,大楼进出的人数和大楼是否举办活动有很明显的关联,那么,是否可以构建一个模型,通过大楼进出人数来预测该大楼是否在举办

【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型

[火炉炼AI]机器学习007-用随机森林构建共享单车需求预测模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 共享单车是最近几年才发展起来的一种便民交通工具,基本上是我等屌丝上班,下班,相亲,泡妞必备神器.本项目拟使用随机森林回归器构建共享单车需求预测模型,从而查看各种不同的条件下,共享单车的需求量. 1. 准备数据集 本次使用的数据集来源于加利福尼亚大学欧文分校(UCI)大学的公

【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型

[火炉炼AI]机器学习006-用决策树回归器构建房价评估模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 最近几十年,房价一直是中国老百姓心中永远的痛,有人说,中国房价就像女人的无肩带文胸,一半人在疑惑:是什么支撑了它?另一半人在等待:什么时候掉下去? 而女人,永不可能让它掉下来.就算快掉下来了,提一提还是又上去了..... 虽然我们不能预测中国房价什么时候崩盘,但是却可以用机器学

【火炉炼AI】机器学习019-项目案例:使用SVM回归器估算交通流量

[火炉炼AI]机器学习019-项目案例:使用SVM回归器估算交通流量 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 我们都知道,SVM是一个很好地分类器,不仅适用于线性分类模型,而且还适用于非线性模型,但是,在另一方面,SVM不仅可以用于解决分类问题,还可以用于解决回归问题. 本项目打算使用SVM回归器来估算交通流量,所使用的方法和过程与我的上一篇文章[火炉炼AI]机器学习018-项

【火炉炼AI】机器学习042-NLP文本的主题建模

[火炉炼AI]机器学习042-NLP文本的主题建模 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3) 文本的主题建模时用NLP来识别文本文档中隐藏的某种模式的过程,可以发现该文档的隐藏主题,以便对文档进行分析.主题建模的实现过程是,识别出某文本文档中最有意义,最能表征主题的词来实现主题分类,即寻找文本文档中的关键词,通过关键词就可以识别出某文档的隐藏主题. 1. 准备数

【火炉炼AI】机器学习046-图像边缘的检测方法

[火炉炼AI]机器学习046-图像边缘的检测方法 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 图像中各种形状的检测时计算机视觉领域中非常常见的技术之一,特别是图像中直线的检测,圆的检测,图像边缘的检测等,下面我们来研究一下如何快速检测图像边缘. 边缘是不同区域的分界线,是周围(局部)像素有显著变化的像素的集合,有幅值与方向两个属性.这个不是绝对的定义,主要记住边缘是局部特征以及周围

【火炉炼AI】机器学习048-Harris检测图像角点

[火炉炼AI]机器学习048-Harris检测图像角点 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 角点检测算法大致有三类:基于灰度图像的角点检测,基于二值图像的角点检测,基于轮廓曲线的角点检测.基于灰度图像的角点检测又可分为基于梯度.基于模板和基于模板梯度组合3类方法,其中基于模板的方法主要考虑像素领域点的灰度变化,即图像亮度的变化,将与邻点亮度对比足够大的点定义为角点.常见的基

【火炉炼AI】机器学习050-提取图像的Star特征

[火炉炼AI]机器学习050-提取图像的Star特征 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 对于图像的特征点,前面我们讨论过边缘检测方法,Harris角点检测算法等,这些检测算法检测的都是图像的轮廓边缘,而不是内部细节,如果要进一步提取图像内部细节方面的特征,需要用到SIFT特征提取器和Star特征提取器.上一篇我们讲解了SIFT特征提取器,下面我们来介绍Star特征提取器.

【火炉炼AI】深度学习005-简单几行Keras代码解决二分类问题

[火炉炼AI]深度学习005-简单几行Keras代码解决二分类问题 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, Keras 2.1.6, Tensorflow 1.9.0) 很多文章和教材都是用MNIST数据集作为深度学习届的"Hello World"程序,但是这个数据集有一个很大的特点:它是一个典型的多分类问题(一共有10个分类),在我们刚刚开始接触深度学习时,我倒是觉得