开源机器学习工具scikit-learn入门

Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证。这个项目最早由DavidCournapeau 在2007 年发起的,目前也是由社区自愿者进行维护。

Scikit-Learn的官方网站是http://scikit-learn.org/stable/,在上面可以找到相关的Scikit-Learn的资源,模块下载,文档,例程等等。

Scikit-Learn的安装需要numpy,scipy,matplotlib等模块,windows用户可以到

http://www.lfd.uci.edu/~gohlke/pythonlibs直接下载编译好的安装包以及依赖,也可以到这个网站下载http://sourceforge.jp/projects/sfnet_scikit-learn/

scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理,具体可以参考官方网站上的文档。

对于具体的机器学习问题,通常可以分为三个步骤,数据准备与预处理,模型选择与训练,模型验证与参数调优,这里以逻辑回归模型为例说明。

scikit-learn支持多种格式的数据,包括经典的iris数据,LibSVM格式数据等等。为了方便起见,推荐使用LibSVM格式的数据,详细见LibSVM的官网。

from sklearn.datasets importload_svmlight_file,导入这个模块就可以加载LibSVM模块的数据,

t_X,t_y=load_svmlight_file("filename")

机器学习模型也要导入相应的模块,逻辑回归模型在下面的模块中。

from sklearn.linear_modelimport LogisticRegression

regressionFunc =LogisticRegression(C=10, penalty=‘l2‘, tol=0.0001)

train_sco=regressionFunc.fit(train_X,train_y).score(train_X,train_y)

test_sco=regressionFunc.score(test_X,test_y)

就可以完成模型的训练和测试了。

为了选择更好地模型可以进行交叉实验,或者使用贪心算法进行参数调优。

导入如下模块就可以,

CV:

from sklearn importcross_validation

X_train_m, X_test_m,y_train_m, y_test_m = cross_validation.train_test_split(t_X,t_y, test_size=0.5,random_state=seed_i)

regressionFunc_2.fit(X_train_m,y_train_m)

sco=regressionFunc_2.score(X_test_m,y_test_m, sample_weight=None)

GridSearch:

from sklearn.grid_searchimport GridSearchCV

tuned_parameters =[{‘penalty‘: [‘l1‘], ‘tol‘: [1e-3, 1e-4],

‘C‘: [1, 10, 100, 1000]},

{‘penalty‘: [‘l2‘], ‘tol‘:[1e-3, 1e-4],

‘C‘: [1, 10, 100, 1000]}]

clf =GridSearchCV(LogisticRegression(), tuned_parameters, cv=5, scoring=[‘precision‘,‘recall‘])

print(clf.best_estimator_)

当然可以利用matplotlib绘制学习曲线,需要导入相应模块如下:

from sklearn.learning_curveimport learning_curve,validation_curve

核心代码如下,具体参见Scikit-Learn的官方文档:

rain_sizes, train_scores,test_scores = learning_curve(

estimator, X, y, cv=cv, n_jobs=n_jobs,train_sizes=train_sizes)

train_scores, test_scores =validation_curve(

estimator, X, y, param_name,param_range,

cv, scoring, n_jobs)

当然,Scikit-Learn中的机器学习模型非常丰富,包括SVM,决策树,GBDT,KNN等等,可以根据问题的类型选择合适的模型,更多内容请参阅官方文档。

时间: 2024-10-14 05:27:24

开源机器学习工具scikit-learn入门的相关文章

开源性能测试工具JMeter快速入门(一)

目录 一.JMeter简介 二.JMeter功能介绍 三.JMeter脚本 四.关于JMeter小提示 一.JMeter简介 1.定义 JMeter是Apache组织开发的基于Java的压力测试工具.用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域. 1)它可以用于测试静态和动态资源,例如静态文件.Java 小服务程序.CGI 脚本.Java 对象.DB.FTP 服务器, 等等. 2)JMeter 可以用于对服务器.网络或对象模拟巨大的负载,来自不同压力类别下测试它

开源性能测试工具JMeter快速入门(二)

目录 一.JMeter简介 二.JMeter功能介绍 三.JMeter脚本 四.关于JMeter小提示 三.JMeter脚本 1.测试计划 测试计划是JMeter进行测试的起点 ,是其他JMeter测试元件的容器,每个测试场景/脚本都叫做一个测试计划. (1)名称;与业务相关的名称 (2)注释:非必填 (3)用户定义的变量,引用时直接用${变量名}即可,这里的变量是全局变量,作用于整个测试计划. (4)独立运行每个线程组:默认不勾选,即所有线程组并发启动.勾选则顺序执行所有线程组. (5) 结束

微软开源自动机器学习工具NNI安装与使用

微软开源自动机器学习工具 – NNI安装与使用 ??在机器学习建模时,除了准备数据,最耗时耗力的就是尝试各种超参组合,找到最佳模型的过程了.对于初学者来说,常常是无从下手.即使是对于有经验的算法工程师和数据科学家,也是很难把握所有的规律,只能多次尝试,找到较好的超参组合.而自动机器学习这两年成为了热门领域,着力解决超参调试过程的挑战,通过超参选择算法和强大的算力来加速超参搜索的过程.NNI (Neural Network Intelligence) 是微软开源的自动机器学习工具包.与当前的各种自

机器学习工具汇总

工具是机器学习的重要组成部分,选择合适的工具与使用最好的算法同等重要. 在这篇文章中,你将会见识到各种机器学习工具.了解它们为什么重要,以及可供选择的工具类型. 为什么要使用工具 机器学习工具使得应用机器学习更快,更简单,更有趣. 更快:好工具可以自动化应用机器学习过程中的每一步.这意味着,从提出创意到得到结果的时间大大缩短.如果你从头开始自己实现每一个功能,这花的时间要比选择现有工具要长的多. 更简单:你可以花时间来选择合适的工具,而不是研究.实现技术来完成任务.如果你自己实现,你必须对每一个

机器学习工具

机器学习工具 参考网站: https://www.zhihu.com/question/20472776(知乎:学习机器学习有哪些好工具推荐?) http://blog.csdn.net/myarrow/article/details/50608334(CSDN:机器学习工具汇总) 平台VS库 机器学习平台 机器学习平台提供了从头到尾完成一个机器学习项目的功能.也就是,数据分析,数据准备,建模和算法评估及选择. 机器学习平台的特征有: 它们提供了机器学习项目中每一个过程所需要的功能. 界面可以是

28款GitHub最流行的开源机器学习项目

http://ml.ailab.cn/article-76485.html 现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘.计算机视觉.自然语言处理.生物特征识别.搜索引擎.医学诊断.DNA序列测序.语音和手写识别.战略游戏和机器人等方面. 云栖社区特意翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者参考使用. 1. TensorFlow TensorFlow 是谷歌发布的第二代机器学习系统.据谷歌宣称,在部分基准测试中

Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数,

Python之扩展包安装(scikit learn)

scikit learn 是Python下开源的机器学习包.(安装环境:win7.0 32bit和Python2.7) Python安装第三方扩展包较为方便的方法:easy_install + packages name 在官网 https://pypi.python.org/pypi/setuptools/#windows-simplified 下载名字为 的文件. 在命令行窗口运行 ,安装后,可在python2.7文件夹下生成Scripts文件夹.把路径D:\Python27\Scripts

7款优秀的开源数据挖掘工具

7款优秀的开源数据挖掘工具 IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等.如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查看.为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集. Tanagra Tanagra (http://eric.univ-lyon2.fr/wricco/tanagra/) 是使用图形界面的数据挖掘软件,采用了类似Windows资源管