Sklearn简介
Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。
Sklearn具有以下特点:
- 简单高效的数据挖掘和数据分析工具
- 让每个人能够在复杂环境中重复使用
- 建立NumPy、Scipy、MatPlotLib之上
代码如下所示:
import xlrd import matplotlib.pyplot as plt import numpy as np from sklearn import model_selection from sklearn.linear_model import LogisticRegression from sklearn import metrics data = xlrd.open_workbook(‘gua.xlsx‘) sheet = data.sheet_by_index(0) Density = sheet.col_values(6) Sugar = sheet.col_values(7) Res = sheet.col_values(8) # 读取原始数据 X = np.array([Density, Sugar]) # y的尺寸为(17,) y = np.array(Res) X = X.reshape(17,2) # 绘制分类数据 f1 = plt.figure(1) plt.title(‘watermelon_3a‘) plt.xlabel(‘density‘) plt.ylabel(‘ratio_sugar‘) # 绘制散点图(x轴为密度,y轴为含糖率) plt.scatter(X[y == 0,0], X[y == 0,1], marker = ‘o‘, color = ‘k‘, s=100, label = ‘bad‘) plt.scatter(X[y == 1,0], X[y == 1,1], marker = ‘o‘, color = ‘g‘, s=100, label = ‘good‘) plt.legend(loc = ‘upper right‘) plt.show() # 从原始数据中选取一半数据进行训练,另一半数据进行测试 X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.5, random_state=0) # 逻辑回归模型 log_model = LogisticRegression() # 训练逻辑回归模型 log_model.fit(X_train, y_train) # 预测y的值 y_pred = log_model.predict(X_test) # 查看测试结果 print(metrics.confusion_matrix(y_test, y_pred)) print(metrics.classification_report(y_test, y_pred))
Python从入门到项目实践 PDF全彩带源码版
原文地址:https://www.cnblogs.com/imaxiaobian/p/11113477.html
时间: 2024-10-10 20:33:37