机器学习之路: python 决策树分类 预测泰坦尼克号乘客是否幸存

使用python3 学习了决策树分类器的api

涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型

需要网上下载数据集,我把他们下载到了本地,

可以到我的git下载代码和数据集: https://github.com/linyi0604/MachineLearning

 1 import pandas as pd
 2 from sklearn.cross_validation import train_test_split
 3 from sklearn.feature_extraction import DictVectorizer
 4 from sklearn.tree import DecisionTreeClassifier
 5 from sklearn.metrics import classification_report
 6
 7 ‘‘‘
 8 决策树
 9 涉及多个特征,没有明显的线性关系
10 推断逻辑非常直观
11 不需要对数据进行标准化
12 ‘‘‘
13
14 ‘‘‘
15 1 准备数据
16 ‘‘‘
17 # 读取泰坦尼克乘客数据,已经从互联网下载到本地
18 titanic = pd.read_csv("./data/titanic/titanic.txt")
19 # 观察数据发现有缺失现象
20 # print(titanic.head())
21
22 # 提取关键特征,sex, age, pclass都很有可能影响是否幸免
23 x = titanic[[‘pclass‘, ‘age‘, ‘sex‘]]
24 y = titanic[‘survived‘]
25 # 查看当前选择的特征
26 # print(x.info())
27 ‘‘‘
28 <class ‘pandas.core.frame.DataFrame‘>
29 RangeIndex: 1313 entries, 0 to 1312
30 Data columns (total 3 columns):
31 pclass    1313 non-null object
32 age       633 non-null float64
33 sex       1313 non-null object
34 dtypes: float64(1), object(2)
35 memory usage: 30.9+ KB
36 None
37 ‘‘‘
38 # age数据列 只有633个,对于空缺的 采用平均数或者中位数进行补充 希望对模型影响小
39 x[‘age‘].fillna(x[‘age‘].mean(), inplace=True)
40
41 ‘‘‘
42 2 数据分割
43 ‘‘‘
44 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)
45 # 使用特征转换器进行特征抽取
46 vec = DictVectorizer()
47 # 类别型的数据会抽离出来 数据型的会保持不变
48 x_train = vec.fit_transform(x_train.to_dict(orient="record"))
49 # print(vec.feature_names_)   # [‘age‘, ‘pclass=1st‘, ‘pclass=2nd‘, ‘pclass=3rd‘, ‘sex=female‘, ‘sex=male‘]
50 x_test = vec.transform(x_test.to_dict(orient="record"))
51
52 ‘‘‘
53 3 训练模型 进行预测
54 ‘‘‘
55 # 初始化决策树分类器
56 dtc = DecisionTreeClassifier()
57 # 训练
58 dtc.fit(x_train, y_train)
59 # 预测 保存结果
60 y_predict = dtc.predict(x_test)
61
62 ‘‘‘
63 4 模型评估
64 ‘‘‘
65 print("准确度:", dtc.score(x_test, y_test))
66 print("其他指标:\n", classification_report(y_predict, y_test, target_names=[‘died‘, ‘survived‘]))
67 ‘‘‘
68 准确度: 0.7811550151975684
69 其他指标:
70               precision    recall  f1-score   support
71
72        died       0.91      0.78      0.84       236
73    survived       0.58      0.80      0.67        93
74
75 avg / total       0.81      0.78      0.79       329
76 ‘‘‘

原文地址:https://www.cnblogs.com/Lin-Yi/p/8970609.html

时间: 2024-09-29 04:20:50

机器学习之路: python 决策树分类 预测泰坦尼克号乘客是否幸存的相关文章

用Python开始机器学习(2:决策树分类算法)

http://blog.csdn.net/lsldd/article/details/41223147 从这一章开始进入正式的算法学习. 首先我们学习经典而有效的分类算法:决策树分类算法. 1.决策树算法 决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归.不过对于一些特殊的逻辑分类会有困难.典型的如异或(XOR)逻辑,决策树并不擅长解决此类问题. 决策树的构建不是唯一的,遗憾的是最优决策树的构建属于NP问题.因此如何构建一棵好的决策树是研究的重点. J. Ross Q

机器学习之路: python k近邻分类器 鸢尾花分类预测

使用python语言 学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/kaggle 1 from sklearn.datasets import load_iris 2 from sklearn.cross_validation import train_test_split 3 from sklearn.preprocessing import StandardScaler 4 from sklearn.neighbors i

机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价

python3学习使用api 线性回归,和 随机参数回归 git: https://github.com/linyi0604/MachineLearning 1 from sklearn.datasets import load_boston 2 from sklearn.cross_validation import train_test_split 3 from sklearn.preprocessing import StandardScaler 4 from sklearn.linear

机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价

python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: 1 from sklearn.datasets import load_boston 2 from sklearn.cross_validation import train_test_split 3 from sklearn.preprocessing import StandardScaler 4 from sklearn.tree import De

python单分类预测模版,输出支持度,多种分类器,str的csv转float

预测结果为1到11中的1个 首先加载数据,训练数据,训练标签,预测数据,预测标签: if __name__=="__main__": importTrainContentdata() importTestContentdata() importTrainlabeldata() importTestlabeldata() traindata = [] testdata = [] trainlabel = [] testlabel = [] def importTrainContentda

机器学习之路:python 综合分类器 随机森林分类 梯度提升决策树分类 泰坦尼克号幸存者

python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比 附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/linyi0604/MachineLearning 1 import pandas as pd 2 from sklearn.cross_validation import train_test_split 3 from sklearn.feature_extraction import DictVe

(数据科学学习手札23)决策树分类原理详解&amp;Python与R实现

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系. 一.初识决策树 决策树是一种树形结构,一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点: 叶结点:树的一个方向的最末端,表示结果的输出: 根结点:初始样

数据回归分类预测的基本算法及python实现

数据回归分类预测的基本算法及python实现 关于数据的回归和分类以及分析预测.讨论分析几种比较基础的算法,也可以算作是比较简单的机器学习算法. 一.        KNN算法 邻近算法,可以用来做回归分析也可以用来做分类分析.主要思想是采取K个最为邻近的自变量来求取其应变量的平均值,从而做一个回归或者是分类.一般来说,K取值越大,output的var会更小,但bias相应会变大.反之,则可能会造成过拟合.因此,合理的选取K的值是KNN算法当中一个很重要的步骤. Advantages First

Python——决策树实战:california房价预测

Python--决策树实战:california房价预测 编译环境:Anaconda.Jupyter Notebook 首先,导入模块: 1 import pandas as pd 2 import matplotlib.pyplot as plt 3 %matplotlib inline 接下来导入数据集: 1 from sklearn.datasets.california_housing import fetch_california_housing 2 housing = fetch_c