python_机器学习_监督学习模型_决策树

1. 监督学习--分类

机器学习肿分类和预测算法的评估：

　　a. 准确率

　　b.速度

　　c. 强壮行

　　d.可规模性

　　e. 可解释性

2. 什么是决策树/判定树（decision tree）？

https://scikit-learn.org/stable/modules/tree.html

3. 熵（entropy）概念：

变量的不确定越大，熵也就越大。

4. 决策树归纳算法（ID3）

5. 其他算法及优缺点

6. 决策树的应用

生成后的决策树

逻辑代码：

　　但这段代码不是特别通用，而且有bug，需要修改，但基本逻辑是正确的

# -*- coding:utf-8 -*-
from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import preprocessing
from sklearn import tree  # 要求是数值型的值
from sklearn.externals.six import StringIO

"""
注意： 决策树要求要数值型的值，不能是字符串类型的值
例如： no， yes这样的值是不允许的
需要转换成矩阵
====================================
age            income    student
youth        high    no
youth        high    no
middle_aged    high    no
senior        medium    no
senior        low    yes
====================================

比如上面这种数据：
youth    middle_aged        senior         high    medium    low    ......
1        0                0            1        0        0
1        0                0            1        0        0
.....

"""

allElectronicsData = open(r"C:\Users\Administrator\Desktop\data.xlsx", ‘r‘)
reader = csv.reader(allElectronicsData)
print(reader)
headers = next(reader)

print(headers)
# ["RID", ‘age‘.....]

featureList = []
labelList = []
for row in reader:
    labelList.append(row[len(row) - 1])
    rowDict = {}
    for i in range(1, len(row) - 1):
        rowDict[headers[i]] = row[i]

    featureList.append(rowDict)

print(featureList)
# [
#    {"credit_rating": "fair", "age": "youth"},
#    .... #作用，方便转换成矩阵。将数据转换成对象
# ]

vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()

print("dummyX:" + str(dummyX))  # 转换成矩阵的数据了二维
print(vec.get_feature_names())

print("labelList: " + str(labelList))

lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
print("dummyY: " + str(dummyY))

clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(dummyX, dummyY)
print("clf: ", str(clf))

# 存储决策树信息

# Graphviz 将dot转换成pdf的命令： dot -T pdf iris.dot -o output.pdf
# 可以查看decision tree 的形状了（看pdf的值）
with open(r"C:\Users\Administrator\Desktop\code\mechine_learning\allElectronicInformationGainOri.dot", "w") as f:
    f = tree.export_graphviz(clf, feature_names = vec.get_feature_names(), out_file = f)

# 下面的代码属于预测的代码
# 属于转化后的矩阵数值，其实就是进行复制修改
oneRowX = dummyX[0, :]
print("oneRowX: " + str(oneRowX))

newRowX = oneRowX

newRowX[0] = 1
newRowX[2] = 0
print("newRowX: ", str(newRowX))

predictedY = clf.predicted(newRowX)
# 预测 class_buys_labels的值
predicted("predictedY: " + str(predictedY))

if __name__ == ‘__main__‘:
    main()

原文地址：https://www.cnblogs.com/renfanzi/p/11078489.html

时间： 2024-10-10 07:24:08

python_机器学习_监督学习模型_决策树的相关文章

Java_太阳系_行星模型_小游戏练习_详细注释

1 //实现MyFrame--实现绘制窗口,和实现重写重画窗口线程类 2 3 package cn.xiaocangtian.Test; 4 5 import java.awt.Frame; 6 import java.awt.event.WindowAdapter; 7 import java.awt.event.WindowEvent; 8 9 10 public class MyFrame extends Frame { 11 12 //加载窗口 13 public void launc

机器学习_深度学习_入门经典（永久免费报名学习）

机器学习_深度学习_入门经典(博主永久免费教学视频系列) https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149 作者座右铭---- 与其被人工智能代替,不如主动设计机器为我们服务. 长期以来机器学习很多教材描述晦涩难懂,大量专业术语和数学公式让学生望而止步.生活中机器学习就在我们身边,谷歌,百度,Facebook,今日头条都运用大量机器学习算法,实现智能

Linux网络设备驱动(一) _驱动模型

Linux素来以其强大的网络功能著名,同时, 设备'>网络设备也作为三大设备之一, 成为Linux驱动学习中必不可少的设备类型, 此外, 由于历史原因, Linux并没有强制对设备'>网络设备贯彻其"一切皆文件"的思想, 设备'>网络设备不以/dev下的设备文件为接口,用户程序通过socket作为访问硬件的接口.本文以Linux3.14.0内核为例, 讨论Linux中的网络驱动模型 Linux的设备'>网络设备并不使用文件作为用户程序访问设备'>网络设备的

Linux MTD子系统 _从模型分析到Flash驱动模板

MTD(Memory Technology Device)即常说的Flash等使用存储芯片的存储设备,MTD子系统对应的是块设备驱动框架中的设备驱动层,可以说,MTD就是针对Flash设备设计的标准化硬件驱动框架.本文基于3.14内核,讨论MTD驱动框架. MTD子系统框架设备节点层:MTD框架可以在/dev下创建字符设备节点(主设备号90)以及块设备节点(主设备号31), 用户通过访问此设备节点即可访问MTD字符设备或块设备. MTD设备层: 基于MTD原始设备, Linux在这一层次定义出

《机器学习》第三章决策树学习笔记加总结

<机器学习>第三章决策树学习决策树学习方法搜索一个完整表示的假设空间,从而避免了受限假设空间的不足.决策树学习的归纳偏置是优越选择较小的树. 3.1.简介决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树. 决策树(Decision Tree)是一种简单但是广泛使用的分类器.通过训练数据构建决策树,可以高效的对未知的数据进行分类. 决策数有两大优点: 1)决策树模型可以读性好,具有描述性,有助于人工分析: 2)效率高,决策树只需要一次构建,反复使用,每一

机器学习入门 - 1. 介绍与决策树(decision tree)

机器学习(Machine Learning) 介绍与决策树(Decision Tree) 机器学习入门系列是个人学习过程中的一些记录与心得.其主要以要点形式呈现,简洁明了. 1.什么是机器学习? 一个比较概括的理解是: 根据现有的数据,预测未来 2.核心思想 : Generalization 可以理解为,归纳.概括.就像是人的学习一样,找出一件事物与与一件事物的联系 3.归纳性的机器学习(Inductive machine learning) 其核心思想是使用训练数据,并从其中摸索出一套适用

多线程_创建线程_继承Thread类

public class ThreadDemo { public static void main(String[] args){ Demo d = new Demo(); d.start(); for(int i = 0;i < 100;i++){ System.out.println("MainThread" + i); } } } class Demo extends Thread { public void run(

图形学_多边形扫描转换_边界标志算法

边界标志算法 1. 对多边形的每一条边进行扫描转换,即对多边形边界所经过的象素作一个边界标志. 2.填充对每条与多边形相交的扫描线,按从左到右的顺序,逐个访问该扫描线上的象素. 取一个布尔变量inside来指示当前点的状态,若点在多边形内,则inside为真.若点在多边形外,则inside为假. Inside 的初始值为假,每当当前访问象素为被打上标志的点,就把inside取反.对未打标志的点,inside不变. 1 #include "easyx.h" 2 #include &qu

结对编程_附加题_博客2

1.界面模块,测试模块和核心模块的松耦合 2.改进程序结对编程_附加题_博客2