聊一聊粗糙集(一)

本系列博客将介绍经典粗糙集的相关概念和一个属性约简算法,作为系列博客的开篇之作,先不介绍具体概念,简单认识认识粗糙集。


粗糙集理论简介

粗糙集是波兰理工大学Z.pawlak教授提出用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。
它是一种新的处理模糊和不确定性问题的数学工具,已被广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统及归纳推理等领域。
粗糙集理论的特点是能够分析隐藏在数据中的事实,又不需要关于数据附加信息。
其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。
从数学的角度看,粗糙集是研究集合的;从编程的角度看,粗糙集的研究对象是矩阵,只不过是一些特殊的矩阵;从人工智能的角度来看,粗糙集研究的是决策表。

粗糙集相关概念

病人 头疼 肌肉疼 体温 流感
\(e_{1}\) 正常
\(e_{2}\)
\(e_{3}\) 很高
\(e_{4}\) 正常
\(e_{5}\)
\(e_{6}\) 很高

决策信息系统\(S=(U,A,V,f)\)是一个四元组,其中\(U\)是非空有限对象集,称为论域,\(A\)是非空有限属性集,\(V=\cup _{a\in A}V_{a}\),\(V_{a}\)是其值,属性\(a\)的值域,\(f:U \times A\rightarrow V\)是一个信息函数。对于\(\forall a \in A\),并且\(x \in U\),\(f(x,a)\in V_{a}\)

如果\(A=C\cup D\),则\(C\)是条件属性集,\(D\)是决策属性集,\(S=(U,A,V,f)\)也被称为决策表。

概念有些抽象,下面我将结合例子先简单解释下一些基本概念:
在病例中,有七行,五列
第一列是“病人”,在这一列,除了第一行,还有六行,即有六个元素或者对象。
在信息系统中,这就是\(U\),是非空有限对象集,称为论域。
用集合表示为:
\[
U=\{e_{1},e_{2},e_{3},e_{4},e_{5},e_{6}\}
\]

那什么是属性呢,除了第一列之外的其他列都是属性了。
属性有条件属性和决策属性,决策属性为最后一列。
先看条件属性集\(C=\{C_{1},C_{2},C_{3}\}\):
设\(C_{1}\)为头疼属性,\(C_{2}\)为肌肉疼属性,\(C_{3}\)为体温属性。
用集合表示为:
头疼属性:
\[
C_{1}=\{是,是,是,否,否,否\}
\]

肌肉疼属性:
\[
C_{2}=\{是,是,是,是,否,是\}
\]

体温属性:
\[
C_{3}=\{正常,高,很高,正常,高,很高\}
\]

决策属性\(D\):
流感\(D\)就是决策属性了,用集合表示便是:
\[
D=\{ 否,是,是,否,否,是\}
\]
现在,我们已经对一个信息系统进行了简单介绍。

小结

可以看出,在信息系统中,有很多的对象,它们有着各种各样的属性。其中不同的对象有着不同或者相同的条件属性,使得每个对象有着不同的特征,这些条件属性会影响到决策属性,决策属性不同,将决定着这个信息系统能被分成几类。

显然决策属性值的不同直接受条件属性的影响,可以说每一个条件属性都可能成为决定决策属性值的潜在影响因素。进而决定着信息系统中的对象会被划分到哪一类去。但是,我们也知道,影响事物的潜在因素会有很多,有些会显著影响结果,有些会有一些影响,而有些因素却是可有可无的。

现在我们正处于大数据的时代,每个人每天的很多行为会产生各种各样的数据。这些数据通常很大,维度很高,里面会有商家感兴趣的部分,但是数据维数太大了。面对这种“数据极其丰富而信息相对缺乏”的情况,如何从海量的数据中获得有用的信息或者决定性因素会是我们很感兴趣的方面。

因此,面对这样一个含有大量信息的信息系统,如何去发掘出什么是影响决策属性值的关键属性是很有必要的。而这些关键属性就隐藏在这一列列的条件属性中,有些属性对决策属性产生了重要的影响,而有些属性就显得可有可无了。我们就是希望能够找出这些对决策属性有着重要影响的条件属性。

对于上面的病例,有经验的医生可能一眼就看出来什么是影响一个病人患流感的关键因素。而我们可能作为门外汉,可以学习通过一些粗糙集的知识,同样也能发掘出这样的关键因素!



之后我们会逐渐介绍粗糙集的其他概念,等价类,正区域,负域,边界域,知识粒度,如何进行约简等等概念,最后会介绍一个基于知识粒度的属性约简算法!

原文地址:https://www.cnblogs.com/Gedanke/p/12356647.html

时间: 2024-10-29 00:44:10

聊一聊粗糙集(一)的相关文章

聊一聊粗糙集(四)

本节我们将继续介绍粗糙集有关的概念. 本节将介绍经典粗糙集中粒度的度量相关概念. 我们依旧使用这个决策信息系统为例. \(U\) \(a\) \(b\) \(c\) \(e\) \(f\) \(d\) 1 0 1 1 1 0 1 2 1 1 0 1 0 1 3 1 0 0 0 1 0 4 1 1 0 1 0 1 5 1 0 0 0 1 0 6 0 1 1 1 1 0 7 0 1 1 1 1 0 8 1 0 0 1 0 1 9 1 0 0 1 0 0 知识粒度 知识粒度定义如下: 给定一个决策信息

聊一聊粗糙集(五)

本节我们将继续介绍粗糙集有关的概念. 上节我们介绍了知识粒度的度量,本节将介绍知识粒度的矩阵表示形式. 我们先简单介绍矩阵的相关概念. 矩阵 先看矩阵的和,差. 矩阵的和: 若\(A=(a_{ij})_{m \times n}\),\(B=(b_{ij})_{m \times n}\)是两个\(m \times n\)的矩阵,则两个矩阵的和\(C=(c_{ij})_{m \times n}\)为 \[ C = A+B \quad \Longrightarrow \quad c_{ij}=a_{i

聊一聊粗糙集(六)

本节我们将继续介绍粗糙集有关的概念. 上节我们介绍了知识粒度的矩阵表示形式,本节将介绍基于知识粒度属性约简定义和算法. 基于粗糙特征选择算法亦称为属性约简,其旨在保持数据集分类能力不变的前提下,通过约简冗余属性,最后得到问题的决策或分类规则. 相关定义 设决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(B \subseteq C\),如果\(B\)为\(S\)的最小属性约简,则: \[ GP_{U}(D \mid B)=GP_{U}(D\mid C) \] \[ \for

关于决策粗糙集(三支决策)、概率粗糙集、博弈粗糙集的一点认识

boss任务好多,求喘息~~~~ 进来两周一直在看关于Decision-Theoretic Rough Set的一些文章,以及RS与概率论相结合产生的概率粗糙集Probabilistic Rough Set和与DTRS略有不同的GTRS(Game-Theoretic Rough Set),因此稍微总结一下,以免以后遗忘. 在回顾之前,先谈谈研究的一些方法.美国大物理学家Feynman有一个定律:关于同一个理论或同一个定律不同形式,但在数学上等价.但不同的表示形式可以给出认知上的不同解释,也对该定

聊一聊【网易云课堂】

(首先说明,这不是广告,知识我个人的一点感受而已) 若干天之前注册了网易云课堂,并填写.邮寄申请讲师的材料. 若干天之后的今天,终于收到通知,我通过了讲师认证,给我名字上加了个大大的"V".以及<petshop4.0源码解读>教程通过了审核,正式发布了.下班之前看了看,竟然已经有6名学习者了,就是不知道他们有没有真的学.有想学的直接去那里看就行了,免费的. 课堂教程的网址是:http://study.163.com/course/introduction/655003.ht

[聊一聊系列]聊一聊前端存储那些事儿

https://segmentfault.com/a/1190000005927232 欢迎大家收看聊一聊系列,这一套系列文章,可以帮助前端工程师们了解前端的方方面面(不仅仅是代码):https://segmentfault.com/blog/frontenddriver 在web开发越来越复杂的今天,前端拥有的能力也越来越多.其中最重要的一项莫过于web存储.开发者们如果使用得当,这些存储可以帮助我们提升网页的性能与灵活度.本文不讲个中的细节,只讲各种前端存储的利弊,与各类存储的应用场景.毕竟

【机器学习】粗糙集属性约简算法与mRMR算法的本质区别

1. 粗糙集属性约简算法仅仅选出属性重要度大的条件加入约减中,没有考虑约简中条件属性相互之间的冗余性,得到的约简往往不是都必要的,即含有冗余属性. 2. mRMR算法则除了考虑特征与类别之间的相关性,还考虑特征与特征之间的冗余度,约束特征与类别最大相关,特征与特征最小冗余. 3. 根据mRMR算法,将粗糙集约简算法改进为最小相关最大依赖度属性约简的算法如下

聊一聊前端模板与渲染那些事儿

欢迎大家收看聊一聊系列,这一套系列文章,可以帮助前端工程师们了解前端的方方面面(不仅仅是代码): https://segmentfault.com/blog/frontenddriver 作为现代应用,ajax的大量使用,使得前端工程师们日常的开发少不了拼装模板,渲染模板.我们今天就来聊聊,拼装与渲染模板的那些事儿. 如果喜欢本文请点击右侧的推荐哦,你的推荐会变为我继续更文的动力 1 页面级的渲染 在刚有web的时候,前端与后端的交互,非常直白,浏览器端发出URL,后端返回一张拼好了的HTML串

聊一聊淘宝首页和它背后的一套

聊一聊淘宝首页和它背后的一套 作者: 小胡子哥 2016-06-02 12:00:00本文发布时间为2016年06月02日12时00分00秒 分类: 前端杂烩 标签: 淘宝首页 下面是正文内容评论数: 12条评论 从 14 年双十二结束开始接手淘宝首页,到如今差不多 1 年半时间,不久前完成了首页相关工作的交接.期间经历了两次改版和一次从 PHP 到 Node 的迁移,还是颇有感受,下面给大家分享下.我要说话 文章好像有点长,列个大纲会比较好:我要说话 一.相关背景介绍二.淘宝首页的整理变迁