聊一聊粗糙集(四)

本节我们将继续介绍粗糙集有关的概念。



本节将介绍经典粗糙集中粒度的度量相关概念。
我们依旧使用这个决策信息系统为例。

\(U\) \(a\) \(b\) \(c\) \(e\) \(f\) \(d\)
1 0 1 1 1 0 1
2 1 1 0 1 0 1
3 1 0 0 0 1 0
4 1 1 0 1 0 1
5 1 0 0 0 1 0
6 0 1 1 1 1 0
7 0 1 1 1 1 0
8 1 0 0 1 0 1
9 1 0 0 1 0 0

知识粒度

知识粒度定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,若\(B \subseteq C\),\(U/B=\{X_{1},X_{2},...,X_{m}\}\),共有\(m\)个等价类,则\(B\)的知识粒度\(GP_{U}(B)\)为:
\[
GP_{U}(B)=\sum_{i=1}^{m} \frac{|X_{i}|^2}{|U|^2}
\]
在粗糙集中,等价类的粒度越细,其划分能力就越强,近似集越精确;否则划分能力就弱,近似集越粗糙。
其中,\(\frac{1}{|U|} \leq GP_{U}(B) \leq 1\)。当\(U/B=\{X_{1},X_{2},...,X_{|U|} \}\),\(|U|\)是\(U\)元素的个数,此时知识粒度最小\(\frac{1}{|U|}\),划分能力最强;当 \(U/B=\{U\}\),此时知识粒度最大\(1\),划分能力最弱。

例如,在上表中:
\[
U/C=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\}\}
\]
则\(C\)的知识粒度为:
\[
GP_{U}(C)=\sum_{i=1}^{5}\frac{|X_{i}|^2}{|U|^2}
\]

\[
= \frac{1^2+2^2+2^2+2^2+2^2}{9^2}
\]

\[
= \frac{17}{81}
\]

相对知识粒度的定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,若\(P,Q \subseteq A\),\(U/P=\{X_{1},X_{2},...,X_{m} \}\),\(U/Q=\{Y_{1},Y_{2},...,Y_{n} \}\)。则\(Q\)关于\(P\)的相对知识粒度为
\[
GP_{U}(Q \mid P)=GP_{U}(P)-GP_{U}(P \bigcup Q)
\]

例如,在上表中,考虑条件属性集\(C\),决策属性集\(D\),有
\[
U/C=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\} \}
\]

\[
U/C \bigcup D=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8\},\{9\} \}
\]
则\(D\)关于\(C\)的相对知识粒度为
\[
GP_{U}(D \mid C)=GP_{U}(C)-GP_{U}(C \bigcup D)=
\]

\[
=\frac{17}{81}-\frac{15}{81}=\frac{2}{81}
\]

\(GP_{U}(Q \mid P)\)表示\(Q\)相对于\(P\)的分类能力。\(GP_{U}(Q \mid P)\)值越大,表示\(Q\)相对于\(P\)对论域\(U\)分类能力越强;反之,分类能力越弱。

属性重要度

内部属性重要度定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,\(B \subseteq C\),若\(\forall a \in B\)。
则属性\(a\)关于条件属性集\(B\)相对于决策属性集\(D\)的内部属性重要度为:
\[
Sig_{U}^{inner}(a,B,D)=GP_{U}(D \mid B-\{a\})-GP_{U}(D \mid B)
\]
以上表为例,考虑属性\(a\)关于条件属性集\(C\)相对于决策属性集\(D\)的内部属性重要度:
\[
Sig_{U}^{inner}(a,C,D)=GP_{U}(D \mid C-\{a\})-GP_{U}(D \mid C)
\]

\[
=\{ GP_{U}(C-\{a\})-GP_{U}((C-\{a\}) \bigcup D) \}-\{GP_{U}(C)-GP_{U}(C \bigcup D)\}
\]
考虑\(C-\{a\}\),\(\{C-\{a\}\} \bigcup D\)。

\[
U/(C-\{a\})=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\} \}
\]

\[
U/(\{C-\{a\}\} \bigcup D)=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8\},\{9\} \}
\]
所以
\[
Sig_{U}^{inner}(a,C,D)=\{ \frac{17}{81}-\frac{15}{81}\} - \{\frac{17}{81}-\frac{15}{81} \}=0
\]

外部属性重要度定义如下:
给定一个决策信息系统\(S=(U,A=C\bigcup D,V,f)\),\(U\)为论域,\(B \subseteq C\),若\(\forall a \in (C-B)\)
则属性\(a\)关于条件属性集\(B\)相对于决策属性集\(D\)的内部属性重要度为:
\[
Sig_{U}^{outer}(a,B,D)=GP_{U}(D \mid B)-GP_{U}(D \mid B \bigcup \{a\})
\]
还是以上表为例,若\(B=\{c,e,f\}\),考虑属性\(a\)关于条件属性集\(B\)相对于决策属性集\(D\)的内部属性重要度:
\[
Sig_{U}^{outer}(a,B,D)=GP_{U}(D \mid B)-GP_{U}(D \mid B \bigcup \{a\})
\]

\[
=\{ GP_{U}(B)-GP_{U}(B\bigcup D)\} - \{ GP_{U}(B \bigcup \{a\})-GP_{U}((B\bigcup \{a\}) \bigcup D) \}
\]
考虑\(B\),\(B\bigcup D\),\(B \bigcup \{a\}\),\((B\bigcup \{a\}) \bigcup D\)。
\[
U/B=\{\{1\},\{2,4,8,9\},\{3,5\},\{6,7\}\}
\]

\[
U/(B\bigcup D)=\{\{1\},\{2,4,8\},\{9\},\{3,5\},\{6,7\} \}
\]

\[
U/(B \bigcup \{a\})=\{\{1\},\{2,4,8,9\},\{3,5\},\{6,7\}\}
\]

\[
U/((B\bigcup \{a\}) \bigcup D)=\{\{1\},\{2,4,8\},\{9\},\{3,5\},\{6,7\} \}
\]

所以
\[
Sig_{U}^{outer}(a,B,D)=\{ \frac{17}{81}-\frac{15}{81}\} - \{\frac{17}{81}-\frac{15}{81} \}=0
\]

必要属性定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,如果$Sig_{U}^{inner}(a,C,D)>0 \(,则称属性\)a\(是决策信息系统条件属性集\)C\(相对于决策属性集\)D$的必要属性。

特别地,\(S\)的核属性被定义为
\[
Core_{C}(D)=\{a \in C \mid Sig_{U}^{inner}(a,B,D)>0 \}
\]

显然,属性\(a\)不是核属性。

本文参考了:

  • 景运革. 基于知识粒度的动态属性约简算法研究[D].西南交通大学,2017.

原文地址:https://www.cnblogs.com/Gedanke/p/12357466.html

时间: 2024-10-03 08:41:11

聊一聊粗糙集(四)的相关文章

聊一聊粗糙集(一)

本系列博客将介绍经典粗糙集的相关概念和一个属性约简算法,作为系列博客的开篇之作,先不介绍具体概念,简单认识认识粗糙集. 粗糙集理论简介 粗糙集是波兰理工大学Z.pawlak教授提出用来研究不完整数据,不精确知识的表达.学习,归纳等的一套理论. 它是一种新的处理模糊和不确定性问题的数学工具,已被广泛应用于知识发现.机器学习.决策支持.模式识别.专家系统及归纳推理等领域. 粗糙集理论的特点是能够分析隐藏在数据中的事实,又不需要关于数据附加信息. 其主要思想是在保持分类能力不变的前提下,通过知识约简,

聊一聊粗糙集(五)

本节我们将继续介绍粗糙集有关的概念. 上节我们介绍了知识粒度的度量,本节将介绍知识粒度的矩阵表示形式. 我们先简单介绍矩阵的相关概念. 矩阵 先看矩阵的和,差. 矩阵的和: 若\(A=(a_{ij})_{m \times n}\),\(B=(b_{ij})_{m \times n}\)是两个\(m \times n\)的矩阵,则两个矩阵的和\(C=(c_{ij})_{m \times n}\)为 \[ C = A+B \quad \Longrightarrow \quad c_{ij}=a_{i

聊一聊粗糙集(六)

本节我们将继续介绍粗糙集有关的概念. 上节我们介绍了知识粒度的矩阵表示形式,本节将介绍基于知识粒度属性约简定义和算法. 基于粗糙特征选择算法亦称为属性约简,其旨在保持数据集分类能力不变的前提下,通过约简冗余属性,最后得到问题的决策或分类规则. 相关定义 设决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(B \subseteq C\),如果\(B\)为\(S\)的最小属性约简,则: \[ GP_{U}(D \mid B)=GP_{U}(D\mid C) \] \[ \for

【Web探索之旅】第四部分:Web程序员

内容简介 1.第四部分第一课:什么是Web程序员? 2.第四部分第二课:如何成为Web程序员? 3.第四部分第三课:成为优秀Web程序员的秘诀 第四部分:Web程序员(完结篇) 大家好.终于来到了[Web探索之旅]的最后一部分. 我们的第二和第三部分都略有难度,不过这第四部分和第一部分一样,都会比较轻松愉快. 这一课我们来聊一聊Web程序员,Web的文化,如何成为一名优秀的Web程序员. 或许看完这部分,你会跃跃欲试,想要成为一名Web程序员也不一定.毕竟现在Web程序员还是比较吃香的. 第四部

《上古天真论》第四讲文字版

上古天真论篇第四讲 主讲:徐文兵  主持:梁  冬 播出时间:2008-12-27  23:00—24:00 经文:志闲而少欲,心安而不惧,形劳而不倦,气从以顺,各从其欲,皆得所愿.美其食,任期服,乐其俗,高下不相慕,其民故曰朴. 梁冬:重新发现中医太美,大家好!欢迎收听今天晚上的国学堂之<黄帝内经>解读,仍然是我,梁冬.在过去几周里面呢,我们花了差不多三周四周的时间每周一个小时呢,讲了<黄帝内经>第一篇<上古天真论>,每周每一个小时,每周用是一个小时节目嘛,才讲了二十

聊一聊淘宝首页和它背后的一套

聊一聊淘宝首页和它背后的一套 作者: 小胡子哥 2016-06-02 12:00:00本文发布时间为2016年06月02日12时00分00秒 分类: 前端杂烩 标签: 淘宝首页 下面是正文内容评论数: 12条评论 从 14 年双十二结束开始接手淘宝首页,到如今差不多 1 年半时间,不久前完成了首页相关工作的交接.期间经历了两次改版和一次从 PHP 到 Node 的迁移,还是颇有感受,下面给大家分享下.我要说话 文章好像有点长,列个大纲会比较好:我要说话 一.相关背景介绍二.淘宝首页的整理变迁

聊一聊 JSONP

JSONP 说到 JSONP 就要说到同源策略(Same Origin Policy), 同源策略是浏览器最核心的也是最基本的安全功能. 浏览器的同源策略,限制了来自不同源的 “document” 或脚本,对当前 “document” 读写或设置某些属性. 通俗的说法就是外来的脚本无法碰到自家的文档. 影响 “源” 的因素有四个: 主机名 host,子域名.端口.协议. JSONP(JSON with padding). 这是一种从远端服务器抓取数据的方式.原理是通过创建一个 script 标签

聊一聊即将来临的跳槽季

第十四章 - 02: 聊一聊即将来临的跳槽季 之前的文章中都是聊的技术,今天在九月即将开始的前一天,咱们来聊一聊跳槽季 古之 大佬们都有云: 金三银四,金九银十. 这句话也被 很多职场新人奉为真理,毕竟在那些躁动的几个月里,公司中请假的.裸辞的.休假的的人都变多了. 那么在面对诱惑多多的 跳槽季,我们应该做一些什么? 当然在面对这个每年都在变化的事情,我们当然需要去了解一下 职场 大数据! 来更加全面的去了解 职业 到底是一个什么样的存在. 2017年 拉钩互联网白皮书 一.2017年互联网行业

SpringMVC-方法四种类型返回值总结,你用过几种?

SpringMVC 现在算是 Java 领域的一个基础性框架了,很多人天天用,可是对于 SpringMVC 方法的返回值,你又是否完全清楚呢?今天松哥就来和大家聊一聊 SpringMVC 中四种不同类型的返回值,看看有没有 get 到你的知识盲点? 1. ModelAndView 以前前后端不分的情况下,ModelAndView 应该是最最常见的返回值类型了,现在前后端分离后,后端都是以返回 JSON 数据为主了.后端返回 ModelAndView 这个比较容易理解,开发者可以在 ModelAn