本节我们将继续介绍粗糙集有关的概念。
本节将介绍经典粗糙集中粒度的度量相关概念。
我们依旧使用这个决策信息系统为例。
\(U\) | \(a\) | \(b\) | \(c\) | \(e\) | \(f\) | \(d\) |
---|---|---|---|---|---|---|
1 | 0 | 1 | 1 | 1 | 0 | 1 |
2 | 1 | 1 | 0 | 1 | 0 | 1 |
3 | 1 | 0 | 0 | 0 | 1 | 0 |
4 | 1 | 1 | 0 | 1 | 0 | 1 |
5 | 1 | 0 | 0 | 0 | 1 | 0 |
6 | 0 | 1 | 1 | 1 | 1 | 0 |
7 | 0 | 1 | 1 | 1 | 1 | 0 |
8 | 1 | 0 | 0 | 1 | 0 | 1 |
9 | 1 | 0 | 0 | 1 | 0 | 0 |
知识粒度
知识粒度定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,若\(B \subseteq C\),\(U/B=\{X_{1},X_{2},...,X_{m}\}\),共有\(m\)个等价类,则\(B\)的知识粒度\(GP_{U}(B)\)为:
\[
GP_{U}(B)=\sum_{i=1}^{m} \frac{|X_{i}|^2}{|U|^2}
\]
在粗糙集中,等价类的粒度越细,其划分能力就越强,近似集越精确;否则划分能力就弱,近似集越粗糙。
其中,\(\frac{1}{|U|} \leq GP_{U}(B) \leq 1\)。当\(U/B=\{X_{1},X_{2},...,X_{|U|} \}\),\(|U|\)是\(U\)元素的个数,此时知识粒度最小\(\frac{1}{|U|}\),划分能力最强;当 \(U/B=\{U\}\),此时知识粒度最大\(1\),划分能力最弱。
例如,在上表中:
\[
U/C=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\}\}
\]
则\(C\)的知识粒度为:
\[
GP_{U}(C)=\sum_{i=1}^{5}\frac{|X_{i}|^2}{|U|^2}
\]
\[
= \frac{1^2+2^2+2^2+2^2+2^2}{9^2}
\]
\[
= \frac{17}{81}
\]
相对知识粒度的定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,若\(P,Q \subseteq A\),\(U/P=\{X_{1},X_{2},...,X_{m} \}\),\(U/Q=\{Y_{1},Y_{2},...,Y_{n} \}\)。则\(Q\)关于\(P\)的相对知识粒度为
\[
GP_{U}(Q \mid P)=GP_{U}(P)-GP_{U}(P \bigcup Q)
\]
例如,在上表中,考虑条件属性集\(C\),决策属性集\(D\),有
\[
U/C=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\} \}
\]
\[
U/C \bigcup D=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8\},\{9\} \}
\]
则\(D\)关于\(C\)的相对知识粒度为
\[
GP_{U}(D \mid C)=GP_{U}(C)-GP_{U}(C \bigcup D)=
\]
\[
=\frac{17}{81}-\frac{15}{81}=\frac{2}{81}
\]
\(GP_{U}(Q \mid P)\)表示\(Q\)相对于\(P\)的分类能力。\(GP_{U}(Q \mid P)\)值越大,表示\(Q\)相对于\(P\)对论域\(U\)分类能力越强;反之,分类能力越弱。
属性重要度
内部属性重要度定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,\(B \subseteq C\),若\(\forall a \in B\)。
则属性\(a\)关于条件属性集\(B\)相对于决策属性集\(D\)的内部属性重要度为:
\[
Sig_{U}^{inner}(a,B,D)=GP_{U}(D \mid B-\{a\})-GP_{U}(D \mid B)
\]
以上表为例,考虑属性\(a\)关于条件属性集\(C\)相对于决策属性集\(D\)的内部属性重要度:
\[
Sig_{U}^{inner}(a,C,D)=GP_{U}(D \mid C-\{a\})-GP_{U}(D \mid C)
\]
\[
=\{ GP_{U}(C-\{a\})-GP_{U}((C-\{a\}) \bigcup D) \}-\{GP_{U}(C)-GP_{U}(C \bigcup D)\}
\]
考虑\(C-\{a\}\),\(\{C-\{a\}\} \bigcup D\)。
\[
U/(C-\{a\})=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\} \}
\]
\[
U/(\{C-\{a\}\} \bigcup D)=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8\},\{9\} \}
\]
所以
\[
Sig_{U}^{inner}(a,C,D)=\{ \frac{17}{81}-\frac{15}{81}\} - \{\frac{17}{81}-\frac{15}{81} \}=0
\]
外部属性重要度定义如下:
给定一个决策信息系统\(S=(U,A=C\bigcup D,V,f)\),\(U\)为论域,\(B \subseteq C\),若\(\forall a \in (C-B)\)
则属性\(a\)关于条件属性集\(B\)相对于决策属性集\(D\)的内部属性重要度为:
\[
Sig_{U}^{outer}(a,B,D)=GP_{U}(D \mid B)-GP_{U}(D \mid B \bigcup \{a\})
\]
还是以上表为例,若\(B=\{c,e,f\}\),考虑属性\(a\)关于条件属性集\(B\)相对于决策属性集\(D\)的内部属性重要度:
\[
Sig_{U}^{outer}(a,B,D)=GP_{U}(D \mid B)-GP_{U}(D \mid B \bigcup \{a\})
\]
\[
=\{ GP_{U}(B)-GP_{U}(B\bigcup D)\} - \{ GP_{U}(B \bigcup \{a\})-GP_{U}((B\bigcup \{a\}) \bigcup D) \}
\]
考虑\(B\),\(B\bigcup D\),\(B \bigcup \{a\}\),\((B\bigcup \{a\}) \bigcup D\)。
\[
U/B=\{\{1\},\{2,4,8,9\},\{3,5\},\{6,7\}\}
\]
\[
U/(B\bigcup D)=\{\{1\},\{2,4,8\},\{9\},\{3,5\},\{6,7\} \}
\]
\[
U/(B \bigcup \{a\})=\{\{1\},\{2,4,8,9\},\{3,5\},\{6,7\}\}
\]
\[
U/((B\bigcup \{a\}) \bigcup D)=\{\{1\},\{2,4,8\},\{9\},\{3,5\},\{6,7\} \}
\]
所以
\[
Sig_{U}^{outer}(a,B,D)=\{ \frac{17}{81}-\frac{15}{81}\} - \{\frac{17}{81}-\frac{15}{81} \}=0
\]
必要属性定义如下:
给定一个决策信息系统\(S=(U,A=C \bigcup D,V,f)\),\(U\)为论域,如果$Sig_{U}^{inner}(a,C,D)>0 \(,则称属性\)a\(是决策信息系统条件属性集\)C\(相对于决策属性集\)D$的必要属性。
特别地,\(S\)的核属性被定义为
\[
Core_{C}(D)=\{a \in C \mid Sig_{U}^{inner}(a,B,D)>0 \}
\]
显然,属性\(a\)不是核属性。
本文参考了:
- 景运革. 基于知识粒度的动态属性约简算法研究[D].西南交通大学,2017.
原文地址:https://www.cnblogs.com/Gedanke/p/12357466.html