Sandryhaila A, Moura J M F. Big data analysis with signal processing on graphs: Representation and processing of massive data sets with irregular structure[J]. IEEE Signal Processing Magazine, 2014, 31(5): 80-90.
用图信号处理进行大数据分析
discrete signal processing 离散信号处理 DSP
图上的DSP : DSPG
linear shift-invariant 线性平移不变滤波 LSI
这篇文章讨论了一种基于图上离散信号处理的大规模数据分析范式。 从经典信号处理理论到由一般图标记的数据,DSPG推广了信号处理的概念和方法。
1. 简介
大量的原始数据能够用于决策制定和行动计划,但它们的容量和增长的复杂结构限制了许多广泛应用于小数据集的方法的可用性,如 主成分分析(PCA),奇异值分解(SVD),谱分析等。大数据的问题,需要新的范式,技术和算法。
一些算法可以用来表示和处理拥有复杂结构的大数据集。由多个参量描述的多维数据,可以用多路数组(multiway arrays)来表示和分析。多路数组已应用于生物医学信号处理,电讯和传感器信号处理等领域。
高维数据的低维表示已得到了广泛研究。在这些方法中,数据集被视为高维空间中的图,数据被投影到由图拉普拉斯本征基的子集生成的低维子空间。
图上的信号处理将经典信号处理推广到一般的图。
2. 图上的信号处理
2.1 图信号 graph signals
DSPG 研究对于数据集的分析和处理,其中的数据元素由依赖性,相似性,物理邻近,或其它性质相联系。这种关系通过一个图来表示:
G=( V, A) V是N个节点的集合;A 是图的权重邻接矩阵。每个数据元素对应一个节点 vn , 非0权重(矩阵元) An,m 表示从vm 到 vn 的有向边。
给定一个图, 数据集构成一个图信号,定义为一个映射:
$\mathbf{s}: v_{n} \mapsto \mathit{s}_{\mathit{n}} $
可以将图信号写为一个矢量:
$\mathbf{s}=\left [ s_{0} \right s_{1} \cdots s_{N-1}]^{T} $
这个矢量不仅仅是个列表, 而是一个图。
(a): 有限周期时间序列, 用有向有环图标记。
(b) 传感器网络收集的天气数据。
(c)网站的特征为图信号。每个节点表示一个网站,有向边表示超链接。比如很多网站都指向某个网站,被指向的网站可能会具有很高的浏览量。
(d)社交网络中采集的图信号:个体特征构成了社交图中的图信号。节点表示个体,边将人们连接起来基于他们的友谊,合作或其他关系。
2.2 图位移 graph shift
在DSP中,信号位移由时间延迟执行。 一个长度为N 的延迟有限周期时间序列为: $\mathbf{\tilde{s}}_{n}=s_{\textup{mod}(n-1,N)} $ (商可以为负数,而余数必须为非负数)
即原信号为:
$\mathbf{s}=\left [ s_{0} \right s_{1} \cdots s_{N-1}]^{T} $
位移信号为:
$ \mathbf{\tilde{s}}_{n}=\left [ s_{N-1} \right s_{0} ,s_{1} \cdots s_{N-2}]^{T}$
两者的关系为:
$\mathbf{\tilde{s}}=\mathbf{C}\mathbf{s}$
C为 N*N 循环位移矩阵:
$$
\mathbf{C}=\begin{bmatrix}
0&0 &0 &0 &0 &1 \\
1 & & & & & \\
& .& & & & \\
& &. & & & \\
& & &. & & \\
& & & &1 &
\end{bmatrix}
$$
$\mathbf{C}=$