图信号处理进行大数据分析

Sandryhaila A, Moura J M F. Big data analysis with signal processing on graphs: Representation and processing of massive data sets with irregular structure[J]. IEEE Signal Processing Magazine, 2014, 31(5): 80-90.

用图信号处理进行大数据分析

discrete signal processing  离散信号处理  DSP

图上的DSP : DSPG

linear shift-invariant  线性平移不变滤波 LSI

这篇文章讨论了一种基于图上离散信号处理的大规模数据分析范式。 从经典信号处理理论到由一般图标记的数据,DSPG推广了信号处理的概念和方法。

1. 简介

大量的原始数据能够用于决策制定和行动计划,但它们的容量和增长的复杂结构限制了许多广泛应用于小数据集的方法的可用性,如 主成分分析(PCA),奇异值分解(SVD),谱分析等。大数据的问题,需要新的范式,技术和算法。

一些算法可以用来表示和处理拥有复杂结构的大数据集。由多个参量描述的多维数据,可以用多路数组(multiway arrays)来表示分析。多路数组已应用于生物医学信号处理,电讯和传感器信号处理等领域。

高维数据的低维表示已得到了广泛研究。在这些方法中,数据集被视为高维空间中的图,数据被投影到由图拉普拉斯本征基的子集生成的低维子空间。

图上的信号处理将经典信号处理推广到一般的图。

2. 图上的信号处理

2.1 图信号 graph signals

  DSP研究对于数据集的分析和处理,其中的数据元素由依赖性,相似性,物理邻近,或其它性质相联系。这种关系通过一个图来表示:

  G=( V, A)   V是N个节点的集合;A 是图的权重邻接矩阵。每个数据元素对应一个节点 vn , 非0权重(矩阵元) An,m 表示从v到 v的有向边。

  给定一个图, 数据集构成一个图信号,定义为一个映射:

$\mathbf{s}: v_{n} \mapsto  \mathit{s}_{\mathit{n}} $

可以将图信号写为一个矢量:

  $\mathbf{s}=\left [ s_{0} \right  s_{1} \cdots s_{N-1}]^{T} $

  这个矢量不仅仅是个列表, 而是一个图。

  

  (a): 有限周期时间序列, 用有向有环图标记。

  (b) 传感器网络收集的天气数据。

  (c)网站的特征为图信号。每个节点表示一个网站,有向边表示超链接。比如很多网站都指向某个网站,被指向的网站可能会具有很高的浏览量。

  (d)社交网络中采集的图信号:个体特征构成了社交图中的图信号。节点表示个体,边将人们连接起来基于他们的友谊,合作或其他关系。

2.2 图位移 graph shift

  在DSP中,信号位移由时间延迟执行。 一个长度为N 的延迟有限周期时间序列为: $\mathbf{\tilde{s}}_{n}=s_{\textup{mod}(n-1,N)} $ (商可以为负数,而余数必须为非负数)

  即原信号为:

  $\mathbf{s}=\left [ s_{0} \right  s_{1} \cdots s_{N-1}]^{T} $

  位移信号为:

  $ \mathbf{\tilde{s}}_{n}=\left [ s_{N-1} \right  s_{0}  ,s_{1}  \cdots s_{N-2}]^{T}$

  两者的关系为:

  $\mathbf{\tilde{s}}=\mathbf{C}\mathbf{s}$

  C为 N*N 循环位移矩阵:

  $$

\mathbf{C}=\begin{bmatrix}
0&0 &0 &0 &0 &1 \\
1 & & & & & \\
& .& & & & \\
& &. & & & \\
& & &. & & \\
& & & &1 &
\end{bmatrix}

$$

 $\mathbf{C}=$ 

时间: 2024-10-10 09:05:06

图信号处理进行大数据分析的相关文章

【转帖】自助式BI的崛起:三张图看清商业智能和大数据分析市场趋势

自助式BI的崛起:三张图看清商业智能和大数据分析市场趋势 大数据时代,商业智能和数据分析软件市场正在经历一场巨变,那些强调易用性的,人人都能使用的分析软件正在取代传统复杂的商业智能和分析软件成为市场的热点和趋势. 只要看一眼Tableau的财务报告,你就能明白商业智能市场正在发生什么,Tableau去年第四季度营收同比增长了75%.这标志着企业和个人纷纷开始购买那些“自助式”分析软件,也就是那种简单易用到完全不懂数据分析的业务人员和商务人士也能轻松上手的分析软件,例如Tableau,而传统商业分

大数据分析案例

部分数据来源于网络,如有侵权请告知. 一.大数据分析在商业上的应用 1.体育赛事预测 世界杯期间,谷歌.百度.微软和高盛等公司都推出了比赛结果预测平台.百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%.现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控. “在百度对世界杯的预测中,我们一共考虑了团队实力.主场优势.最近表现.世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后我们再利用一个由搜索专家设计的机

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

中国新歌声与中国有嘻哈大数据分析

以上这张图是八月份中国新歌声和中国有嘻哈的大数据分析,大部分时间中国有嘻哈的搜索量跟媒体指数都是高于中国新歌声的,由此可以看出,中国有嘻哈在观众的心目中更有影响力,中国有嘻哈的支持度逼中国新歌声高很多.

大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)

大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据.近似实时数据和实时数据.按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性: 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算.而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实

BuzzSumo:什么样的文章能获得疯转?(基于1亿篇文章大数据分析)

BuzzSumo:什么样的文章能获得疯转?(基于1亿篇文章大数据分析) 社交媒体追踪服务分析工具BuzzSumo,2014年5月前后对社交媒体上超过1亿篇文章进行了分析,试图找出一个答案: 什么样的内容才能让用户乐于分享,获得病毒式传播? 这个大问题又内含或细分为一些小问题: ◆那些获得疯转的文章,激起了用户哪种情绪? ◆清单?图表?哪类文章更有可能被用户分享? ◆读者更喜欢分享短文章还是长文章?社交媒体上的文章,最理想的长度是怎样的? ◆“信任”是不是驱动用户分享文章的一个主要因素? ◆文章有

基于大数据分析的安全管理平台技术研究及应用

[引言]这篇文章原载于内刊,现发布于此.内容有所删减. Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 2014-1-14 [内 容摘要]本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况.接下来,本文阐释了大数据分析技术,对大数据 在信息安全领域尤其是安全管理平台领域的应用做了深入分析,并

大数据分析的众包平台—Kaggle

众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式.在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题.比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle. Figure 1 Kaggle的工作方式. Kaggle的工作方式如图中右上角的流程所示.假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想

大数据分析(一)探索性分析

最近,大数据风靡一时,也成为我们码农热捧的技术.大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoop.hive.storm等技术.过了一段时间,当我们想用这些技术对数据练习的时候.面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型. 我们对大数据以及大数据分析完全没有头绪,我们甚至对大数据技术产生了迷茫,产生了退缩. 当我们拿到数据应该怎么做呢,如果不知道怎么做,那就先进行探索性分析吧. 分析数据可以分为探索和验证两个阶段.探索性数据分析(E