图1是典型的可视分析流程图,起点是输入的数据,终点是提炼的知识。同样,从数据到知识,知识再到数据,数据再到知识的循环过程。从数据到知识有两个途径:交互的可视化方法和自动的数据挖掘方法。这两个途径的中间结果分别是对数据的交互可视化结果和从数据中提炼的数据模型。用户既可以对可视化结果进行交互的修正,也可以调节参数以修正模型。从数据中洞悉知识的过程也主要依赖两条主线的互动与协作[1,2]。
图1 欧洲学者DanielKeim等人提出的可视化分析学标准流程
数据可视化分析流程中的核心要素包括四个方面:
数据表示与转换
数据可视化的基础是数据表示与变换。为了允许有效的可视化、分析和记录,输入数据必须从原始状态到一种便于计算机处理的机构化数据表示形式。通常这些结构存在于数据本身,需要研究有效的数据提炼或简化方法以最大程度地保持信息和知识的内涵及相应的上下文。有效表示海量数据的主要挑战在于采用具有可伸缩性和可扩展性的方法,以便忠实地保持数据的特征和内容。此外,将不同类型、不同来源的信息合成为一个统一的表示,使得数据分析人员能及时聚焦于数据的本质。
数据的可视化呈现
将数据以一种直观、容易理解和操纵的方式呈现给用户,需要将数据转换为可视化表示并呈现给用户。数据可视化向用户传播了信息,而同一个数据集可能对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。
用户交互
对数据进行可视化和分析的目的是解决目标任务。有些任务可明确定义,有些任务则更广泛或者一般化。通用的目标任务可分成三类:生成假设、验证假设和视觉呈现。数据可视化可以用于从数据中探索新的假设,也可以证实相关假设与数据是否吻合,还可以帮助数据专家向公众展示其中的信息。交互是通过可视化的手段辅助分析决策的直接推动力。有关人机交互的探索已经持续很长时间,但智能、适用于海量数据可视化的交互技术,如任务导向的、基于假设的方法还是一个未解难题,其核心挑战是新型的可支持用户分析决策的交互方法。这些交互方法涵盖底层的交互方式与硬件、复杂的交互理念与流程,更需要克服不同类型的显示环境和不同任务带来的可扩充性难点。
分析推理
分析推理技术,是用户获取深度洞悉的方法,能够直接支持情景评估,计划,决策。在有效的分析时间内,可视分析必须提高人类判断的质量。可视分析工具必须能处理不同的分析任务例如[3]:
1、很快地理解过去,现在情况,同时,包括趋势和已经产生的当前事件
2、监控当前的事件,突发的警告信号和异常事件。
3、确定一个活动或个人意图的指标
4、在危机时刻提供决策支持
通常在极端的时间压力下,用户个人与协作分析的结合生产这些任务将。可视分析必须能基于假设,基于情景的分析技术,提供基于现有证据的分析推理支持。
[1] 任磊, 杜一, 马帅, 张小龙, 戴国忠, 大数据可视分析综述[J]. 软件学报, pp. 1909-1936, 2014.
[2] 陈为,沈则潜,陶煜波. 数据可视化[M].电子工业出版社, pp.122-123, 2013.
[3] K. A. Cook , J. J. Thomas, Illuminating the Path: The Research and Development Agenda for Visual Analytics[J], IEEE CS Press: Los Alamitos, 2005.