公司动态
行业最新新闻公司动态发布
呈现数据背后的故事--典型BI可视化技术综述
发布日期:2016-03-18 浏览次数:1879次



“To be or not to be,that is the question.” 

--WilliamShakespeare

商业智能(Business Intelligence,简称BI)从技术层面讲就是综合运用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术等进行数据分析;从实际应用角度上看,它将企业内部或者竞争对手的数据收集整理、进行分析和处理,将其转化成知识、分析和结论,从而帮助决策者做出正确决策,提升企业决策质量。因此,商业智能实质上是数据转化为信息的过程,这一过程也可称为信息供应链,其核心目的就是把初始的操作型数据变成决策所使用的商业信息。

然而,商业信息与各级决策者之间还存在一条认知理解的天堑,如何变通途,这就需要商业智能可视化技术。

随着大数据的兴起,在商务智能领域逐渐催生了几类特征鲜明的信息类型,主要包括文本、网络或图及多维数据等。如何实现这些与大数据密切相关的信息类型可视化就成为当今商务智能可视化技术的研究热点。


一、文本可视化


文本信息是非结构化数据类型的典型代表,是互联网中最主要的信息类型。文本可视化的意义在于,能够将文本中蕴含的语义特征(如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来。文本可视化的主要技术包括:

1. 基于词汇的文本可视化--通过对文本中词汇的不同呈现,展现文本的特征。

2. 基于篇章内容的文本可视化--在词汇可视化的基础上,通过标注、计算、统计、推断等技术手段,发现文章中特定的隐含语义关系。

3. 基于时间序列的文本可视化--引入时间轴概念,针对文本的时间关系进行可视化研究。

4. 基于主体领域的文本可视化--从大规模文本中发现特定的一个或者多个主题领域,并反映主题领域之间的关系。


二、网络可视化


网络关联关系是大数据中最常见的关系。层次结构数据也属于网络信息的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系,例如节点或边聚集性,是网络可视化的主要内容之一。而大数据背景下对各类大规模复杂网络如社会网络和互联网等的演化规律的探究,将推动复杂网络的研究方法与可视化领域进一步深度融合。现有的网络可视化应用有600多种,可以采用不同指标对其进行分类,如任务主题、可视方法等。目前比较典型的分类方法是Ben Schneiderman 提出的按照网络节点的布局方法进行分类:

1. 力导引布局--基本思想是将网络看成一个顶点为钢环、边为弹簧的物理系统,系统被赋予某个初始状态以后,弹簧弹力(引力和斥力)的作用会导致钢环移动,这种运动直到系统总能量减少到最小值时停止。

2.地图布局--该类方法能够产生用户极易理解的网络布局,它以一幅世界(大洲、国家、省或市)地图作为背景,根据网络节点的地理坐标将其布局在背景图上,然后根据节点间的连接关系绘制网络边。

3.圆形布局--该方法在圆心放置一个或一组节点,在同心圆周上按顺序布局其余节点.它能利用通过圆心的十字线产生优良的布局。

4.相对空间布局--该方法以“参照体”的空间位置为基础,根据网络各节点与“参照体”的关系计算其坐标。

5.聚类布局--该方法根据节点的属性及相互间的连接关系,通过人机交互或应用算法(如MDS、自组织网络(SOM)和Sam/lion映射等)来聚类分组网络节点。

6.时间布局--该方法的基本原理是根据节点的时间属性对其进行排布,其典型布局是将历史节点排列在屏幕顶(左)端,当前节点摆放在屏幕底(右)端。同一时间的节点放置在同一排(列)。

7.层布局--该方法首先根据节点的分类属性将屏幕划分为几个区域,然后在对应的区域中布局网络节点。


 三、多维数据可视化


多维数据指的是具有多个维度属性的数据变量,广泛存在于基于传统关系数据库以及数据仓库的应用中,在商业智能系统.多维数据分析的目标是探索多维数据项的分布规律和模式,并揭示不同维度属性之间的隐含关系。典型的多维可视化技术有:

1. Scatterplot Matrix--显示多个数据维度中任意两个数据维度之间的依赖关系的矩阵图,分别把多维数据中的每一个维数对称地标注在横轴和纵轴上,把它们在数据集中每一对出现的频度作为关系依赖的评价,这样每两维的关系被显示在这个平面网格图中。

2. 几何图技术--包括星型图、雷达图、Andrew’s Gurves、shapecoding、Grand—tour等方法。

3. 图标技术--把多维数据集合中的每一条记录转化为一个图标,可视化的特征元素在对应映射的数据的操控之下,可以看到数据的大概分布特征。

4. 平行坐标技术--将n维数据空间用n条等距离的平行轴映射到二维平面上,每条轴线都对应于一个属性维。

5. Hierarchy技术

(1)堆显示技术--选出一个多维数据集属性中的两个属性来构建一个平面坐标系,在此坐标系中,利用不同的坐标值把空间分成不同的矩形表格,再在这些表格中选择剩余属性中的两个属性来构建第二层坐标系,照此方法递推。

(2)其它层次化技术—包括Tree map、Cone Trees等。基本思想是将n维数据空间依据一定的原则划分为子空间,对这些子空间以层次结构的方式组织并以图形表示出来。