公司动态
行业最新新闻公司动态发布
一分钟科普“数据湖”
2016-04-01
什么是数据湖?数据湖(DataLake)概念最早由CITOResearchWeb的CTODanWoods于2011年提出。数据湖简单的说就是一个可以存储大量数据的并行信息系统,可以在不需要另外移动数据的情况下进行数据运算、分析。 数据湖的价值?目前,人们已经见证了大数据在进行决策制定、降低运营成本、优化产能等方面产生的巨大商业价值。而数据湖是目前大数据分析领域最新最火的概念,很多厂商都声称数据湖是推动和充分利用大数据分析技术的关键。数据湖的设计理念允许将不同来源的数据都集中到一个未经管理的数据湖当中,而不是保持各种独立管理的数据集合,其设计初衷就是为了解决信息孤岛的问题。数据湖系统将数据集中存储在一个存储盘阵,使得所有数据能够快速积极的响应商业环境和研究目的的变化。同时,数据湖不再局限于结构化或半结构化数据,而是能够对几乎所有类型的数据在不需要预定义模型的情况下进行分析。因此,数据湖能够提供多维度、全方位、实时的数据信息支持,其数据架构体系也更加灵活,扩展性也更强。  数据湖的缺陷?数据湖作为目前还在研发、探索当中的新的数据架构模式,其关注重点一直放在如何保存不同类型的数据,却忽视了如何使用数据以及为什么要使用数据、如何监管数据、如何定义和分类数据,以及如何确保数据安全等问题。具体表现:首先,数据湖中的数据质量难以保证。理论上讲,数据湖可以在不受任何监督或管理的条件下接收任何类型的数据。然而,事实证明,如果不对数据进行合理的定义和维护,那数据湖很快就会变成数据沼泽,因此有效的数据治理是数据湖技术的核心。其次,数据湖存在安全风险。数据在不受内容监管的情况下被放入数据湖当中,而目前的安全防范和访问控制技术仍不成熟,这就意味着很多隐私数据将暴露于风险之下。从企业的角度,安全保护必须贯穿整个数据的生命周期,从接收数据的第一天起就正视安全问题,明确规定可以引入数据湖的数据类型,并制定和及时调整数据湖中的各类数据的使用权限。 如何构建数据湖?综数据湖一般由四部分组成:结构化或非结构化数据源、信息存储系统、数据治理系统、数据分析系统。具体搭建一个有效的数据湖解决方案非常复杂:首先,必须为每个分析用例部署并配置正确的分析系统;然后,为其分配相应的存储;一旦设置环境被创建,则要求数据必须在所有正确的访问权限和管理应用到数据集的情况下加载。 数据湖的愿景?成熟的数据湖将支撑大数据分析成为企业战略的核心组成部分,使得企业能够消除所有业务应用和分析应用之间的壁垒,建立一个全覆盖、单一的企业平台。
畅圣大数据作为理事单位参加上海市民营经济研究会三届五次理事会暨第二届上海杰出青年创客论坛
2016-04-01
3月25日,上海市民营经济研究会三届五次理事会暨第二届上海杰出青年创客论坛在上海大学科技园举行。畅圣大数据最为上海市民营经济研究会上海青创智库的首批理事会员,全程参与了本次会议论坛。会议由上海市民营经济研究会高级顾问施南昌主持。中国民营经济研究会副会长、上海市民营经济研究会会长季晓东传达了中央统战部副部长、全国工商联第一副主席、党组书记全哲洙有关讲话精神及中国民营经济研究会四届二次理事会会议精神,对如何进一步做好上海市民营经济研究会工作提出了具体要求。季晓东会长指出:“改革开放以来,中国经济经历了三次创业高潮。第一波高潮是草根创业。主要由农民和城市边缘人发端。温州‘八大王’是早期代表。‘傻子瓜子大王’年广久因备受争议并引起最高层关注,成为那个时代的特殊符号。‘敢闯敢试’成为当时创业的鲜明特色。第二波是精英创业。一些体制内的高管和骨干勇敢告别铁饭碗下海创业,柳传志、陈东升、冯仑等崭露头角,书写了一代传奇。现代公司治理和企业制度在此期间开始形成。第三波可称为海派创业。主要特点是领军人物大多是海归优秀人士,再则,创业开始摆脱单纯引进模仿式的低端‘拿来主义’和‘代工模式’,能紧随国际流行趋势,呈现海派特色,尤其是发力于互联网+等新型产业。同时创投等新兴金融资本和工具应运而生,为虎添翼。李彦宏、张朝阳、马云、沈南鹏等青年才俊成为业界明星。从中可以看到,‘时势造英雄’,中国的企业家在进步在追赶,在不断转型升级,他们成为国家发展的缩影和希望。可以预见,中国正迎来第四波创业浪潮,其代表人物是创新领军人物,并能在国际舞台占一席之位,这是后发达国家实现‘弯道超车’的必然要求和能力体现。”畅圣大数据创始人&CEO毛骏上海市民营经济研究会上海青创智库工作委员会成立于2016年1月21日,畅圣大数据创始人&CEO毛骏曾受邀作为杰出青年创客代表做客首期上海杰出青年创客论坛,同与会嘉宾共同探讨了“如何应用大数据技术为金融产业提供优质服务”的话题,并分享了畅圣大数据的创新性金融服务模式。
大数据分析技术哪家强?畅融金服帮您忙
2016-03-25
原文作者:ConnerForrest 本文由畅融金服运营组编译,欢迎转发,但请注明出处“畅融金服”。大数据分析是企业科技中发展最快的领域之一。很多大数据领域的从业者或想进入大数据行业的求职者,都选择回到学校获取一个高含金量的学位,下面将为您介绍学习大数据分析最好的去处。1.卡内基梅隆大学(CarnegieMellonUniversity)卡内基梅隆大学的Heinz公共政策与管理学院,提供以数据分析为重点的信息系统管理专业硕士课程。2.斯坦福大学(StanfordUniversity)作为硅谷建筑群中的一员,斯坦福大学出现在这个名单上并不奇怪。斯坦福大学的统计学专业硕士课程专注于大数据研究。同时,由于与创业机构联系紧密,斯坦福大学成为想加入创业型企业人士的最佳选择。3.圣克拉拉大学(SantaClaraUniversity)建立于1851年的圣克拉拉大学是加利福尼亚州最古老的一所高校,在美国西部地区有着极高的学术声誉。该校的Leavey商学院为学生提供商业分析专业硕士课程,该专业在全美排名第一。4.密歇根大学迪尔伯恩分校(UniversityofMichigan-Dearborn)密歇根不仅仅是最大的汽车制造商之家,也是一个学习大数据的好地方。与名单上其他私立高校的同类课程相比,迪尔伯恩分校的商业分析硕士课程拥有极高的性价比。5.德克萨斯大学达拉斯分校(UniversityofTexasatDallas)人们说德克萨斯的一切都更大(美国谚语),当然包括数据。由于达拉斯周边聚集着相当数量的大型企业,达拉斯分校的Jindal管理学院成为获取数据分析硕士学位的不二选择。6.弗吉尼亚大学(UniversityofVirginia)弗吉尼亚大学是一所著名的综合性学府,它的数据科学研究所更被视为数据分析研究的圣地。该校的数据科学硕士课程(MSDS)仅需10个月即可完成,是快速成为专业人士的首选。7.佛罗里达大学(UniversityofFlorida)排在第七位的是佛罗里达大学。在这里,学生可获得信息系统和运营管理专业硕士学位。由于该校同时拥有顶级的商学院,因此同时选择攻读管理学专业学位是一个不错的选择。8.普渡大学(PurdueUniversity)被许多人认为是美国中西部地区常春藤联盟名校的普渡大学,是一个学习数据分析好地方。9.马里兰大学(UniversityofMaryland)马里兰大学是一所伟大的公立大学,它为立志成为数据科学家的学生提供高质量的硕士学位课程。同时,由于毗邻华盛顿,很多马里兰大学的毕业生选择以政府工作作为自己职业的开端。10.佐治亚理工学院(GeorgiaInstituteofTechnology)佐治亚理工的统计学硕士课程是一个跨学科的专业。附近的亚特兰大市正在成为一个蓬勃发展的高科技就业市场。
呈现数据背后的故事--典型BI可视化技术综述
2016-03-18
“Tobeornottobe,thatisthequestion.” --WilliamShakespeare商业智能(BusinessIntelligence,简称BI)从技术层面讲就是综合运用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术等进行数据分析;从实际应用角度上看,它将企业内部或者竞争对手的数据收集整理、进行分析和处理,将其转化成知识、分析和结论,从而帮助决策者做出正确决策,提升企业决策质量。因此,商业智能实质上是数据转化为信息的过程,这一过程也可称为信息供应链,其核心目的就是把初始的操作型数据变成决策所使用的商业信息。然而,商业信息与各级决策者之间还存在一条认知理解的天堑,如何变通途,这就需要商业智能可视化技术。随着大数据的兴起,在商务智能领域逐渐催生了几类特征鲜明的信息类型,主要包括文本、网络或图及多维数据等。如何实现这些与大数据密切相关的信息类型可视化就成为当今商务智能可视化技术的研究热点。一、文本可视化文本信息是非结构化数据类型的典型代表,是互联网中最主要的信息类型。文本可视化的意义在于,能够将文本中蕴含的语义特征(如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来。文本可视化的主要技术包括:1.基于词汇的文本可视化--通过对文本中词汇的不同呈现,展现文本的特征。2.基于篇章内容的文本可视化--在词汇可视化的基础上,通过标注、计算、统计、推断等技术手段,发现文章中特定的隐含语义关系。3.基于时间序列的文本可视化--引入时间轴概念,针对文本的时间关系进行可视化研究。4.基于主体领域的文本可视化--从大规模文本中发现特定的一个或者多个主题领域,并反映主题领域之间的关系。二、网络可视化网络关联关系是大数据中最常见的关系。层次结构数据也属于网络信息的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系,例如节点或边聚集性,是网络可视化的主要内容之一。而大数据背景下对各类大规模复杂网络如社会网络和互联网等的演化规律的探究,将推动复杂网络的研究方法与可视化领域进一步深度融合。现有的网络可视化应用有600多种,可以采用不同指标对其进行分类,如任务主题、可视方法等。目前比较典型的分类方法是BenSchneiderman提出的按照网络节点的布局方法进行分类:1.力导引布局--基本思想是将网络看成一个顶点为钢环、边为弹簧的物理系统,系统被赋予某个初始状态以后,弹簧弹力(引力和斥力)的作用会导致钢环移动,这种运动直到系统总能量减少到最小值时停止。2.地图布局--该类方法能够产生用户极易理解的网络布局,它以一幅世界(大洲、国家、省或市)地图作为背景,根据网络节点的地理坐标将其布局在背景图上,然后根据节点间的连接关系绘制网络边。3.圆形布局--该方法在圆心放置一个或一组节点,在同心圆周上按顺序布局其余节点.它能利用通过圆心的十字线产生优良的布局。4.相对空间布局--该方法以“参照体”的空间位置为基础,根据网络各节点与“参照体”的关系计算其坐标。5.聚类布局--该方法根据节点的属性及相互间的连接关系,通过人机交互或应用算法(如MDS、自组织网络(SOM)和Sam/lion映射等)来聚类分组网络节点。6.时间布局--该方法的基本原理是根据节点的时间属性对其进行排布,其典型布局是将历史节点排列在屏幕顶(左)端,当前节点摆放在屏幕底(右)端。同一时间的节点放置在同一排(列)。7.层布局--该方法首先根据节点的分类属性将屏幕划分为几个区域,然后在对应的区域中布局网络节点。 三、多维数据可视化多维数据指的是具有多个维度属性的数据变量,广泛存在于基于传统关系数据库以及数据仓库的应用中,在商业智能系统.多维数据分析的目标是探索多维数据项的分布规律和模式,并揭示不同维度属性之间的隐含关系。典型的多维可视化技术有:1.Scatterplot Matrix--显示多个数据维度中任意两个数据维度之间的依赖关系的矩阵图,分别把多维数据中的每一个维数对称地标注在横轴和纵轴上,把它们在数据集中每一对出现的频度作为关系依赖的评价,这样每两维的关系被显示在这个平面网格图中。2.几何图技术--包括星型图、雷达图、Andrew’s Gurves、shapecoding、Grand—tour等方法。3.图标技术--把多维数据集合中的每一条记录转化为一个图标,可视化的特征元素在对应映射的数据的操控之下,可以看到数据的大概分布特征。4.平行坐标技术--将n维数据空间用n条等距离的平行轴映射到二维平面上,每条轴线都对应于一个属性维。5.Hierarchy技术(1)堆显示技术--选出一个多维数据集属性中的两个属性来构建一个平面坐标系,在此坐标系中,利用不同的坐标值把空间分成不同的矩形表格,再在这些表格中选择剩余属性中的两个属性来构建第二层坐标系,照此方法递推。(2)其它层次化技术—包括Treemap、ConeTrees等。基本思想是将n维数据空间依据一定的原则划分为子空间,对这些子空间以层次结构的方式组织并以图形表示出来。
共 7 页
到第