公司动态
行业最新新闻公司动态发布
《大数据百科》一文详解大数据发展史
发布日期:2016-04-22 浏览次数:1429次



【1890美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。


【1935年】美国总统富兰克林•罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。


【1943年】一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。


【1944年】《学者与研究型图书馆的未来》一书出版。作者弗莱蒙特·雷德预计美国高校图书馆的规模每16年就翻一番,到2040年耶鲁大学图书馆将拥有约2亿册藏书。


【1961年】《巴比伦以来的科学》一书出版。作者德里克·普赖斯经过研究得出“指数增长规律”,即新期刊的数量正在以指数方式增长,每15年翻一番,每50年以10为指数倍进行增长。


【1964《应对信息爆炸的技巧》一文在《电子计算机学报》上发表,该文提出了通过压缩新论文篇幅和减少论文发表量来解决信息爆炸的建议。


【1965美国政府一项秘密研究计划将所有政府记录进行格式转换——包括7.42亿条税单和1.75亿套指纹-—转换为磁式计算机磁带存放在唯一的国家数据中心,尽管该计划后来因为遭受公众抗议而被取消了。该计划激发1974年的隐私法案,这一法案限制了联邦机构分享个人信息的行为。


【1967《自动数据压缩》一文在《美国计算机协会通讯》上发表,文章指出信息爆炸使得对所有信息的存储需求保持在最低限度是非常必要的。并提出全自动数据压缩机的构想。


【1975日本邮电部实施“信息流普查”计划,以调查日本的信息总量。普查以“字数总量”作为所有媒体的统一衡量单位。


【1980特鲁姆斯兰德在第四届美国电气和电子工程师协会(IEEE)举办的“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从?》,报告指出因为很多数据无法被用户识别,而丢弃这些数据存在着很大的风险,因此数量庞大的数据正在被保留下来。


【1981匈牙利中央统计办公室开始实施一项调查国家信息产业的研究项目,该项目包括以比特位单位来计量信息量。


【1983伊契尔·索勒·普尔在《科学》杂志上发表了《追踪信息流》一文,通过对1960年到1977年17种主流通讯媒体发展趋势的观察得出结论,在1977年以前,信息流的增长速度在很大程度上受到广播迅速发展的影响,而到了1977年,点对点的媒体发展速度明显优于广播。


【1986哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文,文中预测到2000年,半导体随机存储器将能够在每立方英尺存储1.25*1011个字节。


【1989年】英国计算机科学家蒂姆·伯纳斯·李在20世纪60年代提出通过开创了一个叫做万维网的超文本系统在全球范围内利用互联网实现共享信息。


【1997迈克尔·考克斯和大卫·埃尔斯沃斯在第八届美国电气和电子工程师协会(IEEE)举办的“关于可视化”的会议上,发表了《为外存模型可视化而应用控制程序请求页面调度》的文章,文中写到,可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘,甚至是远程磁盘的存储容量。我们将这个问题称之为大数据。


【1998《互联网的规模与增长速度》一文发表,作者预计在2002年左右,美国的数据流量将赶超声音流量,且将由互联网主宰。


【1999《千兆字节数据集的实时性可视化探索》在《美国计算机协会通讯》上发表,文章第一次正式使用“大数据”这一术语。


【2000《信息知多少?》一文第一次对世界上每年在计算机存储方面做了量化研究。




【2001道格·莱尼发布了《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告,首次提出“3V”作为定义大数据的三个维度。


【2002在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。


【2004Facebook公司成立,以此为标志社交网络流量直接导致大量非结构化数据的涌现,而传统处理方法难以应对。


【2005Hadoop项目诞生。Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。


【2006年】一种名为云计算的新工具出现,云计算不仅可以开采新型的数据资源(非结构化数据),而且还发掘出了一些重要的新用途(如精准营销、趋势预测等)。最重要的,这种工具的成本非常低廉。


【2007《膨胀的数字宇宙:2010年世界信息增长预测》白皮书出版,这是第一份评估和预测每年世界所产生与复制的数字化数据总量的研究。


【2008“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (ComputingCommunity Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。


【2009联合国启动了“全球脉动计划”,拟通过大数据推动落后地区的发展。


【2010《数据,无所不在的数据》一文在《经济学人》上发表。作者肯尼斯·库克尔描述,世界上有着无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府部门到艺术领域,无不感受到这种巨量信息的影响。


【2011IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利。”2012年美国政府提出“大数据研究和发展倡议”,发起全球开放政府数据运动,并投资2亿美元促进大数据核心技术的研究和应用。


【2012瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。


【2012年】美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。


【2014年】欧盟委员会呼吁各成员国积极发展大数据,迎接“大数据”时代,并采取一系列具体措施发展大数据业务。


【2015年】全球通过手机或移动装置接入互联网的用户超过了通过电脑或者笔记本接入电脑的用户。这种用户习惯的改变对于 App 设计人员、公司甚至政府如何收集数据都会产生巨大的影响。