智能安防

大数据浪潮让生活更美好

中国保险报 2013-06-05

摘要 何谓“大”数据?70年代若干兆字节(MB)就算大量数据了,以后是千兆字节(GB)、兆兆字节(TB),而现在已经到了PB级(1PB=1024TB),而高端数据仓库已达EB级(1EB=1024PB)。反正是千倍、千倍地往上翻。想想,光是全世界各地安装的摄像头有多少,每时每刻都在产生数据。唱歌、通话、录音产生多少数据。多少亿人上网、发微博,多少数据!有了互联网,这些数据就都在网上流通,而不是死在那里。

  大数据的核心就是预测,它将为人类的生活创造前所未有的可量化的维度。而且,大数据已经成为新发明和新服务的源泉,更多的改变令人期待。


  何谓“大”数据?70年代若干兆字节(MB)就算大量数据了,以后是千兆字节(GB)、兆兆字节(TB),而现在已经到了PB级(1PB=1024TB),而高端数据仓库已达EB级(1EB=1024PB)。反正是千倍、千倍地往上翻。想想,光是全世界各地安装的摄像头有多少,每时每刻都在产生数据。唱歌、通话、录音产生多少数据。多少亿人上网、发微博,多少数据!有了互联网,这些数据就都在网上流通,而不是死在那里。


  钞票不流通就没有价值,数据也一样。数据不利用也毫无价值。在计算机领域,早就有数据库分支,后来发展到数据仓库,也有人叫海量数据处理。现在又提出所谓“大数据”。有了互联网以后,数据的一个重要特征是互动性和动态性,就是说任何用户既可以下载,也可以上传,也可以实时对话。例如在线商务,政府的群众情绪分析,卫生部门的流行病疫情分析,社会科学家研究社会网络如何扩散社会呼声及如何有效处理。但是,这些都属于大数据技术的应用,虽然每一个都需要一个应用程序,但不属于大数据技术本身。可这些都要求支持大量数据的计算、搜索和存储。因此,大数据分析和管理成为当今计算领域最关键性的挑战。


  有人认为,大数据主要是数理统计,对大量同类型数据进行统计分析。这属于数理统计学科,不属于计算学科。也有人认为,大数据主要是数据挖掘、机器学习。这倒有点靠谱。但是,数据挖掘、机器学习是另外两个学科领域。不能把数据挖掘、机器学习包括在大数据的研究范围之内。大数据是数据库发展而来的。


  数据库要做的是数据的组织、存储和管理。关系数据库比较容易创建和存取,而且容易扩充。在数据库创建之后,一个新的数据种类能被添加而不需要修改所有的现有应用软件。并行数据库的SQL语言应运而生。但是,大数据来了以后,没有一个设备能存储这么大量的数据,它必须存储在许多的存储设备中。一个硬盘即使能存1TB,对于EB的数据也无济于事。而且,读写都很费时。串行地组织、管理、搜索这么大量的数据,用多么快的计算机都无能为力。因为超级计算机可以计算得很快,但与存储设备的输入输出快不了。所以,串行根本是不可取的,必须并行化。


  当前的大数据基本都运行于网络化的计算机群(Clusterofcomputers)上,每一个都有自己的处理器、存储器和硬盘。数据分布在多个计算机机群上,通常采用哈希分块,或者按范围、随机分块,或者队列,其处理一般用并行基于哈希的分而治之的算法。这里,“分布”和“并行”成了两个关键词。不可想象,能有一个计算机来管理整个计算机机群。更新、搜索数据都必须是分布式的,而且不能串行,一个一个地来做。Google开发了一个谷歌文件系统(GFS),可以在成百上千的机群里进行基于字符串的文件搜索。用户可以并行地加入数据,也可以实时地把数据加入到某一类中(MapReduce)。Yahoo和其他Web公司,譬如Facebook,搞了一个谷歌大数据栈的开源软件,从而产生了现在很时髦的Hadoop平台及HDFS存储层。为了要实现在线事务处理(OLTP),容错不可少。由于上亿用户的同时使用,OLTP系统必须很快查找、更新用户资料,任务很多,要快、不能错、防攻击,而且还不能太贵。


  今天,Hadoop和HDFS已经成为大数据分析占有统治地位的平台了。数据分析不能停留在MapReduce水平,而是要更高层次的说明性语言,更容易表达、书写、找错。


  归根结底,基础性问题是大数据的分布存储,并行处理。就像一个人有一个任务,需要许多人参与才能完成,而且他们互不相识,任何个人都完不成。


  谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性的调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。


  大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为UserGeneratedContent,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,目前已进入大数据时代,但现在的硬件明显已跟不上数据发展的脚步。


  以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。


  虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。


  未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。
 

责任编辑:copyfox