大数据,无疑是今年IT业内最热的词。厂商热推,媒体热炒。不谈大数据,不推大数据,不用大数据,仿佛就没有了未来。
“大数据热”源于2010年哈佛大学教授维克托·舍恩伯格的专著《大数据时代:生活、工作与思维的大变革》。他在书中断言:大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。
大数据在3年的实践中,人们对它的认知不断深化。时至今日,我们终于见到了对大数据最为严肃和理性的质疑。这些严肃而非炒作性质的质疑总体上来自理论和实践两个层面。
在理论层面,最为专业的质疑来自analyticbridge网站,由 Vincent Granville于今年5月发表的文章《The curse of big data(大数据的诅咒)》。这篇文章发表之后被广为转载和引用。
《大数据的诅咒》一文从数据分析专业的角度,以数理统计的理论论证了大数据“放弃因果关系”的谬误。
所谓“大数据的诅咒”是指,当人们试图在有数十亿甚至数十万亿个数据点,而且包含数以千计指标的非常大量的数据集中寻找一些模式时,一定会发现一些用处的巧合事件。理论上,当样本数量过大(变量因子超过1000个),就会在数据集中发现数量众多的“统计上显著”而非“因果上显著”的关系。在数据分析上,“因果上显著”为信号,而“统计上显著”为噪音。所以通俗地讲,“大数据的诅咒”是指,噪音必然会将信号淹没。
大数据鼓吹者喜欢引用的“啤酒与尿布”案例,并非出自大数据的分析。按照《大数据的诅咒》说的,如果运用大数据,一定会得出N多个类似于“啤酒与尿布”的量化关系,从而把“啤酒与尿布”(信号)淹没在数量庞大的噪音中,而不能发现“啤酒与尿布”的因果关系。当今所有关于大数据的技术与方案,无一能自动揭示因果关系。
在实践层面,《黑天鹅:如何应对不可知的未来》一书的作者,商业思想家纳西姆·塔勒布指出,随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,要找的那根针则被越埋越深。
大数据应用的鼻祖之一是生命科学中的基因学。科学家曾热衷于对整个基因排序,然后剖析其中的相关性,这种没有尽头的“盘前审问”导致种种无用的结果发生,科学家们一头雾水,至今在基因大数据分析中一无所获。
北大教授刘德寰以自已翔实的实验数据证明,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫。
Christopher Mims最近发表文章称,以 Facebook 为例,工程师交给集群处理的大多数任务也只是 MB—GB 级的,这意味着用笔记本就能处理了。Yahoo交给集群处理的任务规模平均是 12.5GB。这个规模对于任何服务器都没有问题。大数据不是革命,小数据才是革命。格里格·孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。重要的是收集合适的数据,而不是随便收集。
大数据,原来是个大忽悠。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点是:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)。
老鬼阿定
……
关注读览天下微信,
100万篇深度好文,
等你来看……