从同事那借了本《大数据时代》,读了下,做下笔记。

一、大数据时代的思维变革

1.不是随机样本,而是全体数据

当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。

我们总是习惯把抽样统计看作文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。

2.不是精确性,而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不确定性,我们才能打开一扇从未涉足的世界的窗户。

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是 包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。

我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中德的一部分,我们应该开始从一个比以前更大更全面地角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。

大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。

3.不是因果关系,而是相关关系

知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。

在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。

我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不是仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。

“理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。

标签: none

添加新评论