美国科学哲学家汉弗莱斯将大数据分为两类,一类 是大写的大 数 据(BIG DATA), 另 一 类 是 小 写 的 大 数 据(big data)。小写的大 数 据指与数 据科学 相关的活动和方法,是拥有海量数据(603138,股吧)的组织机构所面临的技术问题 ;而当这些活动、方法尤其关于处理海量数据的技术向社会各领域渗透并迅速发展时,便产生了大写的大数据。这意味着我们平常所用的“大数据”所指的对象并不同一。大数据激进派的代表人物安德森、舍恩伯格等认为 :数据可以客 观 地 表征世界 ;只 要 数 据量 足够大,就不需要模型、问题及相关的理论,只要在数据的驱动下,数据可以自己发声 ;相关性是世界的本质 ;由于大数据可以完全避免人类的主观因素进入科学研究,大数据知识发现的模式更客观、更自由。大数据保守派的代表人物有弗洛里迪、克劳德、皮耶奇等,他们一方面承认大数据的独特性,另一方面对大数据是否能客观反映实在、大数据是否是理论自由的、大数据能否完全取代小数据、相关性能否代替因果性等都保持理性的怀疑态度,并且通 过案例,对 激 进派的各种论 调一一进行反驳。
案例一人类数感研究
人类对物体或事件的数量存在一种非言语的表征方式,区别于通过言语或数字符号对数量的精确表征,具有近似性和不精确性,心理学家称之为近似数 量系统(ANS)。ANS是一种与生俱来的结构,无论人还是动物都有,它不仅体现在视觉任务中,也能体现在听觉任务中,是人类数感和形成数学能力的基础,在理论上服从韦伯定律。脑科学研究表明,脑区双侧的顶内沟处大致为ANS系统所处的位置。目前,脑科学和心理科学的相关研究成果被广泛应用到教育教学实践中。但长期以来,对ANS的研究缺乏对人的整个生命周期的研究,因为实践中很难对每一个样本进行终生的追踪研究。大数据技术出现之后,约翰霍布斯大学的心理学 家 哈 尔伯 达(J. Halberda)通过已有的ANS理论,构造出测试模型,然后向全球征求志愿者,在线完成测试任务。在短短的几个月时间里,便收集到了分布在全球不同地区的13000名年龄在11-85岁的测试者。通过对这些数据的分析,哈尔伯达不但完成了对人类数量感知力发展的整体描述、验证了前期对于不同年龄阶段ANS与数学水平之间的理论假设,填补了这一领域的研究空白,而且 还发现了之前没有发现的一些“意外”规律。
案例二谷歌流感预测
季节性流感是人类社会长期面临的一个世界性的威胁和问题,据统计,全球每年约有25万-50万人死于季节性流感。因此,对季节性流感进行预测并提前防控具有重要意义。美国疾 病控制和预防中心(CDC)、欧洲流 感监测计划(EISS)所使用的流感预测系统,都是依据病毒学理论,使用临床监测数据,对流感进行预测,并向公众发布预测报告,但预测报告通常会滞后1-2周。随着互联网与大数据技术的发展,研究人员发现在某一地区,某些词的互联网搜索频率与流感样疾病(influenza-like illness,ILI)病例的就诊比率高度相关。2008年,谷歌建立了一种通过分析谷歌搜索查询来跟踪、预测流感的系统。在谷歌的预测模型中,自变量为同一地区与流感样疾病相关的检索词的检索频率。将模型的预测结果与CDC的结果相比较,发现对2008年各季度预测的结果与美国CDC的监测结果的相关系数达到0.97。而最为关键的是,由于可以快速处理搜索查询,谷歌的预测报告比CDC的提前1-2周。
分析SSD与SDS
以上两个大数据案例恰好代表了两个大数据流派对大数据的看法。当研究者基于案例一来分析时,必然会得出大数据研究离不开模型、以问题驱动、相关性不能代替因果性等,而对于影响人类“数感”的机制是什么仍旧悬而未决 ;如果以案例二为依据则可以得出,大数据不需要具体问题,
虽然两类大数据有区别,但随着不断融合,它们之间的界限越来越模糊。SDS的数据虽然依 赖于网络技术的发展,但其所使用的方法、模型很多都是来自于SSD的研究成果。正如汉弗莱斯所指出的,当小写的大数据向社会各领域渗透并迅速发展时,便产生了大写的大数据。综上所述,由于大数据所指陈的对象并不同一,即客观上存在着两类既有区别又有联系的大数据,因此,在开展相关研究时,研究者首先要明确自己所研究的对象属于哪一类,如此才不至于陷入激进派与保守派无休止的论争漩涡。(数据杂志/文薛永红)转载请注明来源
最新评论