基于两个经典案例的分析两类“大数据”的区分

2021-07-15 08:31:42 北京商报网

美国科学哲学家汉弗莱斯将大数据分为两类，一类是大写的大数据（BIG DATA），另一类是小写的大数据（big data）。小写的大数据指与数据科学相关的活动和方法，是拥有海量数据(603138,股吧)的组织机构所面临的技术问题；而当这些活动、方法尤其关于处理海量数据的技术向社会各领域渗透并迅速发展时，便产生了大写的大数据。这意味着我们平常所用的“大数据”所指的对象并不同一。大数据激进派的代表人物安德森、舍恩伯格等认为：数据可以客观地表征世界；只要数据量足够大，就不需要模型、问题及相关的理论，只要在数据的驱动下，数据可以自己发声；相关性是世界的本质；由于大数据可以完全避免人类的主观因素进入科学研究，大数据知识发现的模式更客观、更自由。大数据保守派的代表人物有弗洛里迪、克劳德、皮耶奇等，他们一方面承认大数据的独特性，另一方面对大数据是否能客观反映实在、大数据是否是理论自由的、大数据能否完全取代小数据、相关性能否代替因果性等都保持理性的怀疑态度，并且通过案例，对激进派的各种论调一一进行反驳。

案例一人类数感研究

人类对物体或事件的数量存在一种非言语的表征方式，区别于通过言语或数字符号对数量的精确表征，具有近似性和不精确性，心理学家称之为近似数量系统（ANS）。ANS是一种与生俱来的结构，无论人还是动物都有，它不仅体现在视觉任务中，也能体现在听觉任务中，是人类数感和形成数学能力的基础，在理论上服从韦伯定律。脑科学研究表明，脑区双侧的顶内沟处大致为ANS系统所处的位置。目前，脑科学和心理科学的相关研究成果被广泛应用到教育教学实践中。但长期以来，对ANS的研究缺乏对人的整个生命周期的研究，因为实践中很难对每一个样本进行终生的追踪研究。大数据技术出现之后，约翰霍布斯大学的心理学家哈尔伯达（J. Halberda）通过已有的ANS理论，构造出测试模型，然后向全球征求志愿者，在线完成测试任务。在短短的几个月时间里，便收集到了分布在全球不同地区的13000名年龄在11-85岁的测试者。通过对这些数据的分析，哈尔伯达不但完成了对人类数量感知力发展的整体描述、验证了前期对于不同年龄阶段ANS与数学水平之间的理论假设，填补了这一领域的研究空白，而且还发现了之前没有发现的一些“意外”规律。

案例二谷歌流感预测

季节性流感是人类社会长期面临的一个世界性的威胁和问题，据统计，全球每年约有25万-50万人死于季节性流感。因此，对季节性流感进行预测并提前防控具有重要意义。美国疾病控制和预防中心（CDC）、欧洲流感监测计划（EISS）所使用的流感预测系统，都是依据病毒学理论，使用临床监测数据，对流感进行预测，并向公众发布预测报告，但预测报告通常会滞后1-2周。随着互联网与大数据技术的发展，研究人员发现在某一地区，某些词的互联网搜索频率与流感样疾病（influenza-like illness，ILI）病例的就诊比率高度相关。2008年，谷歌建立了一种通过分析谷歌搜索查询来跟踪、预测流感的系统。在谷歌的预测模型中，自变量为同一地区与流感样疾病相关的检索词的检索频率。将模型的预测结果与CDC的结果相比较，发现对2008年各季度预测的结果与美国CDC的监测结果的相关系数达到0.97。而最为关键的是，由于可以快速处理搜索查询，谷歌的预测报告比CDC的提前1-2周。

分析SSD与SDS

以上两个大数据案例恰好代表了两个大数据流派对大数据的看法。当研究者基于案例一来分析时，必然会得出大数据研究离不开模型、以问题驱动、相关性不能代替因果性等，而对于影响人类“数感”的机制是什么仍旧悬而未决；如果以案例二为依据则可以得出，大数据不需要具体问题，

虽然两类大数据有区别，但随着不断融合，它们之间的界限越来越模糊。SDS的数据虽然依赖于网络技术的发展，但其所使用的方法、模型很多都是来自于SSD的研究成果。正如汉弗莱斯所指出的，当小写的大数据向社会各领域渗透并迅速发展时，便产生了大写的大数据。综上所述，由于大数据所指陈的对象并不同一，即客观上存在着两类既有区别又有联系的大数据，因此，在开展相关研究时，研究者首先要明确自己所研究的对象属于哪一类，如此才不至于陷入激进派与保守派无休止的论争漩涡。(数据杂志/文薛永红)转载请注明来源

（责任编辑：李佳佳 HN153）

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

基于两个经典案例的分析两类“大数据”的区分

最新评论

相关推荐

热门阅读

和讯特稿

和讯热销金融证券产品

基于两个经典案例的分析两类“大数据”的区分

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读

和讯热销金融证券产品