我已授权

注册

约翰斯·霍普金斯大学 如何成为全球疫情数据网红?

2020-04-05 04:03:54 四川在线-华西都市报 

霍普金斯大学的全球疫情分布图(网站截屏)

导师Lauren Gardner

董恩盛(资料图)

杜鸿儒(资料图)

随着疫情在全球范围内愈演愈烈,各国数据成为人们关注的焦点。

连日来,美国约翰斯·霍普金斯大学发布的数据高频出现在各媒体报道中。包括绝大多数美国传媒和研究机构在内的全球多家媒体和机构,在引用最新疫情数据时,都采用了这所大学的统计数据。

很多网友心里一直充满疑问:“这样重要的数据统计和发布工作,为什么会由一所美国私立大学来承担?约翰斯·霍普金斯大学究竟有什么来头?”

其实很少有人知道,这张每日实时更新,有着黑底、红点,左右两侧列着各国确诊、死亡和治愈病例的疫情地图,开发团队三名核心成员中的两位,是来自中国的约翰斯·霍普金斯大学博士生——董恩盛和杜鸿儒。

关注1

他们是如何收集和发布疫情数据的?

早在1月22日,约翰斯·霍普金斯大学系统科学与工程中心就制作了“全球新冠病毒扩散地图”,数据地图的开发者之一、约翰斯·霍普金斯大学土木工程系副教授Lauren Gardner在《柳叶刀》子刊Infectious Diseases发文称,1月22日至31日期间,地图数据收集完全靠手动进行,每天早晚分别公布一次。

随着疫情发展,开发团队发现手动更新是不可持续的,于是从2月1日开始加入了半自动化的实时数据流。

得益于手动收集与自动更新相结合的发布方式,相较于美国疾控中心官方和部分媒体每日公布一次的方式,约翰斯·霍普金斯大学的数据基本实现了实时更新。从最新的地图上可以看到,截至美国东部时间4日1时(北京时间4日13时),全球确诊病例达1100283例,死亡病例为58929例。数据还显示,截至美国东部时间4日1时,美国是确诊病例数最多的国家,累计确诊277965例。

关于数据的来源,根据疫情地图首页介绍,数据主要来自世界卫生组织、美国疾控中心、欧洲疾控中心、Worldometers.info网站、BNO通讯社、美国各州各地区卫生部门以及中国卫健委、“丁香园”网站等。

在数据地图上,不同国家和地区可查看的数据单位不尽相同,例如中国的数据可细分至每个省份,美国、澳大利亚加拿大的数据显示至市,其他国家则基本以全国为单位。

约翰斯·霍普金斯大学数据地图刚刚上线时,日均访问量大约为2亿。后来随着疫情蔓延,最高时一天内访问量更是超过了20亿。

关注2

核心人员有3位

两位中国博士生和导师

支撑这个复杂系统的背后,除了学校和教授外,还有一群有才华还努力的中国学生,其中就包括Gardner(劳伦·加德纳)的博士生董恩盛、杜鸿儒。

劳伦·加德纳是一名工程学专家,追踪传染病一直是她和她的学生关注的重点。

她曾与澳大利亚的一个团队合作,开发了有助于预防登革热等疾病在全球蔓延的工具。据了解,开发这个疫情数据项目伊始,董恩盛只是想要收集数据来“了解这个疾病从生到死的整个过程”,用这些数据做为他研究疾病的工具,并没有想要发布数据来吸引亿万眼球。

在与导师讨论后,他们开始了统计和绘图的工作,后来又邀请了劳伦·加德纳的另一个博士生杜鸿儒,一同开展疫情图项目。

随着疫情的发展,他们决定公开数据,让大众能更实时准确地了解疫情,让研究者能及时准确地获得数据进行研究。数据的收集、整理、发布,每一步都完成得严谨认真,每一个环节都经过慎重的思考。该项课题2月19日发表在《柳叶刀》杂志上,一篇“审稿的时间居然比写稿时间短”的文章!

“很多人会觉得收集数据并将它们呈现在一张地图上并不是一件非常复杂的事情,”董恩盛接受媒体采访时说,“但是实际上要保证地图的可靠性、稳定性、良好的用户使用感,有很多细节需要考虑。比如从哪里拿数据能准确而及时、各个地区最合适的指代名称,以及如何保证我们的服务器能胜任高达每日20亿的使用量,这些都需要我们不断讨论、与各方进行协调。”

越来越艰巨的任务让团队也越来越强大。之后疫情数据升级细化到展现市县级时,进一步加大了他们的工作量。一次次重写脚本和调试代码,是他们不向庞杂数据低头的倔强。

“最开心的时候就是代码不再报错的时候!”杜鸿儒曾这样打趣说。

截至3月初,该网站每天有大约12亿的访问量,“这的确说明了现在人们对可靠、可信赖的客观信息的巨大需求,尤其是在当前疫情下。”美国疾控中心指出,霍普金斯大学的数据更加及时。美国各大媒体在报道疫情数据更新时一般也采用霍普金斯大学的数据。

关注3

随着疫情暴发

服务器瘫痪至少3次

董恩盛曾在接受《南方都市报》采访时表示,“基本上我们每次服务器瘫痪,都是在疫情有所变化的时候。可以说,我们服务器宕机的节点与全球疫情变化的节点呈正相关关系。”

他说,从疫情数据地图上线之后,有过三次高峰。“第一次大约是武汉的疫情数据标准发生变化的时候,大家发现人数突然猛增,很多都到我们网站上看;第二次是意大利疫情暴发的时候,许多意大利民众涌入网站,当时意大利的用户数还超过了美国的;现在是第三次高潮,主要是美国疫情暴发,大家都挺关注美国的数据。

研发和维护的过程中,还有很多具体的困难。比如,“钻石公主号”邮轮的撤离人员应如何标记,曾一度让董恩盛他们一度遇到了“隐私乌龙”。

据两人介绍,之前在处理钻石公主号邮轮的患者标记位置时,当时部分该船旅客撤回到美国。由于患者具体位置不明,就选择了将点标记在美国相对而言的一个地理中心——堪萨斯州。但有些美国人比较喜欢探索,会放大地图,放大到最后发现这个点落在他们小区上。他们以为自己小区竟然有新冠肺炎病例,但实际上不是这样。当时小区上报给当地卫生部门,又再层层上报,最后约翰斯·霍普金斯大学的新闻官告诉他们赶紧调整一下。于是,他们将标记点暂时放回了日本横滨港。

两人介绍:“现在我们的处理是,地图放大到一定程度,标记的点就看不到了,不让他们把自己家和这个点形成对应关系。”

延 伸 阅 读

为何霍普金斯数据

会受到全球青睐?

美国媒体中,《纽约时报》建立了数据库自行统计新冠肺炎数据,CNN根据美国各州和地方数据进行汇总。如美联社、今日美国网站、《国会山报》、CBs等媒体均参照约翰斯·霍普金斯大学发布的实时数据。

统计全球新冠病例数据的机构和网站如此之多,为什么约翰斯·霍普金斯大学的数据更受青睐?

由牛津大学创立的“用数据看世界”(Our World in Data)网站解释,他们在监测全球各国新冠疫情数据时,最初参照3个数据源:世卫组织、欧洲疾病预防控制中心(ECDC)以及约翰斯·霍普金斯大学。

“用数据看世界”的研究显示,就美国初期的病例统计而言,世卫组织、欧洲疾控以及约翰斯·霍普金斯的数据几乎是一致的,从3月10日开始,约翰斯·霍普金斯大学的数据明显高于其他两者,原因在于他们参考了“推定阳性病例”的估算,这一项数据是指由州或地方实验室确认的病例,但未经国家疾控中心证实。而美国疾控中心已经明确指出,各州的病例报告是最新数据。因此,约翰斯·霍普金斯数据更新相对而言更加及时和靠谱。

除了有超强信息库,该大学的医学院也是顶尖的。约翰斯·霍普金斯大学不仅拥有全球顶级的医学院、公共卫生学院、国际关系学院,其生物工程、空间科学、社会与人文科学,音乐艺术等领域的卓越成就也名扬世界。

据《南方都市报》、澎湃新闻、央视

(责任编辑:何一华 HN110)
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

和讯热销金融证券产品

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。