新冠肺炎疫情发生以来,各地政府通过多种渠道发布疫情数据,对于满足公众知情权,加强自我防护起到了重要作用,还有些数据被专业人员进一步利用,开发出了许多受到公众欢迎的服务应用。
然而,各地发布数据的内容和方式各有差异,带来的阅读体验和利用价值也各不相同。哪种数据发布方式是不容易看懂的?哪种方式是虽然能看懂,但不容易拿来用的?怎样的数据才是真正“有用”和“好用”的? 我国又有哪些地方开放了真正能用和好用的数据?这些数据被用来做了什么?本篇就来讨论盘点一下这些问题。
目前,大部分地方是以在文字中夹杂数字的形式发布疫情统计数据,包括疑似病例、确诊病例、密切接触者、病情平稳病例、重症危重病例、死亡病例、出院病例数量等(如下图), 覆盖了疫情发展和治疗过程的基本环节。这些统计数据有助于公众了解一个地方的疫情总体状况。
然而,这些统计数据是对原始数据进行加工和归总后形成的结果,并不是细颗粒度的一手数据,数据的利用价值有限。
因此,针对公众获知和利用更具体的病例个体数据的需求,有些地方发布了病人的性别、年龄、居住区域、就诊医院、病症、行动轨迹、湖北接触史等病例数据(见下图),包含了病例的基本信息、行为特征和诊疗情况等方面,这类更为原始和一手的数据比统计数据更为详尽全面,也有更大的深度利用空间。
但总体上,这类将数据夹杂在文字中发布的方式还缺少用户视角和数据利用思维。对于普通公众来说,这种方式不够清晰直观,不便于阅读和理解;对于专业人士来说,这种形式也不便于被开发利用,如果要对这些数据做一些处理分析,需要先将数据从这些文字中提取出来,整理成结构化的表格。
因此,有些地方又开始在疫情通告里以结构化表格的形式来展现数据(见下图)。这些表格比起文字更为直观清晰,便于普通读者阅读和理解。
但对于专业的数据利用者来说,这些以图片格式提供的表格,好看但还不好用,如要对这些数据进行分析,需要先将图片中的数据转化为机器可以读取和处理的excel或csv等格式。
而且,这些包含数据表格在不同的时间发布,呈现为碎片化、不连续的状态,如果想要分析某段时期内的趋势,就要把之前发布的一条条通报搜寻出来,然后再把其中的数据整合连接起来。
为了让数据更为直观易懂,还有些地方使用了可视化图形的方式来展现数据(如下图)。
同样,对普通公众来说,这种图形化形式虽然生动形象,易于理解,但对专业用户来说,这些可视化图形并不是数据本身,而是基于原始数据制作的一种数据应用。对他们来说,这些图形往往还不如朴素简单的表格更为好用,他们还需要手工把这些图形上的数据再提取还原为数据表格后,才能做进一步的分析利用。
在大数据时代,政府在“发布数据”的同时,还需要进一步“开放数据”,前者是为了便于“看”,后者是为了易于“用”。
传统的信息公开提供的是文本形式的文件,或是经过归总分析后的统计报告,这种方式便于公众阅读和知晓结果,保障公众的知情权。但在大数据时代,公众的需求有了变化,他们不仅想要“知道”,还想对数据做些“利用”,他们不仅仅是数据的读者,也是数据的利用者。
从“知情”到“利用”,这正体现了从信息公开和数据开放的递进,并对政府提供数据的内容和方式都提出了新的要求,从而使数据既能用又好用。目前,政府部门发布的疫情数据虽然已在便于阅读上花了很大功夫,但大多还不便于被加工利用。
那么,怎样的数据才是真正能用和好用的?目前,在世界各国的政府数据开放实践中,开放数据通常呈现为以电子化、结构化、可机读格式开放的数据集。数据集是指由数据组成的集合,通常以表格形式出现,每一列代表一个特定变量,每一行则代表一个样本单位,总体上,这样的形式才能用和好用。具体而言,国际上普遍接受的数据开放基本原则包括以下七项:
需要强调的是,政府在开放数据疫情时还要把握好保障公众知情权和保护患者隐私之间的平衡,防止个人数据的过度披露对患者带来伤害。
那么,目前我国有哪些地方开放了真正“能用”和“好用”的疫情数据呢?我们发现,以下这些省级、副省级和地级政府已及时在其数据开放平台上提供了可获取的、完整的、细颗粒的、及时的、可机读的、结构化的数据,这些数据符合开放数据的基本标准,是我国疫情数据开放的引领者。
目前,北京市政务数据资源网已开放了由市卫生健康委员会提供的数据集“新型冠状病毒感染的肺炎病例信息”。
网址:https://data.beijing.gov.cn/
该数据集可通过下载和调用接口两种方式获取(如下图):
点开“下载”后,可获得一个数据包,将北京市每天发布的病例信息都整合罗列在一起,并每日更新。点开其中的一个数据集 “(2月1日12时至24时)新增新型冠状病毒感染的肺炎病例信息”,就能得到一个以EXCEL可机读格式提供的表格(如下图),该数据集包括了年龄、性别、发病时间和初次就诊时间等数据项。
此外,该平台还提供了地理空间可视化展示,可呈现新发病例活动过的小区或场所的空间地理位置信息(如下图):
山东公共数据开放网也在平台首页的“疫情防控”栏目下开放了由省卫生健康委员会提供的5个数据集,开放的数据内容更为丰富和细致(如下图)。
网址:http://data.sd.gov.cn/
|
|
|
日期、时段、地区、新增确诊病例、累计报告确诊病例、疑似病例、新增出院病例
|
|
报告时间、地区、编号、性别、年龄、居住地、行程、发病时间、症状、就诊过程、信息来源、备注
|
|
|
|
|
|
|
对于每一个开放数据集,平台都提供了基本信息、数据项、数据预览、数据分析、关联信息、文件下载、API服务等信息内容和服务功能:
这些数据集以EXCEL、CSV、XML、JSON等可机读格式提供。其中,山东省新型冠状病毒感染的肺炎疫情情况”将省内各地级市每天发布的数据都整合在了同一个数据集中(如下图),便于直接进行分析利用。
(以上为部分截图,截至2月12日共有597行数据)
同时,山东省还开放了具体到每个已确诊病例的数据集“山东省新型冠状病毒感染确诊病例信息”:
(以上为部分截图,截至2月12日,共有497行数据)
上面这些数据集对于密集恐惧症患者来说可能会受到“惊吓”,但对数据利用者来说却会如获至宝,因为这一条条、一行行、细颗粒度、看似单调的数据中蕴藏着巨大的利用价值,有用且易用。
同时,为了便于普通公众阅读和理解这些数据,该平台还提供了数据分析功能,用户可根据自己的兴趣设置相应的条件,查看可视化的分析图表(如下图)。
四川公共数据开放网也向社会开放了四川省卫生健康委员会提供的3个数据集(如下图):
网址:http://www.scdata.gov.cn
|
|
|
统计时间、确诊病例、危重人数、死亡人数、治愈人数、医学观察、解除观察、更新时间
|
|
|
|
市(州)、定点级别、县(市、区)、机构名称、更新时间
|
同样,这些数据集也以可机读、结构化的方式提供。以下为数据集“四川省新型冠状病毒肺炎疫情情况”的截图:
济南公共数据开放网也同样开设了疫情防控专栏,目前已向社会开放了济南市卫生健康委员会提供的9个数据集(如下图)。
网址:http://data.jinan.gov.cn/
|
数据项
|
济南市新型冠状病毒感染的肺炎疫情情况
|
统计时间、现有疑似病例数、累计排除疑似病例数、新增疑似病例数、新增确诊病例数、累计确诊病例数、重症病例数、出院人数、追踪到的密切接触者数、正在接受医学观察人数、解除医学观察人数、备注
|
济南市新型冠状病毒感染的肺炎确诊病例信息
|
发布时间、编号、性别、年龄、居住地、行程、发病时间、症状及出现时间、就诊过程、新型冠状病毒核酸检测结果、患者状况、信息来源、备注
|
济南市新型冠状病毒感染病例确诊医院所在区县分布
|
时间、历下区、市中区、槐荫区、天桥区、历城区、长清区、章丘区、济阳区、莱芜区、钢城区、平阴县、商河县、济南高新区、南部山区、莱芜高新区、新旧动能转换区
|
济南市有确诊新型冠状病毒感染的肺炎患者的居住地址信息
|
区县、小区名称
|
济南市有确诊新型冠状病毒感染的肺炎患者的活动场所信息
|
时间、活动场所
|
济南市有确诊新型冠状病毒感染的肺炎患者的车次信息
|
日期、时间、区间、车次信息
|
济南市开设发热门诊的医疗机构名单
|
区县、医疗机构名称、地址
|
济南市新型冠状病毒感染的肺炎患者收治定点医疗机构
|
区县、定点医疗机构名称、发热门诊电话
|
济南市全市疾控中心24小时值班电话
|
单位名称、电话
|
以下分别为济南市新型冠状病毒感染病例确诊医院所在区县分布、有确诊新型冠状病毒感染的肺炎患者的居住地址信息、有确诊新型冠状病毒感染的肺炎患者的活动场所信息三个数据集的截图:
青岛公共数据开放网在平台首页开设了“疫情防控”专栏并提供5个可机读格式的数据集。
网址:http://data.qingdao.gov.cn/
|
|
|
|
|
年龄、性别、是否有湖北接触史、是否有其他省份接触史、初次就诊时间、确诊日期、籍贯、区划、信息、数据来源
|
|
交通类型、日期、车次、车厢、出发站、到达站、车次附加描述、开始时间、结束时间、线索来源、提交时间、事件备注
|
|
|
|
市/区市、新型冠状病毒感染的肺炎定点救治医院名单、医院地址
|
以下分别为青岛市新型冠状病毒感染的肺炎病例详细信息和新型冠状病毒感染的肺炎确诊患者行程信息的截图,后一个数据集搜集和开放了两千多条有关确诊患者行程信息的数据,十分详细,并动态更新。
(以上为部分截图,截至2月12日共有2058行数据)
深圳市政府数据开放平台在“疫情数据开放”专题下开放了由深圳市卫生健康委员会和市规划和自然资源局提供的疫情数据集。截至2月11日,已上线了有关疫情的9个数据集。
网址: https://opendata.sz.gov.cn/
深圳上线的9个开放数据集覆盖的内容和字段都十分丰富而全面,其名称和包含的数据项如下:
|
|
|
截至日期、截至时间、累计确诊总数、湖北输入、其他省市输入、本地密接者、本社区传播
|
|
|
|
截至日期、截至时间、累计确诊总数、重症、危重、累计出院、累计死亡、当前隔离治疗、接受医学观察
|
|
截至日期、截至时间、南山、福田、龙岗、宝安、龙华、罗湖、坪山、光明、盐田、大鹏、其他
|
|
发布日期、发布时间、病例号、年龄、性别、居住地、与其他病例关系、在武汉时间(区间)、来深时间、发病时间、入院时间、染病原因、病况、备注(症状与途经地)
|
|
|
|
行政区划、小区名称、发布时间、小区纬度坐标、小区经度坐标
|
|
行政区域编码、行政区域、机构单位代码、机构单位名称、邮政编码、机构单位地址、类别、机构单位电话号码、机构单位网站或邮箱、机构单位所在地代码、机构单位级别代码、经济类型代码、企业类型代码、纬度1、经度1、纬度2、经度2
|
|
|
对于每一个数据集,平台都提供了文件下载、元数据、关联信息、数据项、数据预览、可视化分析、API详情、数据纠错等信息内容和服务功能(如下图):
每一个数据集以XML、EXCEL、RDF、CSV、JSON等可机读格式提供。以下为深圳市“新型肺炎” 每日新增确诊病例个案详情、深圳市“新型肺炎”确诊患者曾逗留过的场所位置坐标、设置发热门诊的医疗机构名单等三个数据集的截图。
在逗留场所位置坐标和发热门诊医疗机构两个数据集中,还开放了经纬度坐标数据,便于用户开发利用。
(以上为部分截图,截至2月12日共有375行数据)
(以上为部分截图,截至2月12日共有222行数据)
贵阳市政府数据开放平台,在“疫情数据开放”专题下开放了市卫生健康委员会和市教育局提供的6个数据集。
网址:http://www.gyopendata.gov.cn/
|
|
|
截至日期、市(州)、县(市、区)、社区/街道、姓名、性别、年龄、类别、就诊医院、患者状况、累计确诊病例数、累计死亡病例数、累计治愈病例数、备注、数据来源
|
|
|
|
|
|
|
|
市(州)、县(市、区、特区)、酒店名称、酒店地址、酒店联系电话、数据来源
|
|
市(州)、县(市、区)、机构名称、联系电话、数据来源、备注
|
这6个数据集可以在网站上一键全部下载,以下为贵阳市每日新增的新型冠状病毒感染的肺炎疫情情况(2月10日)和贵阳市定点接待湖北籍旅客酒店名单两个数据集的截图。
以上这些地方以可获取的、细颗粒的、及时的、连续的、可机读的、结构化的、无歧视的、免授权的方式开放的疫情数据,“能用”和“好用”,满足了开放数据的基本标准。
那么,这些疫情数据开放出来之后真有人来用吗?有什么用呢?
其实,最近大家已经在使用的类似“丁香园”这样的疫情实时动态应用就用到了这些数据,这类应用把从全国和各省市卫健委搜集到疫情数据整合起来制成了清晰直观的可视化展现,并对这些数据进行专业解读,帮助公众理解数据背后的含义和趋势(如下图)。
而且,不同的专业人士对于同样的数据也会做出不同视角的解读。例如微信公众号nCOV疫情地图指出由于表现目标、专业认知等方面的差异,疫情地图可能会“说谎”,并从这多个方面重新审视了目前全国疫情的地理格局,有助于读者更加理性地通过地图读懂疫情的当前态势。
微博账号“数据化管理”利用各地开放的确诊患者病例数据制作了清晰直观的传播路径,下图为他们基于济南市卫健委和济南公共数据开放网提供的数据制作的可视化分析:
然而,由于大部分地方的疫情数据还未能以“能用”和“好用”的方式提供,所以这类应用需要花很多时间来“人肉”搜索和整理散落在各个网页或文件中的“不好用”的数据。
还有些地方由于完全没有发布类似数据或是发布的数据不完整,使得巧妇难为无米之炊(如下图中吐槽)。
在深圳率先开放了确诊患者曾逗留过的场所名单后,全国许多地方也开始开放类似名单。很快,全国就出现了多个利用这类数据开发的应用工具。
例如,“城市疫情场所地图”(https://mapmiao.com/ncov/)将来自各城市卫健委网站、公众号等官方渠道的疫情场所在地图上标注出来,便于公众直接在地图上查看疫情场所的名称和位置,并可按时间筛选出最新发布的场所。目前,已能展现广东省、河南省、江苏省、福建省等多个地方的疫情场所。
如果你发现你所在的城市还不在这个应用里,那很可能是因为你所在城市的政府部门还没有发布这样的数据。这个应用在其声明中提到其使用的数据来自该城市官方直接发布的确诊病例在发病期间逗留过的场所列表名单,官方公布的确诊病例中出现的活动轨迹暂未作为逗留场所信息来源。
“腾讯看点”也开发了具有类似功能的新冠肺炎小区查询,帮助用户查询身边有确诊病例的小区的名称地点、确诊人数和与目前位置的距离。
在各地发布或开放了患者的行程数据后,出现了一款叫“新型冠状病毒感染的肺炎确诊患者同行程查询工具”的应用,可帮助用户在输入日期、车次和地区等信息后,查询到自己是否曾与已披露的确诊患者同行,从而早预防、早隔离、早救治。这款应用就用到了来自各官方公众号/微博/网站发布的信息,许多网友参与了这些数据的搜集工作。
通过以上这些例子,我们可以看出,企业和社会力量在用好用活数据,并向社会迅速推广等方面,往往比政府部门更了解公众的实际需求,更有创意和专业能力,能为用户带来更好的体验,满足各种个性化的需求,政府可以通过开放数据充分借助社会的专业力量来把政府数据用好用活。
自新型冠状病毒肺炎爆发以来,面对公众对疫情数据的迫切需求,我国不少地方政府部门及时回应,开放出了许多能用好用的数据;同时,市场和社会上的专业组织和个人也迅速行动,把政府数据用好用活,为公众提供解读分析,并开发出了多种多样深受公众好评的应用,有利于消除公众的恐慌情绪,提高自我防护意识,配合政府防控措施,压缩谣言传播空间,提升政府公信力。我国的政府数据开放和利用也在此过程中取得了实质性的突破。
同时,还有一些企业和机构将这些政府开放数据与来自其他领域的数据或自有数据进行融合分析和深度挖掘,反过来为政府提供了决策支撑。
而且,在政府开放了完整的、细颗粒度的、及时的、可机读的、结构化的数据之后,专业的数据利用者也不再需要花费大量时间精力去搜集和整理各种碎片化的、不易于利用的政府数据,而是可以精力集中把数据“用好用活”,并且在市场竞争中,不断改进优化服务,获得正当应得的商业回报。
因此,数据开放和利用可为政府、市场、社会和公众各方都带来实际的经济、社会和政治收益(见下图)。
在这个过程中,政府将疫情数据作为一种可利用的原料开放给市场和社会,市场和社会上的各种力量运用自己的专业能力对数据进行开发利用,政府和市场实际上以数据为纽带形成了一种合作伙伴关系。政府部门不再靠自己单打独斗来利用数据,而是通过与社会上各种专业数据利用者的合作来开发应用提供服务;而数据利用者则成为了政府和普通公众之间的中介和桥梁,在帮助政府解决问题和为社会创造价值的同时,还为政府节省了资金和人力。各方之间实现了一种合作众创、协同治理的模式,打通了从数据开放、数据利用到价值创造的闭环。
苹果公司的应用商店App Store上有无数个应用供用户下载,但这些应用绝大多数并不是苹果公司自己开发的,苹果公司只是平台的搭建者和维护者,通过这一平台来吸引各种各样的开发者为用户开发应用提供服务。
同样,当越来越多的市场开发者来利用政府开放的数据开发应用之后,就会逐渐形成一个由政府搭建的应用商店Gov Store,让各种数据利用者在这个平台上展示他们利用开放数据的成果,供公众下载使用。例如,深圳市政府数据开放平台上就已展示了多款由市场基于政府开放数据开发的应用(如下图)。
在过去的模式下,政府就像一台“自动售货机”,依靠自身的力量来开发数据应用产品,虽然投入了大量的人力、物力和财力,但效果却不尽如人意,提供的产品不够丰富,体验不够顺畅,甚至还经常出现“卡壳”,公众的满意度和获得感欠佳。
而在数据开放合作众创的模式下,政府更像一个招商引资的“购物中心”,政府不再是数据的唯一利用者和应用的唯一生产者,而是转型为一个“平台”的组织者、管理者和赋能者,通过开放数据吸引社会上的各种专业力量,来为公众提供更优质多元的数据产品。在这个平台上,政府负责制定平台规则、维护平台秩序和营造良好环境,而“能用好用”的开放数据则是这个平台的地基。
所以,政府开放“能用好用”的数据,然后让众人来用数据,让数据为众人所用,才能真正把数据“用好用活”。
在本文发稿前,又看到了下面这条微博和粉丝留言。当数据以能用好用的方式开放出来后,这些数据利用者就“再也不用人肉抓取”,而是可以直接下载和调用数据了。隔着屏幕,我们都能感受到他们的惊喜和雀跃,而这正是数据开放的意义和价值所在。

原文始发于微信公众号(DataCastle数据城堡):哪些地方开放了真正“能用”和“好用”的疫情数据?这些数据能用来做什么?