智慧城市如何改进开放的数据门户
发布时间: 2020-11-05
作者:JARED MONDSCHEIN, SHANNON PRIER, AARON CLARK-GINSBERG, EDWARD PARKER
译者:临风
全球城市化趋势,加上信息和通信技术(ICT)的创新,促使地方政府通过社区数字化转型,实现“智能城市”的变革。这些智能城市通常寻求将城市的物理基础设施与更广泛的虚拟基础设施相连接,从而能够收集、整合、分析和利用详细的运营数据,以改进地方决策。智能城市计划涉及范围广泛的项目,包括侧重于交通、水资源管理和电力输送的项目。
随着这些发展的进展,城市规划师和城市领导人都在努力促进当地社区成员的加入。通过向当地公民提供获取公共信息的机会,公共信息的广度因信息和通信技术的增加而迅速扩大,城市领导人可以促进民主,增加居民的参与、互动、自我授权和社会包容。事实上,市民和利益相关者可以通过多种方式为城市发展做出贡献,包括与地方领导人合作,确定问题;社区特定属性;空间环境;规划目标、目标和指标;规划结果;以及政策选择。
在智能城市的环境中,包容性的目标已经通过开放的数据门户实现,这些门户作为智能城市数据的公共可访问存储库,用于聚合以往孤立在单个信息筒中的数据流。许多城市,包括至少85个美国城市,都部署了开放的数据门户,以实现基于公民的创新,并提高决策和实施过程的透明度。尽管开放数据门户最初承诺促进公民访问信息,报告发现用例是有限的。报告还指出了许多情境、技术和组织方面的挑战,这些挑战限制了开放数据门户的效用 。
我们使用洛杉矶市的公开数据门户网站访问和分析数据来开发可归纳的策略。具体来说,我们试图了解城市服务和居民是如何受到2019冠状病毒病(COVID-19)大流行的影响。尽管这一前所未有的公共卫生突发事件可能代表着一个边缘案例,但研究表明,及时、准确地披露信息可以促进自下而上的协同解决问题,并有助于遵守国家和地方COVID-19危机管理政策。实际上,对COVID-19大流行的强有力和有效的应对措施,如身体距离、检疫措施、洗手和戴口罩,都需要广泛的社区参与。虽然洛杉矶政府通过新闻发布会定期发布数据供公众使用,但从理论上讲,洛杉矶开放数据门户可以通过定期更新数据集提供更高层次的访问。
原则上,智慧城市数据应该有助于了解当地的紧急情况,尤其是与传统的数据收集方式相比。这与以社区为基础的灾害管理和应对方法的有效性的大量研究是一致的,这些研究越来越多地体现在政策理论中,例如联邦应急管理局(FEMA)对应急管理的“全社区方法”。
洛杉矶是评估开放数据门户的理想案例研究,特别是在COVID-19大流行期间。洛杉矶的门户网站已经被美国城市开放数据普查和世界城市数据委员会(Office of the Mayor of Los Angeles, 2015)高度排名,包含超过1500个数据集。此外,该市居民和工人受到COVID-19的严重影响,截至2020年5月19日,已有4万例病例和2000例死亡。此外,除了在联邦和国际层面发布的命令和指导外,州和地方政府还发布了许多影响日常生活的命令(见图1)。

图1:2020年1月至4月洛杉矶COVID-19疫情相关重大事件和行动时间表
分析结果:
洛杉矶开放数据门户是一个在线的、可搜索的数据库,用于与公众、研究人员和其他感兴趣的团体分享来自其机构的数据。网页的访问者可以从1500多个可用数据中搜索特定的数据集来查看,按主题浏览数据,探索如何使用选择的数据集,甚至创建数据可视化。该主页还提供了一系列视频,旨在帮助用户访问数据集,以及到其应用程序编程接口(API)的链接。每个数据集都包含一个摘要,简要描述了数据集、源机构、上次更新日期、更新频率和相关附件。数据集可以下载以CSV、RDF、RSS、TSV和XML格式离线使用。
数据集是在2020年4月选择下载和分析的,当时正值美国COVID-19流感大流行的开始。我们首先根据上次更新的日期过滤数据集,删除了自3月中旬以来没有更新的数据集,当时美国宣布全国进入紧急状态,地方政府采取了一系列行动。使用本标准选择但包含元数据的数据集(即说明数据集的范围限定为前几年收集的数据)也将被删除。我们还删除了静态数据集,这些数据集包含因当地条件(如邮局位置或地理边界)而不会发生变化的数据集,以及没有存档纵向数据的数据集,只剩下不到50个数据集(或者不到开放数据门户中可用数据集的3%)用于分析。另外,还删除了冗余的数据集。我们在这个透视图中仅分析了剩余的数据集。
(1)数据集强调了COVID-19大流行对洛杉矶的影响
我们发现洛杉矶的开放数据门户为用户提供了访问高度本地化的数据流的途径,这些数据流传达了当地居民在持续的公共卫生突发事件中行为变化的细节。例如,图2表明,当地旅游业大幅下降,正如参观洛杉矶历史纪念碑的博物馆数量急剧下降所示。此外,每日交通事故数量下降了60%以上,3月中旬开始急剧下降,如图3所示。
图2:每个月参观埃尔普韦布洛纪念碑的洛杉矶博物馆总数
图3:按发生日期分布的交通事故
开放数据门户中的几个数据集有助于分析COVID-19大流行如何影响当地对重要服务的需求。例如,图4显示了从2019年1月到2020年5月颁发的施工许可证数量。图表显示,3月中旬,许可证数量急剧下降,随后到4月逐渐增加,尽管仍低于前一年的平均水平。图5显示了按事件开始日期列出的特殊事件许可的数量。虽然这些数字与建筑许可证的数字不一致,但图表同样显示了特殊事件许可证的急剧下降。同时,在整个突发公共卫生事件中,311市民服务热线(图6)和911调度电话(图7)保持相对稳定,311服务热线的频率与历史模式相一致。这两组数据表明,虽然COVID-19正在重塑许多经济活动和城市服务的使用,但城市生活的其他方面仍然没有受到影响。

图4:按发生日期分布的话题
图5:按开始日期分布的特殊活动许可
图6:按请求日期分布的MyLA311请求
图7:按要求的日期分布的911调度电话
图2-7所示的数据为用户提供了COVID-19流感大流行在洛杉矶社区的影响的证据,特别是加利福尼亚州和洛杉矶留守令(分别于3月19日和3月20日发布)和3月16日El Pueblo设施关闭(洛杉矶县,未注明日期)的影响。这些数据可以作为当地经济活动的指标,其公共可用性有助于为COVID-19相关影响制定基于社区的解决方案,例如向支持博物馆和/或特定行业工作者的组织捐款。
此外,这些数据集中有几个包含更精细的信息,有助于社区群体识别更容易受到COVID-19影响的人群。例如,包含911调度呼叫数据的数据集显示,涉及家庭暴力事件的呼叫发生频率符合历史标准。据报道,家庭暴力电话频率的增加可能会启动一个基于社区的社会和心理支持系统,正如在其他社区所做的那样。此外,交通事故数据集提供的数据表明了事故中涉及的司机的性别和种族,以及事故发生的邻近地区。使用交通事故作为移动性的代理测量工具可以突出不能远程工作的人群,他们更容易感染病毒。
(2)当前的缺点限制了洛杉矶开放数据门户在提高透明度和增强居民权能方面的效用
领导人的目标是促进社区成员参与地方决策。根据市长Garcetti的说法,城市数据通过开放数据门户与公众共享,“以增加透明度、问责制和客户服务,并赋予公司、个人和非营利组织利用大量有用信息改善我们城市生活的能力”。然而,我们发现开放数据门户的某些特征阻碍了它实现评估COVID-19社区级影响的目标。尽管COVID-19大流行可能代表了一个边缘案例,但解决这些限制可能会使门户对其他用例更有用,这些用例可能更接近决策者最初的设想。
许多数据集更新不够频繁是洛杉矶开放数据门户的一个重大缺陷,它严重限制了用户分析COVID-19大流行对洛杉矶居民和城市服务的短期影响的可用数据。这些类型的数据包括几个最重要的社会和经济指标,如城市收入、城市采购和犯罪。洛杉矶的收入数据是在财政年度结束时编制的,这阻碍了对城市预算健康状况或流行病对某些经济部门的影响进行近乎实时的分析。自2015年以来,一组特别相关的数据一直没有更新,详细记录了该市购买洗手液的情况。
当一个开放的数据门户错误地指出一个数据集最近被更新了,并且用户依赖的数据实际上已经过时,就会出现一种潜在的代价高昂的情况。例如,图8所示的交通冲突数据的时间序列,洛杉矶的门户网站指出每天都会更新,这说明了数据更新如何改变对快速发展事件的分析。2020年4月14日下载的数据显示,交通事故在4月7日左右开始第二次大幅度下降。然而,2020年5月7日下载的数据显示,自3月30日以来,事故发生反而趋于平稳(在3月27日低点略有上升之后)。随后5月中旬的数据下载显示,数据没有进一步变化。尽管这种数据失真相当戏剧性,但这种扭曲可能会导致当地资源的目标错误。
图8:2020年1月至4月的每日交通碰撞
另一个缺点是缺乏历史数据记录。当更新的数据被归档时,高频更新是最有用的,因为它们可以用来帮助查看健康灾难的影响。然而,洛杉矶开放数据门户中的几个数据集是实时更新的,但没有存档。例如,洛杉矶交通部停车收费表占用率数据集和LAX停车场数据集就属于这一类。随着时间推移,停车位占用率的记录可能会显示在流感大流行期间,城市不同地区商业活动模式的变化,或者进出机场的航空旅行模式的变化城市。不幸的是,这些类型的纵向分析是不可能的,因为这些数据在可访问的档案中没有。
比较洛杉矶的开放数据门户与伊利诺伊州芝加哥、俄亥俄州哥伦布、路易斯安那州新奥尔良的更新发现,其他主要城市在更新频率和用户识别最新更新数据的能力方面都存在类似问题。图9按上次更新日期显示数据集。开放数据门户中提供的用于分析的大多数数据集没有在与COVID-19影响分析相关的时间尺度上进行更新。事实上,对于除洛杉矶以外的每个城市,大多数数据集最后一次更新都是在2020年之前,这大大限制了它们用于短期影响分析的效用。这些旧数据集在图9中以灰色阴影表示。就识别最近更新的数据集而言,Columbus的数据门户是我们研究过的唯一一个允许用户将数据集筛选到特定日期范围以进行最后更新的门户网站。相比之下,匹兹堡,宾夕法尼亚州的开放数据门户(未显示)无法根据上次更新的日期过滤数据集。按“上次修改”的顺序对数据集进行排序会使它们的顺序与单个数据集中的“修改时间戳”日期不对应。
图9:美国各城市开放数据门户中数据集的比例
此外,即使标记为在2020年春季(即在COVID-19大流行时间范围内)更新的数据集,实际上也可能不包含与这一时期相关的新数据。开放的数据门户将许多数据集标记为最近更新的数据集,尽管有迹象表明这些数据集包含多年甚至十年前的历史信息,如芝加哥数据集“海滩水质-自动传感器-2015-波高”和纽约市“2005年311服务热线”的数据集。这一观察结果表明,与图9所示相比,与实时影响分析相关的数据集要少得多。
最后,更多的最新信息通常可以从城市开放数据门户以外的其他来源获得。例如,哥伦布最古老的一个数据集包含一个CoGo自行车共享站点的位置列表,该列表最后一次更新是在2017年,但是CoGo网站的主页显示了一个最新地图。
结论和建议:
洛杉矶的开放数据门户是一个很有前途的信息来源,用户可以免费访问和分析。在大多数情况下,洛杉矶开放数据门户中的数据集都有明确的标记、格式良好且易于实现访问。但是,存在着一些的障碍,限制了开放数据门户在实现提高透明度和授权当地用户的目标方面的效用。洛杉矶的许多数据集,特别是与COVID-19影响评估相关的数据集没有以足够的频率更新,而其他数据集由于缺少有关数据收集和更新频率的详细信息而难以分析。尽管我们承认,在诸如COVID-19大流行病这样快速发展的公共卫生紧急情况下,开放数据门户的设计不一定是为了促进基于社区的分析,但公众获取数据源,如开放数据门户,可能有助于促进自下而上,合作解决问题,解决新出现的挑战。
我们就洛杉矶和其他政府如何改进其本地开放数据门户以提高门户的效用提出了三点建议。地方政府应权衡与执行这些建议相关的机会成本,因为它们可能会推动成本增加,从而转移其他优先事项的资源。
建议1:更频繁地上传和更新数据。我们发现,洛杉矶开放数据门户网站上最近更新的数据集不到3%。此外,其中相当多的数据集每月更新一次,阻止了快速分析和社区资源的快速部署。更高频率访问数据有助于及时自下而上开发面向社区的解决方案,以应对最紧迫的当地挑战。数据集还应包含指示最近更新内容的更改日志。数据集所列的上次更新日期应仅包括对内容的真实更改。频繁更新的数据集应具有元数据,表明它们是否仍在更新、更新的频率以及数据的最新日期。被认为已完成的旧数据集不应经常更新,但在更新时,它们应包含元数据,说明延迟更新的原因。开放的数据门户应该允许用户根据上次更新的时间过滤数据集。
建议2:应保存并提供实时数据记录。纵向数据对于提供情境变化的因果关系信息非常重要,这两个方面都与公共管理高度相关。然而,我们对洛杉矶开放数据门户的分析发现,对于正在实时更新的潜在高信息量数据集(如洛杉矶交通部停车收费表占用率数据集),纵向数据不可用。如果维护完整的记录是不切实际的,那么门户应该记录相关的汇总统计数据,以便进行合理的颗粒度纵向分析。
建议3:数据集应包含提供相关情境的元数据。我们发现洛杉矶的开放数据门户中的数据集缺乏对于数据的足够描述性信息,这会减慢我们的分析速度,并可能会损失经验较少的用户。通过提供描述性元数据,城市可以促进在开放数据门户中搜索、评估和查看数据集。除了澄清数据集的最新程度(建议1)外,元数据还应详细说明提供了哪些数据、数据来源、局限性、缺失数据的解释,以及可能导致虚假趋势的数据收集做法的任何变化,如数据源报告要求的变化。元数据应尽可能采用结构化和可搜索的形式,必要时辅以非结构化描述。元数据应列出任何可公开访问的相关数据集(在开放数据门户或其他地方),例如为其他时间框架提供类似信息的相应数据集。为了帮助用户快速识别可用的数千个相关数据集,门户应该允许对数据集进行高级搜索和筛选,这些数据集可以将不同类别的元数据结合起来。