【开放数据】83政府部门今年推700数据 19部门仅将旧数转格式
政府近年力推开放数据,各部门早前亦已交出开放数据计划。《香港01》记者初步统计,83个政府部门年内会推出715个数据集,当中不乏亮点,如实时数据及应用程式介面﹙API﹚。不过,这些新推出的数据集并非全部是首次公开的资料;当中过半数据是旧有数据,包括部门把旧有数据转换档案格式,然后上载至资料一线通网站。
记者根据计划文件的描述,尝试逐一在网上搜寻相关数据集,发现至少有415个,即58%计划在公年内公布的数据集,实为原已公开在政府网站的内容,不少部门只是将数据集转换档案类型。
其中,金管局、机电工程署等至少19个部门,今年计划公开的数据集全为现有内容,主要是把数据转换成方便市民使用的档案格式。
一些部门计划开放的数据较为冷门,除了此前引起讨论的特首、司长办公室新闻稿外,也有水务署物业的室内空气质素等数据。审计署及破产管理署更将服务承诺当成开放数据。此外,政府新闻处将环保报告作为开放数据,即环保措施的成效及订立的环保目标,这也是该部门未来3年内唯一开放的数据集。
政府开放数据5大问题
1. 旧内容
数据本身已于部门网站公开,新增数据集只是把该处的资讯转为 CSV 等格式上载到“资料一线通”﹙data.gov.hk﹚。
例子:社会福利署各项服务机构的名单及资料,教育局的中小学名单等
2. 有新一时期的数据集当成新开放数据
将新增的年度数据,当成新一批数据集,更好做法是将之加入现有数据集中。
例子:选举事务处区议会选区新登记选民的年龄组别及性别分布﹙2019年﹚参考数据
3. 更新频率过疏
数据发布频率慢于数据收集频率。
例子:渠务署污水处理厂的排放水每日流量数据,仅每月更新一次
4. 各部门数据不可互通,不利于数据集的整合及分析
不同部门的数据因为命名及录入方式而不可互通,数据使用者若想将不同数据整合分析,需要花费时间清理及统一数据内容。
例子:教育局及卫生防护中心对幼稚园学校名称有不同的表述方法
5. 数据缺乏细节,只提供总数或平均数
部分数据本身带有空间、时间属性,但政府部门仅提供每年更新一次的总数或平均数。
例子:消防处的火警类型、火灾成因、火灾级别分成不同数据集,难以对数据作更多分析,例如不能对火警类型及级别作相关性作分析
格式有改善 新增实时数据、API
《香港01》早于2017年3月已推出专题报导,探讨政府不少开放资料集的档案格式不利于分析及应用的问题,例如将资料加工成PDF档案、图像档案等。
整体而言,各政府部门今次计划推出的资料集数据格式有所提升。例如金管局此前只在官方网站提供XLSX格式数据,而今年6月将上载至“资料一线通”网站的数据集亦会提供JSON格式,其他部门的数据也多采用CSV等机读格式发放。此外,金管局亦已于去年7月在网站推出50组金融数据及重要资讯的开放应用程式介面﹙API﹚。
政府今年推出的数据集不乏实时更新的数据,例如天文台气像资料、创新科技署提供科学园人流统计等。政府亦将于人流密集地区设置约400支“多功能智慧灯柱”,实时收集交通、空气质素、气象等实时数据。
政府以现有人手应付开放数据
而就开放数据的工作,各部门会否增加专门人手?资科办透露,现时各政府部门均已在现有人手指派一位人员,专门负责统筹相关工作,该名人员通常为主任级人员,涉及不同的职系。资科办又指,一般而言,各政府部门的现有人手及资源可应付推行相关工作,资科办会视情况提供技术和财政支援。
数据集发水问题仍在
《香港01》在2017年3月曾统计发现,“资料一线通”网站上6,751项资料中,有7成是“水份”,包括同一项资料同比份或月份分拆上载网页等。然而在新政策下,个别部门仍存在同样问题,例如选举事务处会将各年的区议会选区新登记选民数据,当成不同的数据集。