【开放数据】政府“资料一线通”7成资料属水份 一图睇清有啲乜
近年世界各地力推智慧城市,港府亦努力追随潮流谈开放数据。2015年《财政预算案》,政府宣布以数码格式免费发放公共资料,而“资料一线通”网站亦于同年3月革新。
截至现时网站有6,751项资料,不过《香港01》逐项资料深入分析后,发现当中不少是“水份”,例如同一项资料的中文繁体、简体和英文版本分拆成3项资料;又或是同一项资料同比份或月份分拆上载网页。另外,网站内有不少资料的档案格式令市民难以使用。
剔除内容重叠的“水份”后,真正的资料仅余2,000多项。
资料整理:李乐欣、刘爱霞、郑晓琪、梁节仪
注:记者在2月5日统计“资料一线通”在开放源码软件CKAN上建立的数据集目录,计算出当时网站上有139个PDF档案。及后记者于2月24日与资科办总监杨德斌进行专访,访问中杨德斌曾指PDF档案为“machine readable(机器可阅读)”。访问后记者于3月3日再以相同方式统计网站资料数目,并无发现任何PDF格式文件。不过记者于3月16日中午12时统计,发现“资料一线通”其他文件一页内有1,296个PDF档案。
资科办于3月16日晚上7时39分补充,今年开始重组“资料一线通”网站内PDF格式的资料,其中1,000个档案于1月28日被移至“资料一线通”其他文件一页;另于2月9日将余下130个PDF格式资料移至“资料一线通”其他文件一页。
自2011年起,政府将公共资料放上“资料一线通”(data.gov.hk)入门网站,内容包括实时交通资讯、天气资料、公共交通工具路线及收费等,供市民免费下载使用,甚至可免费作商业用途。
政府开放数据网站 7成资料“发水”
登上“资料一线通”网站,你或会被琳瑯满目的资料淹没。不过,资科办只是搬字过纸式将各部门的电子文件上载网站“开放数据”。网站除了常用的试算表外、还充斥不少图片、影片、新闻稿、网志、年报等其他材料。其中建筑署上载了政府45座精选建筑不同角度的相片,合共810张图像档案,已占总资料数目至少11.9%。
单是和合石火葬场以及和合石桥头路灵灰安置所和纪念花园,就合共有29张相片。
政府部门亦将同一项资料的各种语言版本、或不同时期的资料分拆成多项数据。以空气质素健康指数为例,环保署将记录逐个月上载,并将每月记录的繁体中文、简体中文和英文3个版语版本分拆成3项资料。这项数据由1999年7月至去年9月,合共已累积450个档案,占网站的6,751项资料的6.7%。
资料只是“报告”而非“数据” 更多资料收在台面下
现时不少政府开放的数据大多已预先处理,不一定提供分项数字,限制了这些数据的可塑性。以海关提供的“出入境管制站旅客流量”数字为例,数字只列出2013年到15年部分出入境管制站旅客流量总和的数字,但每小时人流变化、旅客国藉、性别比例、年龄层等均欠奉。资料愈多样愈仔细,会有利民间智慧作出过去意想不到的实用深入分析和调查。
此外,“资料一线通”并未集合所有部门的公开资料,各部门会另行透过不同渠道发放资料。以过境人数为例,运输署、入境事务处、立法会分别有文件公开邮轮码头、各管制站平均每日抵港及离港旅客人次、过境穿梭巴士乘客人次、车辆交通流量等详细资料,但格式为最低等的PDF,部分更只以折线图方式显示,市民需花费功夫才能撮取数据。
除此以外,由多个政府部门联合提供数据的“地理资讯地图”,上有法定古迹、流动电话网络覆盖、远足路线、文化和运动设施、学校、图书馆及医院等大量空间资料,又有区议会选区或校网向量图形格式(Shapefile)资料,但却没有提供API供嵌入用家自行编写的程式,令数据无法善用。
资科办:不只追求数量
负责维护“资料一线通”网站的政府资讯科技办公室回应指,办公室并非只追求开放数量,而会收集公众及业界意见,了解其需要及面对的问题,再与相关部门商讨。
此外,政府部门在开放个别资料前,会作全面和详细的考虑和安排,包括资料是否对社会有用、或涉及部门内部运作、敏感和私隐等资料,亦会考虑额外的处理过程会否加重部门负担。