【开放数据】重量也要重质?齐看政府数据如何玩残大学生

撰文: 梁逸风 林炳坤
出版:更新:

政府鼓励“开放数据”但有时好心“好心做坏事”,将开放给公众的电脑档案加工成PDF和图像等档案,结果不时弄巧反拙,令使用者需要花更多时间想尽办法撮取所需资料。
《香港01》邀请大学生尝试利用政府开放数据做功课,齐看同学如何应对。

资料需方便软件阅读而不是人

政府不少资料的档案格式不利市民使用,例如将资料加工成PDF档案、图像档案,结果“好心做坏事”,令使用者需要花更多时间想办法撮取资料。

以PDF档为例,这种格式分为纯图档,以及文字档,但资料被复制后,难以保持原有排位;试算表内中加有标题和备注,储存格之间会有空行,某些储存格又被合并,有时更会在数字旁加星号在备注,由税务局提供的博彩税收入统计就犯下以上错误。

此外,虽然政府统计处提供大量统计数字,但在“资料一线通”网站中亦画蛇添足地提供546张以GIF图像档案格式储存的折线图,档案解像度仅为408x326像素。用家需要额外花时间自行抄写,整理资料后再另行输入电脑。

其实电脑档案格式质素有高低之分, “互联网之父”柏纳斯李爵士(Sir Tim Berners-Lee)亦有创立“开放资料五星标准”,PDF和EXCEL档案分别仅为一和两星。政府应顾及开发者,提供至少三星级的资料,如CSV、XML、JSON等文字档案格式,这些资料不像DOC和XLS等格式为微软公司所拥有,档案结构亦一致易明,方便电脑快速和大量“阅读”数据。