【开放数据】政府计划文件竟是83份PDF 要人手逐份下载逐份睇

撰文: 陈嘉慧 简浩德
出版:更新:

政府今年初推出开放数据政策,公布各部门的年度计划,涉及逾650数据集。《香港01》发现全部83份计划书,分别上载到83个部门,若要比较分析各部门的计划,就只能逐个打开网页,然后下载83份文件,过程相当繁复。
另外,全部文件采用PDF档案,令市民难以利用电脑分析资料,而且各计划书格式并不统一。有部门的计划书是图档无法复制当中文字,另表格栏数、标题不一亦有违开放数据要求有统一格式的标准。政府资讯科技总监办公室回应指,日后会考虑增加以上文件的机器可读版本。

政府于去年9月定下开放政府数据的新政策,要求所有政府部门制订和公布年度开放数据计划。今年1月初,政府资讯科技总监办公室﹙资科办﹚宣布80多个政府门已发布首份计划,涉及逾650项资料。

资科办发言人表示,为协助各政府部门制订开放数据计划,此前有为部门提供指引,包括数据格式、更新频率、收集公众意见的途径等;并安排简报会详述工作流程;亦有就计划初稿、数据的格式和细分程度提供意见,并会考虑在今年内将各部门的开放数据计划经整理后以机读格式发布。

资科办:会考虑以机读格式发布计划文件

早前有报导指,部分政府部门将网志及演辞等内容当成开放数据。政府资讯科技总监林伟乔当时回应指,网志及新闻公告并非无用,因为在人工智能及大数据下,若有机读格式,研究人员便可对文本进行趋势分析及政策研究。然而,是次发布的计划文件全是PDF格式,并且分开83个档案,不利数据整合及分析,亦有违开放数据标准中,以统一格式、机读方式发放数据的原则。如可增加机器可读版本,对议题感兴趣的人士,可编写程式定期监察新数据集发放,评估数据质素。

《香港01》记者下载并检视全部计划文件,发现各部门文件格式不一,包括表格栏数不一、个别文件会有合并跨栏的情况、索引有中有英、分类原则不一致等,令使用者需要花大量时间整理数据,增加分析数据的难度。以下图片展示各项问题的实际情况:

↓政府开放数据计划文件格式问题多 增分析难度↓

若市民要一览各政府部门的开放数据计划,步骤可算繁复,需于资料一线通网站找到有关目录,再点入个别部门网站的相关页面,才可找到PDF档案的下载连结。(网页截图)

当中,知识产权署的计划文件更是以图片档案制作而成,要使用当中的文字内容,需要用上光学文字辨识(OCR)等特别工具,先将档案转换成文字档,方可再调整格式及校对。