【采访手记】“塞车之城”专题是如何炼成
在香港,塞车问题每日都在虚耗数百万人的宝贵光阴,被迫呆坐在车厢中。
针对问题,《香港01》于2017年10月中开始制作专题,历时2个月,收集2012年10月1日至2017年9月30日期间,《香港电台》交通消息(汇集运输署、警方及相关部门的路面及交通资讯)及《商业电台》马路的事交通消息,合共163,258项资料,解构香港沦为塞车之城的原因。
#1 意念源由
记者与一般打工仔女一样,上班通勤时间长年饱受塞车煎熬,有时上Facebook地区群组或讨论区,都可见到街坊叫苦连天。
2017年3月,记者参加一个本地开放数据日 Hackathon(黑客松),其中一位参与者,一直积极利用工余时间自行整理政府公开资料的程式设计师黄浩华(howawong)曾就香港的交通事故研究相关数据,把所得数据可视化,希望可制作预测模型。当天他己完成初步的数据收集,并向其他参与者解说意念(当天直播片段,演示程式码及成果)。
记者受其启发,回到编辑室后便仿照黄浩华的方法再做一遍,认为此议题值得深入探讨。
#2 资料来源
香港现时未有具系统地整合交通事故消息的数据集。城中相对较丰富的资料便要数上香港商业电台(商台)交通消息,包括了最新消息与过往数年时间的纪录。消息来源多是由电台与各运输业界及司机合作的“马路的事 守望相助计划”。众所周知,路面上最清楚交通情况的莫过于驾车人士本身,故此计划收集得来的资讯极为珍贵。
相似的资料还有香港电台(港台)交通消息,但在文字表达层面上,仍可作更为统一的格式。运输署也有提供一定资讯,网页版多集中大型事故,其他实时资讯如交通意外或坏车,市民则要安装专属的流动应用程式,方可得知。警方在接报交通事故亦会发出公告,惟该项资料仅向特定用户开放,没有公开可存取的方法,随便公开挪用或带来法律责任,故只能用作辅以参考及验证之用。除了上述机构外,还有市民自发透过社交媒体的各个突发交通事故报料群组或应用程式,分享身处附近的消息,惟资讯较为分散,难以有效简便地整理。
#3 资料整理
是次《香港01》塞车之城专题,主要整合商台与港台分别刊登于其网页的资料。仔细研究下发现,两个来源资料也有差异,这与记者事前的预想──既是同一项交通事故,有关的消息理应不会有明显分别──有所出入。
两家电台发布报道的时间有先后不难理解,因编采程序不同。发布时间上的差异,影响对事故的陈述,例如事故所导致的车龙龙尾位置随时间迁移已经改变了。这个情况使得在整合两边资料作量化分析车龙长度时需作一些假设,以仅能以较短者作准。
另一问题是资料表达没有严谨的规范,如龙翔道西行,有时会纪录为“往荃湾方向”,有时则标示“往葵涌方向”。又需花额外时间整理及组合。
最为艰巨的挑战是错别字。一般而言,传媒机构需与时间竞赛,有时出现错别字、有著从业员个人特色的标点符号运用、简略用语等都增加整合数据的难度。最终唯一的解决方法只能是人手、肉判断及处理问题,极度费时失事,容易出错,亦有可能影响最终结果。
#4 补充资料同样缺乏
电台的资料整合后可找到过往5年的各地点交通事故发生频率、时间、种类、完成处理事故的时间及车龙总计长度。不过单靠这项资讯,并不足以完满全个专题,还需要其他补充资料。
记者翻查过往立法会、区议会文件、政府各项交通研究报告,了解道路设计原初设计、改善道路措施讨论过程等。很可惜,这些资料一如其他政府公开的文件,多是不方便机器分析的PDF档案,包括运输署制作的交通运输调查的行车速度及流量、区议会讨论该区由警方提供的交通意外数字,均需以人手分别输入成可运算的数字格式。
#5 视觉化参考
在资讯爆炸的互联网世代,各媒体业者均费煞思量试图吸引读者驻足片刻观看新知旧闻。外国现时流行“Scrollytelling”方式,不少数据视觉化的新闻专题结合图像、文字、影片与网页互动特性,向受众呈现新闻故事,例如《金融时报》、《南华早报》两家传媒的一带一路专题均运用地图,配合动画效果呈现资料。《香港01》塞车之城专题亦受这两个专题启发,逐页切入香港塞车现象,配以动画及影片叙述造成塞车背后的成因。
#6 实际操作
现时有逾八成读者使用手机或平板电脑等流动装置上网,我们认为专题网页的首要原则要适应流动装置(responsive design)。不过知易很难,因各流动装置的效能和萤幕大小均有巨大差异,除非有足够资源把所有流动装置均测试一次,否则难以确定所有装置可以流畅浏览。由开发到测试大致完成,最后竟需逾一个多月,大大超出原先预算。
“塞车之城”以地图为主轴的呈现,此方式涉及的技术细节,包括地图基底图来源、显示效能、标签显示、以至风格配色都需要顾及。其中,由车厢内摄录的路况影片与地图动画同步的环节花上不少的时间调节;一方面要提取影片播放进度,另一方面要即时更新地图标示位置,让读者理解影片中所指出的具体地理位置。
全个专题的显示和动画主要赖以一个名为 maptalks 的程式套件。虽然这套件仍为待完善(alpha version),但功能上已足够使用,而maptalks 还可以配搭其他套件,如 D3.js、ECharts.js、THREE.js 使用,丰富画面效果。
#7 伸引发展
是次专题以资料陈述和呈现为主,但交通事故数据能有更多的作为。例如结合天气、节日、铁路事故等资讯,输入到一个预测模型,便可推测出发生交通事故的发生机会率,提醒驾车人士注意安全,减少意外。
#8 取之社会,用之社会
塞车之城专题仍有改善之处,但整个计划可说是站在巨人的肩膀上,由拟订议题、搜集资料到资料呈现都是基于前人所留下来的成果,添以加工才能完成。
我们希望将来会有更多例子能令社会继续踏前,也希望有关当局及机构不再吝啬他们从城市纪录的数据,向公众以机器可阅读分析的格式,免费开放使用,成为大家的巨人肩膀。