01倡议|版权条例要赶上ChatGPT年代

撰文: 评论编辑室
出版:更新:

美国公司OpenAI上星期发表GPT-4大型语言模型之后,Google的生成式人工智能Bard也开放给英国和美国试用。新阶段的人工智能展示出更强劲的图像与语言理解能力以及专业领域知识,足以在更高效率下生成更复杂且多样化的内容,有关技术扩张速度之快使得大家益趋关注人工智能产品所带来的影响。连当初有份联合创办OpenAI公司的特斯拉执行长马斯克亦直言人工智能可能构成“未来人类文明面临的最大风险”,有需要像其他的飞机、汽车、医药等领域一样,专门立法作出规管。

香港近年锐意将本地建设为国际创新科技中心、区域知识产权贸易中心,上个月财政司司长陈茂波发表的《财政预算案》演辞提到“要推动香港的科研和人工智能产业发展”,并且决定就建立人工智能超算中心展开可行性研究以获得足够的算力基础。但是这些仅限于硬件层面的配备而已,软件仍需要对应的企业、人才进驻和制订与时并进的法律。

尊重训练数据来源

人工智能之所以能快速达致堪比人类长年创作或劳动的成果,主要有赖给它“喂养”前人既成素材进行学习训练,但亦因此引来巨大争议。以图像生成人工智能模型Stable Diffusion为例,有艺术工作者在年初对相关公司提出诉讼,认为模型于训练中途使用了其他人的创作成果,而生成的图像会直接跟原作在市场上竞争,因此会对他们的利益构成永久性伤害。先前微软旗下软件源码代管服务平台GitHub与OpenAI合作推出人工智能助手GitHub Copilot,同样也被编程工作者提控侵犯了他们的劳动成果,没有按照原本的开源许可证协议标示作者身份、资料来源,并且挪用免费代码赚取商业利益。

训练数据来源问题并不限于知识产权,还涉及个人隐私权、肖像权。在人工智能绘画资源分享平台网站Civitai上,既能找到大量未经正式授权的角色或风格仿制模型,同时亦有不少利用现实世界公众知名或普通人物相片训练的项目,而后者可能在未获得涉事人物允许下对其构成潜在伤害,例子有冠以“吴亦凡前女友”标题作招徕的一系列模型资源。过去几年社会热议“大数据”或脸部识别技术的时候,就有声音质疑巨企能够利用它们侵害个人利益,现在随着人工智能技术普及,对训练素材来源的法律保护必须尽早提上议程。

欧盟近来积极推动《人工智能法》《人工智能责任指令》立法,前者重点放在按风险高低分级管理不同层面的人工智能技术应用,特别要求人事招聘、医学疗程一类较高风险用途编撰清晰说明文件和提供充足的资讯透明度,“深伪(deepfake)”成品则要加上明显标签,违反者可被处以罚款或禁止进入欧洲;后者则是针对人工智能技术民事侵权嫌疑,订立强制资讯揭露与推定注意义务的机制。显而易见,两者都是希望将人工智能模型背后的“黑箱”拆解,好让一般人能知晓它们伴随着的风险,以及对训练学习过程的失当行为进行问责。

香港对应上述人工智能发展的法律,首要应该是《版权条例》。即将于今年5月生效的《2022年版权(修订)条例草案》已将科技中立“传播权利”写入保护范围,但未能囊括非面向公众的人工智能内部训练学习工序,且其生成作品亦非单纯复制原作或是重现素材内容。有见及此,当局可以为《版权条例》加入针对人工智能模型的“训练权利”,将用作人工智能模型训练学习素材列作“受版权所限制的作为”,要事先获得版权拥有人的同意才能进行,否则就会构成法律责任。

确立生成结果版权

这不是要打压人工智能生成技术的发展,恰恰相反,无论是从“提示指令(prompt)”的编写、排序到构建,抑或是对人工智能初步生成结果的事后校对、修改和编辑,全部要求操作者耗费大量心力、资源以及掌握相关的专业知识,故此他们的劳动产物跟原生创作者一样值得保护,没有理由因为用上人工智能技术便遭拒诸门外。

其他地区在这方面已经拿出一些成绩,如美国著作权局今年2月批准使用了人工智能素材的图像小说《黎明的札莉雅》版权保护申请,惟范围限于故事内容与图像编排方式。到3月16日该局更加发表了一份政策声明,阐明其审查、注册使用人工智能技术生成作品的做法,当中一边强调人类作者身份乃是判断著作权的首要基准,但另一边又表示包含人工智能生成材料的作品依然可能受到版权保护,譬如人类能以“足够创造性的方式”筛选、编排人工智能作品来成为另一件原创作品,艺术家也可以将人工智能作品修改去到“合乎版权保护的标准”,在这些情况下法律需要保护那些属于人类创作的部分。

使用了人工智能素材的图像小说《黎明的札莉雅》

香港对版权作品的保护本身就较有限,包括未设官方注册处让版权作品注册,日后若想再保护用上人工智能素材的作品,恐怕难上加难。前年香港律师会、香港大律师公会、亚洲专利代理人协会香港分会、香港商标师公会成立工作小组,支持香港实践国家规划成为区域知识产权贸易中心,其讨论议题包括“处理人工智能相关法律和作品的作者和所有权问题”等。特区政府应该研究有关建议,参照其他地区的经验,划清人工智能生成与人类创作内容的界线,制订一套有效保障本地相关工作者成果的机制。

具体而言,现时《版权条例》第2条将“原创”作品置入保护范围,第11条又规定对于电脑产生作品来说“作出创作该作品所需的安排的人视为作者”,表面看来涵盖了对于人工智能生成作品的加工成果,然而“作者”究竟是提供人工智能编程员抑或模型终端操作用家,条文根本未予解释。在相关技术未普及流行前,人们以为操作人工智能远比创作简单而迳自默认答案为前者,但从近月愈来愈多创作平台及作者也投身使用相关技术,甚至推出各种专门教程、辅助工具,可见精通后者的难度一点也不低。出于鼓励创作原意,法律应该保护那些学习和善用新科技来改进其作品的人。

防止演算过程偏见

最后,人工智能的演算终究受限于人类给出的训练数据或操作指示,这就注定了它没可能完全避免人为责任,反而有机会将一些偏颇之见用客观数据的外衣包装起来。数年前Google的相片识别人工智能便曾发生误将深肤色人种判断为大猩猩的闹剧,近年一些企业使用人工智能演算法来决定员工的聘用、解雇与升迁,也被质疑背后含有性别、族群歧视成份。在人工智能年代,我们有需要做好预防监督与厘清责任归属。

前述的欧盟《人工智能法》便要求高风险的人工智能用途须由人类作把关监督,确保使用优质数据来进行训练学习,是预防人工智能演算偏见做法的一个良好范例。至于厘清责任归属问题其实早在自动驾驶车辆上已出现,按理只要参照它来处理即可。香港应对该问题的《2022年道路交通(修订)(自动驾驶车辆)条例草案》正在审议当中,惟未像德国等地那样明确承认制造商责任,而打算先赋权运输及物流局局长订立规例以作后续处理。

而香港现有四条反歧视法例厘定歧视行为适用范围的时候,都将“歧视者”限定为自然人或法人,未正视科技发展可能带来的新歧视形式,对人工智能无形间放大数据中的既成偏见留下了空间。使用者大可争辩数据考量中的歧视因素非唯一原因,模型设计的“黑箱”性质反过来又在技术上增加了举证难度。相关法例应该加上条文否定自动演算作为争辩理由,并指明使用人工智能技术达成的结果须视同使用者本人行为,以堵塞回避歧视责任的漏洞。