律政思|超越法官与律师?法律人工智能背后的迷思和除魅

撰文: 01论坛
出版:更新:

来稿作者:邓凯

围绕人工智能与法律及其业界关系的探索展开,2024年无疑是香港科技法律和法律科技的“大年”。1月,香港律师会代表法律实务界别率先表态,以发布立场文件的形式申明应对技术变革的行动纲领。7月初,特区政府推动公众咨询,就《版权条例》如何保障人工智能技术发展研究立法修订。同月底,司法机构政务处公布司法人员使用生成式人工智能的一般规则和基本原则,司法界采取何等价值立场与技术趋势进行妥当相处就此明确。立法、司法以及法律服务界“三箭齐发”,共同构筑起香港“科技-法律”关系持续演化的制度框架,故而值得严谨剖析。本系列文分上中下三个篇章,上篇着重人工智能立法及其背后的法理探讨,特别是在香港《版权条例》修订的知识产权语境之中如何演绎;中篇即本文聚焦法律人工智能,旨在通过解构法律人工智能的核心原理,为理性思辨大语言模型能否真正适配法律实务提供一个观察框架;下篇的任务则继续回归新一代法律科技赋能法律行业的应用潜力,并试图阐明其对香港普通法法治的意义。

从法律科技“狂欢”到幻象背后的技术真相

如果说本系列文的上篇侧重在展现现行法律制度——特别是版权法——对人工智能技术的规制或称“驯服”,那么中篇和下篇则更多地关注大语言模型是如何应用、嵌入甚至塑造法律实务流程。“法律实务”于此,包括但不限于立法实践、司法审判以及法律服务等。本人日常身兼研究者与实务者的双重角色(当然也无需刻意做这样的二元划分),本文之写作对于笔者而言更接近于一次厘清困惑的自我释疑,即:大语言模型的超级能力,尤其是法律人工智能在执行法律任务中表现出的卓越性能,会否真正成为法律实务者的“梦魇”,并引发一场颠覆性的法律科技革命?

一般认为,法律业是一个相对保守且由传统精英把持的有限封闭领域,然而在新科技的作用下,用“繁荣”、“剧烈”甚至略带一丝“狂热”来形容这个行业在过去两年的变化与进展却并不夸张。初步梳理,代表性事件主要有四(类):

第一,去年年初发布的ChatGPT-4在律师资格模拟考(LSAT)中赢取了超过九成的人类应试者,其不仅能轻松应试客观选择题(MBE)与简单题(MEE),更可熟练运用法条在给定的实践情境与事实关系内通过主观能力测试(MPT)。基于如此神速的技术进化,Forrester同年也发布预测榜单,声称法律行业高居受大模型影响的行业之首。

其次,人工智能技术的“围剿”还表现在法律科技市场规模的剧增。这两年来,包括Harvey在内的多家法律人工智能公司相继获得高额投资,资本乐观看待法律与技术叠加的市场前景。据不完全统计,近两年来(截至2024年11月)全球法律科技市场共发生了150余起融资事件,而且大多数与人工智能有关。就连OpenAI首席执行官奥特曼(Sam Altman)在接受访问时也坦言,如果现在创办一家新公司,他会选择开发诸如“AI律师”等垂类应用。

第三,除资本青睐之外,法律应用的人工智能化现象也“席卷”至法官群体,各国法官使用大语言模型辅助生成裁判文书在近年来并不鲜见。尽管饱有争议,例如存在错误引用或生成不实内容的实质风险,但生成式人工智能将广泛运用于司法领域并深刻改变法院工作方式却是不争事实。

第四,从规范封闭逐步的认知开放,法律行业的范式转移更受到了决策者的关注,他们尝试透过发布人工智能使用指南来梳理法律人与机器(人)之间恰如其分的互动关系。例如英国司法部公布关于使用人工智能的司法指引,在允许法官使用ChatGPT等大模型工具辅助撰写法律裁决书的同时,更提出了安全性(讯息保密、数据准确、减少偏见、规避风险等)和责任性的要求,强调司法人员使用人工智能生成文本时要对最终结果负责。如前文所述,香港也有类似的政策申明与立场表述。

从性能卓越到资本青睐,再从实务探索到制度接纳,人工智能对法律的可能影响在眼下似乎正在被某种技术万能主义与法律未来主义的认识论所支配。通过辅以种种科幻化的新修辞、新概念,相当乐观的情绪与期待贯穿于其中,例如法律人工智能的崛起会从根本上改变法律从业的形态,机器人律师、机器人法官等将照进现实。然而,法律大语言模型的技术真相究竟为何?

与法律推理具有表征相似性和内在契合性,大语言模型的运行逻辑也是一个从高级自然语言的处理到生成内容并得出结论的连贯创造过程。当中的技术环节包括监督与自监督学习、人类反馈强化学习,以及由参数量达到百亿或千亿级别时带来智能体的“涌现”现象,等等,这些要点共同促成了机器回答不断趋近符合人类需求和价值的内容。作为专业化的垂类应用,法律大模型在通用大语言模型的架构基础上又增加了依托法律文本大数据(司法大数据)的二次预训练、法律指令微调、法律知识检索增强、人类法律专家测试等定制步骤,以提升其胜任法律实务要求的各项能力。

然而万变不离其宗,不论是通用大模型还是包括法律大模型在内的行业大模型,其核心原理始终是一种依语料概率分布而为的“猜测”。申言之,这些应用看似深刻地“侵入”了反映人类本质的语言系统,但实际技术底座却是“文字接龙”,即基于已有的语言模式以统计概率的方式来预测下一个最可能出现的词或句子,而非以语法的方式进行情境化的语言理解。在该意义上,大模型构筑的是一个巨大无比的“文字算盘”,看似是拟制出人的思维和判断,但却非真正的“人类心灵”。

由此可见,“概率”、“预测”、“模仿”等关键词构成了大语言模型的技术真相,但这恰恰又是其法律适用局限性的根源,也即它虽然善于模仿法言法语并以文本为表达媒介模拟出法律推理外观,却难言像法官、律师一般熟稔复杂的法律知识体系及其运作机理。特别是这背后所关涉的价值判断、解释与裁量等,才是法律的内核,正如法学家德沃金主张融贯性的法律分析与解释,又如霍姆斯大法官著名的法律生命经验理性论等。

法律大模型冷思考的展开

冷思考一,缺乏因果关系推演的法律大语言模型或是幻象。如前述,大模型生成内容的基本原理是基于已有的上下文预测下一个词,这种名为“自回归语言建模”的技术需要通过最大化训练数据的条件概率来学习模式。在训练过程中,模型并不明确地理解词语之间的因果关系,而是借由统计规律学习到词语和句子之间的高概率关联。易言之,现时主流大语言模型并没有内置因果推理的技术架构,其中的Transformer架构依靠“并行计算注意力”(Attention)这一机制的运转来提取上下文讯息,但该注意力机制在本质上是加权的相关性计算,缺乏明确编码因果关系。在这种以统计意义上的模式捕捉来体现相关性逻辑的整套系统中,即便尝试引入因果推理模型或训练数据中隐含了因果讯息,大模型得以捕捉到某些因果模式,但这仅仅是数据驱动的结果,而不是对概念或事件之间因果关系的真正理解。

在很大程度上,大模型作为连接主义学派的最新产物,其底层技术原理中的“因果性”匮乏对处理和解决法律任务而言具有硬伤。必须要承认,不论法律范式如何变迁,因果式的推理始终占据法律分析、法律思维中的方法主导,因为经典的法律任务执行往往涉及识别事实关系,判断某种行为是否引发了特定结果,从而决定归责与权利义务分配,而这些都需要明确的因果逻辑,且难以为统计相关性所验明。例如在侵权法法理中,事实因果关系和法律因果关系就分别构成了因果关系的两个层次,前者通常采用“若非”(又名“要不是因为”)测试法(But-for Test)来判明特定行为与损害结果之间的事实关系,而后者则在前者基础上进一步审查行为与损害之间的法律联系是否充分、合理,会否存在不适合施加法律责任的“遥远”或“间接”的因果链条。这恰恰反映出法律语言大模型自身存有某种结构性冲突:如若要在这个以萃取相关性逻辑为主要任务的技术模拟器中发现符合真实世界规律的因果推理,不可谓不是水月镜花。

冷思考二,大模型底层的语言预测性与法律决策存有本质差异。为摒除私心、偏见和滥权,试图用机器替代法官、律师等人类专家系统作法律判断一直以来是理想主义者的浪漫执念。例如在莱布尼茨设想的“普遍符号学”(Characteristica Universalis)和“理性计算系统”(Calculus Ratiocinator)应用中,法律任务是可以得到自动化裁决的,当法律规则、案件事实等被形式化、符号化为逻辑命题,就能通过数学式的演算法推导出精准、客观的法律结论。这种自动化法律机器的构想不仅被视为现如今法律人工智能的理论源头之一,也因大模型似能通过输入指令解答法律问题以及自动生成各式法律文书而被喻为莱布尼茨版的“梦想照进现实”。

大语言模型形似具备法律心智,然而其内生的语言预测机理却难言比照真正的人类决策。从技术上讲,大语言模型所做的是依托词语和句子之间的关联概率提供表面上的表达匹配与修辞提取,看似合理有效的内容生成实则为模式化、结构化的语言推断(inference),远非深层次的逻辑推理(reasoning)。相反,现实世界中的复杂法律分析、法律决策不仅依赖于经典的演绎、归纳、类比等单一推理法则,更取决于决断者如何在复杂模糊、辩驳批判的法律实践情境中做出洞察与权衡,在此过程中,社会道德、公共利益、伦理情感、文化信仰等非表征化考量和非形式化智识都会对决策带来影响。

换言之,对于一个能称之为“好”的法律决策而言,正确适用法律,恰当推演逻辑或许仅仅是最低底线,而真实法律实践情境中更有“技术含量”的部分,诸如法律行为涉及的躬行式判断力与价值排序选择、直觉与想象力、主动去伪存真的批判性思维、融贯性的学理分析等具身的主观因素(或谓之为“心证”),仍然依赖于法律职业人士的经验能动。实际上,霍姆斯大法官那句耳熟能详的“法律的生命不是逻辑,而是经验”还有后半句的表达延展更为重要:“一个时代为人们感受到的需求、主流道德和政治理论、对公共政策的直觉⋯⋯在决定赖以治理人们的规则方面的作用都比三段论推理大得多。”

冷思考三:大模型的可靠性不满足法律答案所需的“唯一正确”。由社会经验引申出来,人类行为者的实践理性在绝大多数情况下都是建立在“基于外部观察”或“接受外界输入”的框架之下,具有向外延展的开放性与补缺空白的创造性。法律实务则更是如此,其在本质上也是一种依赖外部交流和反馈的创造性发现。例如,司法诉讼是对抗式的,法律咨询、法律调解往往是磋商性的。再如,也是更具体的,当缺乏明确的成文法条及先例时,经验丰富的法官或律师仍然需要在辨析客观事实,洞悉复杂人性,理解公序良俗甚至凭借灵感乍现等基础上给出创造性的法律判断,进而实现可供遵循传颂的法律续造。也正是这种独属于法律职业共同体的高阶智慧、极致追求与信仰理想,才有机会让法律判断不断趋近“唯一正确性”。法律答案被要求“唯一正确”,不仅源自世人对法治公义的朴素向往,更说明法律实践是高风险的,与医学一样,人类对其出错的容忍度极低。

对比而言,大语言模型的可靠性局限表现为其无法积累社会生活经验并据此进行创造性的动态运用,法律场景亦然。一方面,大语言模型学习的对象是人类既有的知识,代表一种“过去时”模式,也即“投喂”语料和训练数据集非即时更新,频率取决于开发团队的策略、资源成本以及技术目标。例如,在质量控制上,即时更新会极大增加引入低质量或未验真数据的概率,从而导致模型性能下降;又如从经济成本角度考量,大模型是“暴力美学”的产物,耗时间、耗算力,高频训练并不现实,等等。当大语言模型的“静态知识”滞后于外部世界的最新动态,其生命力不足与创造性受限就不可避免。封闭性的另外侧面更在于,缺乏及时外界输入的大模型或可被视为某种内观的心理模拟与思想实验,人们很难指望这种近乎“空想”的机器封闭学习在脱离具体情境和个案体察后,还能产生真理、得出真相。除此以外,大模型一直被诟病的“幻觉问题”也削减了法律人工智能的可靠性。大语言模型并非检索模型,非但不擅长提供法律判断所需的“唯一正确”答案,更会因虚构事实等“一本正经地胡说八道”而挑战人类本就极低的法律容错度。

总之,本文旨在表明法律大语言模型绝非无所不能,其内在的技术局限置于法律实践特殊性和人类认知独特性的语境下势必会遭遇种种冲突。因而给狂热降温,为迷思祛魅,甚为必要。标题中“超越法官与律师”这一“危言耸听”的设问显然是服务于文章“博眼球”(引人注目)之需要,本人并不否认自己一以贯之的人类中心主义立场。正如笔者与合作者曾在〈ChatGPT的兴起与法律职业的未来〉(《大公报》法政新思栏目2023年4月7日刊载)一文中指出:“人类中心主义秉持人工智能是人造物的这一‘元命题’,即便在特定或局部领域,机器实现了主从关系的倒置或称反客为主,但人的本体地位不可动摇,增进人类福祉必须是技术进步的首要原则与社会共识。某种程度上,人类不会自我罢黜的论断建基於伦理之上,也即人的尊严与道德能力不仅反应了社会公众的理想预期与价值观念,更关注主体能否自我反省与评价,以及能否进行负责任、具有正义感、共情力、同理心的‘属人’判断,这是机器所无能为力的。”

行文至此,一个鲜活形象的生活比喻或许更能反映人类经验与情感智慧在洞察复杂社会关系中的不可替代性,并以之作结:当一个大家族几十个人在一起吃饭时,知道谁最应该坐在谁的旁边的,不是人工智能,而是你的祖母。

作者邓凯是香港城市大学法律学院公法与人权论坛研究员、法学博士。文章仅代表作者个人观点,不代表香港01立场。

“01论坛”欢迎投稿,来函请电邮至01view@hk01.com。来稿请附上作者真实姓名及联络方法。若不适用,恕不通知。