AI教父开发“诚实”人工智能系统 防止AI Agent欺骗人类

撰文: 王海
出版:更新:

人工智能发展一日千里,同时亦引起社会大众对其产生的安全威胁的忧虑。英国媒体报道,来自加拿大的AI教父Yoshua Bengio,最近发起一项非牟利计划,致力开发一种“诚实”的AI系统,作为阻止AI代理(AI Agent)欺骗人类的“护栏”(guardrail)。

英国《卫报》6月3日报道,一位AI先驱发起一个非牟利组织,致力开发一种“诚实”的AI系统,能够识别试图欺骗人类的AI代理。

被誉为“AI教父”之一的著名电脑科学家本吉奥(Yoshua Bengio)将担任LawZero的行政总裁。 LawZero将致力为各大科企已投入1万亿美元(约7.78亿港元)的AI行业军备竞赛,提供保障安全的设计。

2023年7月25日,美国华盛顿国会山庄,图为Mila - Quebec AI研究所创办人、蒙特利尔大学电脑科学系教授 本吉奥(Yoshua Bengio)出席参议院听证会时讲话。(Getty)

据报道,本吉奥最初获得约3000万美元(约2.35万亿港元)的资金,并拥有十多位研究人员,正在开发一个名为“人工智能科学家”(Scientist AI) 的系统;该系统将充当护栏,防止AI代理尝试作出欺骗或作出自我保护行为,例如试图避免被人类关闭。

本吉奥将目前市场盛行的AI代理,描述为试图模仿人类并取悦用户的“演员”,并表示“人工智能科学家”系统更像是一位能够理解和预测不良行为的“心理学家”。

本吉奥强调:“我们希望打造诚实、不说谎的AI。”

本吉奥补充道:“理论上,可以想像没有自我、没有目标、纯粹的的知识机器——就像一个知识渊博的科学家。”

然而,与目前的生成式AI工具不同,本吉奥的系统不会提供确定的答案,而只是提供答案是否正确的机率。

2024年4月24日,美国纽约市林肯中心爵士音乐厅,被誉为AI教父的本吉奥 (Yoshua Bengio) 出席时代杂志举办的时代百大人物(TIME100)峰会时发表讲话。(Reuters)

报道指,本吉奥开发的模型会与AI代理一起部署,能够替AI系统的潜在有害行为作出预测,评估其行为造成伤害的机率。

“人工智能科学家”会“预测AI代理行为造成伤害的机率”,如果该机率超过某个阈值,则会阻止该代理的作出的建议。

本吉奥表示,其创立的LawZero的第一步,将是证明其理念背后的方法是行之有效的,然后说服企业或政府支持更大、更强大的版本。他补充说,开源AI模型可以免费部署和调整,这将是训练LawZero系统的起点。

本吉奥强调:“关键在于示范系统的有效性,以便我们能够说服投资者、政府或AI实验室投入所需的资源,使其训练规模与当前最前沿的AI系统相同。这套AI护栏系统,至少要与它尝试监控的AI代理一样“聪明”,这一点至关重要。”

2024年12月10日,本年度诺贝尔物理学奖得主欣顿(Geoffrey Hinton)在瑞典斯德哥尔摩市政厅举行的诺贝尔奖晚宴(Nobel Banquet)上发表演讲。(Reuters)

报道指,本吉奥是加拿大蒙特利尔大学(University of Montreal)的教授,他与后来获得诺贝尔奖的欣顿(Geoffrey Hinton)以及朱克伯格(Mark Zuckerberg)的Meta公司的首席AI科学家勒昆(Yann LeCun)共同获得2018年的图灵奖(Turing award ,被视为电脑界的诺贝尔奖),因此而获得AI“教父”的称号。