AI教父开发“诚实”人工智能系统　防止AI Agent欺骗人类

撰文：王海

出版：2025-06-03 16:14更新：2025-06-03 16:21

人工智能发展一日千里，同时亦引起社会大众对其产生的安全威胁的忧虑。英国媒体报道，来自加拿大的AI教父Yoshua Bengio，最近发起一项非牟利计划，致力开发一种“诚实”的AI系统，作为阻止AI代理（AI Agent）欺骗人类的“护栏”（guardrail）。

英国《卫报》6月3日报道，一位AI先驱发起一个非牟利组织，致力开发一种“诚实”的AI系统，能够识别试图欺骗人类的AI代理。

被誉为“AI教父”之一的著名电脑科学家本吉奥（Yoshua Bengio）将担任LawZero的行政总裁。 LawZero将致力为各大科企已投入1万亿美元（约7.78亿港元）的AI行业军备竞赛，提供保障安全的设计。

2023年7月25日，美国华盛顿国会山庄，图为Mila - Quebec AI研究所创办人、蒙特利尔大学电脑科学系教授本吉奥（Yoshua Bengio）出席参议院听证会时讲话。（Getty）

据报道，本吉奥最初获得约3000万美元（约2.35万亿港元）的资金，并拥有十多位研究人员，正在开发一个名为“人工智能科学家”(Scientist AI) 的系统；该系统将充当护栏，防止AI代理尝试作出欺骗或作出自我保护行为，例如试图避免被人类关闭。

本吉奥将目前市场盛行的AI代理，描述为试图模仿人类并取悦用户的“演员”，并表示“人工智能科学家”系统更像是一位能够理解和预测不良行为的“心理学家”。

本吉奥强调：“我们希望打造诚实、不说谎的AI。”

本吉奥补充道：“理论上，可以想像没有自我、没有目标、纯粹的的知识机器——就像一个知识渊博的科学家。”

然而，与目前的生成式AI工具不同，本吉奥的系统不会提供确定的答案，而只是提供答案是否正确的机率。

2024年4月24日，美国纽约市林肯中心爵士音乐厅，被誉为AI教父的本吉奥 (Yoshua Bengio) 出席时代杂志举办的时代百大人物（TIME100）峰会时发表讲话。（Reuters）

报道指，本吉奥开发的模型会与AI代理一起部署，能够替AI系统的潜在有害行为作出预测，评估其行为造成伤害的机率。

“人工智能科学家”会“预测AI代理行为造成伤害的机率”，如果该机率超过某个阈值，则会阻止该代理的作出的建议。

本吉奥表示，其创立的LawZero的第一步，将是证明其理念背后的方法是行之有效的，然后说服企业或政府支持更大、更强大的版本。他补充说，开源AI模型可以免费部署和调整，这将是训练LawZero系统的起点。

本吉奥强调：“关键在于示范系统的有效性，以便我们能够说服投资者、政府或AI实验室投入所需的资源，使其训练规模与当前最前沿的AI系统相同。这套AI护栏系统，至少要与它尝试监控的AI代理一样“聪明”，这一点至关重要。”

2024年12月10日，本年度诺贝尔物理学奖得主欣顿（Geoffrey Hinton）在瑞典斯德哥尔摩市政厅举行的诺贝尔奖晚宴（Nobel Banquet）上发表演讲。（Reuters）

报道指，本吉奥是加拿大蒙特利尔大学（University of Montreal）的教授，他与后来获得诺贝尔奖的欣顿（Geoffrey Hinton）以及朱克伯格（Mark Zuckerberg）的Meta公司的首席AI科学家勒昆（Yann LeCun）共同获得2018年的图灵奖（Turing award ，被视为电脑界的诺贝尔奖），因此而获得AI“教父”的称号。

特朗普御用AI企业？纽时：Palantir获选为政府整合民众资料引虑 AI取代人类哀歌　撰稿员因ChatGPT被炒　插画家因Midjourney跌job 微软裁员｜25年员工被演算法拣中last day是生日　AI总监也被炒诺贝尔奖得主“AI教父”警告：人工智能未来30年或灭绝人类

AI人工智能

人工智能Chatbot

加拿大

AI教父开发“诚实”人工智能系统 防止AI Agent欺骗人类

AI教父开发“诚实”人工智能系统　防止AI Agent欺骗人类