AI教父开发“诚实”人工智能系统 防止AI Agent欺骗人类
人工智能发展一日千里,同时亦引起社会大众对其产生的安全威胁的忧虑。英国媒体报道,来自加拿大的AI教父Yoshua Bengio,最近发起一项非牟利计划,致力开发一种“诚实”的AI系统,作为阻止AI代理(AI Agent)欺骗人类的“护栏”(guardrail)。
英国《卫报》6月3日报道,一位AI先驱发起一个非牟利组织,致力开发一种“诚实”的AI系统,能够识别试图欺骗人类的AI代理。
被誉为“AI教父”之一的著名电脑科学家本吉奥(Yoshua Bengio)将担任LawZero的行政总裁。 LawZero将致力为各大科企已投入1万亿美元(约7.78亿港元)的AI行业军备竞赛,提供保障安全的设计。
据报道,本吉奥最初获得约3000万美元(约2.35万亿港元)的资金,并拥有十多位研究人员,正在开发一个名为“人工智能科学家”(Scientist AI) 的系统;该系统将充当护栏,防止AI代理尝试作出欺骗或作出自我保护行为,例如试图避免被人类关闭。
本吉奥将目前市场盛行的AI代理,描述为试图模仿人类并取悦用户的“演员”,并表示“人工智能科学家”系统更像是一位能够理解和预测不良行为的“心理学家”。
本吉奥强调:“我们希望打造诚实、不说谎的AI。”
本吉奥补充道:“理论上,可以想像没有自我、没有目标、纯粹的的知识机器——就像一个知识渊博的科学家。”
然而,与目前的生成式AI工具不同,本吉奥的系统不会提供确定的答案,而只是提供答案是否正确的机率。
报道指,本吉奥开发的模型会与AI代理一起部署,能够替AI系统的潜在有害行为作出预测,评估其行为造成伤害的机率。
“人工智能科学家”会“预测AI代理行为造成伤害的机率”,如果该机率超过某个阈值,则会阻止该代理的作出的建议。
本吉奥表示,其创立的LawZero的第一步,将是证明其理念背后的方法是行之有效的,然后说服企业或政府支持更大、更强大的版本。他补充说,开源AI模型可以免费部署和调整,这将是训练LawZero系统的起点。
本吉奥强调:“关键在于示范系统的有效性,以便我们能够说服投资者、政府或AI实验室投入所需的资源,使其训练规模与当前最前沿的AI系统相同。这套AI护栏系统,至少要与它尝试监控的AI代理一样“聪明”,这一点至关重要。”
报道指,本吉奥是加拿大蒙特利尔大学(University of Montreal)的教授,他与后来获得诺贝尔奖的欣顿(Geoffrey Hinton)以及朱克伯格(Mark Zuckerberg)的Meta公司的首席AI科学家勒昆(Yann LeCun)共同获得2018年的图灵奖(Turing award ,被视为电脑界的诺贝尔奖),因此而获得AI“教父”的称号。