Google测试若AI面对AI 是合作共赢还是决一死战?
AlphaGo称霸棋坛后,AI(人工智能)终有一日统治人类世界或成为事实,但倘若两个AI系统发生冲突时,它们会为私利选择对抗,还是合作走向共赢?继创造AlphaGo后,DeepMind通过囚徒困境等博弈论(Game Theory),测试AI会如何选择。
结论是,AI会如人类一样,视乎游戏规则而选择最佳策略,代表游戏的结果是各不相让,最终“揽炒”,真系大家都输。
自私,是个人获得最大利益的基础。但倘若个人利益与他人利益相左,他们会选择牺牲部分个人利益进行合作,抑或直接对抗?隶属Google的AI公司DeepMind在一项新研究中一直在探索这个问题。研究人员测试AI会在一系列“社会困境”,并利用最著名的囚徒困境作为测试基础制造两款游戏,探讨AI会如何做出选择。结果显示,假如两个AI都为自身最大利益出发,以为背叛对方可以获得好处的话,最终将会两败俱伤,图解如下:
图解囚徒困境
A合作 | A背叛 | |
---|---|---|
B合作 | 两人同时服刑1年 | A获释;B服刑3年 |
B背叛 | A服刑3年;B获释 | 2人同时服刑2年 |
注:合作指双方都不供出同伴;背叛指供出同伴。
研究团队其后再运用游戏去验证上述推论。第一款游戏名为Gathering的回合制收集苹果比赛,玩家可以选择使用光束去标记另一玩家,使其暂时退出游戏,继续进行游戏的玩家就可收集更多苹果,从而获胜。
另一款游戏叫Wolfpack,2名玩家必须会抓1只由另一电脑系统控制的狼。不仅是抓到狼的玩家可以获得分数,附近玩家也可得分。
经过多次试验,研究人员发现AI会根据不同情况,选择与他人合作抑或对抗。在Gathering游戏中,当有充足苹果予双方收集时,AI并没无用激光束去把对方暂时踢出比赛。但当苹果数量减少时,使用激光光束的次数也会增加。当研究人员提高AI的计算能力时,无论苹果多寡,AI的攻击频率也会大幅增加,故此得出在抢苹果游戏甚至在其他情况下,AI的能力与攻击能力成正比关系。
这样的结果,是否代表能力越高的AI,越有攻击倾向?研究人员认为,对于AI来说,攻击对方相当耗费运算资源,如果在此投入过多时间,就会影响收集苹果的数量。研究人员认为,AI是衡量过利害关系后才攻击。但假若攻击对方不会因此获得更多苹果,AI就会放弃攻击。
相反在强调合作的Wolfpack游戏中,由于猎物只有1个,对抗不能增加获胜机会。因此运算能力较高的AI,就会更多地与其他玩家合作。与其他玩家合作的可能性就更大。
规则决定AI行为
总结2个不同的实验,研究人员认为AI可以根据不同游戏规则,改变自身行为。如果这些规则奖励侵略行为,如攻击他者可让自己有更多获胜机会,AI就会更积极去攻击。反之,假如游戏规则列明可以透过合作达至共赢,AI就会选择与其合作。
根据结果,研究人员认为未来可以透过制定合作共赢的规则,限制AI的行为模式。正如研究人员在他们的博客中总结:“作为这个研究的结果,我们可以更好地理解和控制复杂的AI系统,如经济、交通系统甚至是地球的生态平衡。所有其中取决于我们的持续合作。”
(综合报道)