毋须指导自行学习 新版AlphaGo Zero完胜旧版 自封世界最强棋王

撰文: 欧敬洛
出版:更新:

Google专门开发人工智能的“DeepMind”团队公布,他们成功研发出AlphaGo的新版本“AlphaGo Zero”。AlphaGo Zero无需人类协助,就能自行学习由不懂围棋到精通,甚至击败旧版本的AlphaGo,为人工智能发展开拓新里程。

在击败韩国“不败少年”李石世后,AlphaGo在今年5月再击败中国棋王柯洁。(视觉中国)

AlphaGo击败棋王李世石柯洁惹来全球触目,虽然旧版本AlphaGo已退役,但Google在人工智能的开发步伐未有停止。DeepMind团队在18日于《自然》期刊发表文章,表示他们已制作出比AlphaGo更强劲的的新版本“AlphaGo Zero”。

更多【AlphaGo对弈柯洁】的文章

仅靠下棋规则即能自我精通

AlphaGo Zero与旧版本的最大不同,是无需人类协助。过去AlphaGo要自我学习首先需要人类给予协助,如AlphaGo背后有10万套棋谱参考,才能“让自己无敌”。但AlphaGo Zero只需设下围棋规则,就能由不懂围棋到精通。

报告指AlphaGo Zero在花了3天自行对局500万次后,就已掌握一身好棋艺在模拟战中击败李世石的棋谱。在花40天学习后,就能以九成胜率的压倒性姿态击倒旧版本的AlphaGo。

AlphaGo在去年3月大战李世石,以5比1战胜韩国棋王,为“人机大战”拉开序幕。(视觉中国)

摆脱人类知识枷锁 不用参考人类自行学习

DeepMind称他们创造了世界历史上“最强的棋士”,AlphaGo Zero研究首席工程师David Sliver表示:“AlphaGo Zero脱离了人类的知识枷锁,能从白纸以自己方式学习,因此比较版本更强。”他表示AlphaGo Zero在学习时会用上各种未曾看过的新棋谱,不停尝试和失败:“当在与人类棋谱对战局时,程式最初会模仿人类,但很快就自行发展出另一套下棋方式,有如受人类棋谱‘启发’了一样。”

除程式的进步外,AlphaGo Zero在硬件上也与旧版本不同。新版本只需使用4个TPU(Google特制的AI处理器),旧版本却需要48个TPU,意味新版本更省电却能做到更强的运算。

更多【AlphaGo对弈李世石】的文章

未来新发展 AI哪天可超越人类?

新研究成果的最重要部份,是“脱离了人类知识枷锁”。英国广播公司(BBC)述消息报道,DeepMind团队正准备把技术应用在其他范畴,如新药物开发和新物料研发方面。希望人类反过来“被AI启发”,以从未尝试过的方法研发新科技。

不过BBC亦表示“得提防AI过度发展造成可能出现的道德困境”,特别是研发者是Google这样的跨国大企业。当然至今天为止要说AlphaGo Zero会变得过份聪明,甚至威胁人类是言之过早,但按目前发展方向,未来这都会成为人类必需面对的问题。

(THE VERGE/BBC/日本放送协会)