毋须指导自行学习　新版AlphaGo Zero完胜旧版　自封世界最强棋王

撰文：欧敬洛

出版：2017-10-19 12:47更新：2025-02-11 23:44

Google专门开发人工智能的“DeepMind”团队公布，他们成功研发出AlphaGo的新版本“AlphaGo Zero”。AlphaGo Zero无需人类协助，就能自行学习由不懂围棋到精通，甚至击败旧版本的AlphaGo，为人工智能发展开拓新里程。

在击败韩国“不败少年”李石世后，AlphaGo在今年5月再击败中国棋王柯洁。（视觉中国）

AlphaGo击败棋王李世石和柯洁惹来全球触目，虽然旧版本AlphaGo已退役，但Google在人工智能的开发步伐未有停止。DeepMind团队在18日于《自然》期刊发表文章，表示他们已制作出比AlphaGo更强劲的的新版本“AlphaGo Zero”。

更多【AlphaGo对弈柯洁】的文章

【独孤求败】三胜柯洁　AlphaGo宣布退役　获中国棋院九段证书遭AlphaGo虐后　柯洁轻取韩国九段棋手：原来和人下棋如此轻松柯洁全运会夺冠创20连胜佳绩　陆媒：对天一战后在人间已无敌

仅靠下棋规则即能自我精通

AlphaGo Zero与旧版本的最大不同，是无需人类协助。过去AlphaGo要自我学习首先需要人类给予协助，如AlphaGo背后有10万套棋谱参考，才能“让自己无敌”。但AlphaGo Zero只需设下围棋规则，就能由不懂围棋到精通。

报告指AlphaGo Zero在花了3天自行对局500万次后，就已掌握一身好棋艺在模拟战中击败李世石的棋谱。在花40天学习后，就能以九成胜率的压倒性姿态击倒旧版本的AlphaGo。

AlphaGo在去年3月大战李世石，以5比1战胜韩国棋王，为“人机大战”拉开序幕。（视觉中国）

摆脱人类知识枷锁　不用参考人类自行学习

DeepMind称他们创造了世界历史上“最强的棋士”，AlphaGo Zero研究首席工程师David Sliver表示：“AlphaGo Zero脱离了人类的知识枷锁，能从白纸以自己方式学习，因此比较版本更强。”他表示AlphaGo Zero在学习时会用上各种未曾看过的新棋谱，不停尝试和失败：“当在与人类棋谱对战局时，程式最初会模仿人类，但很快就自行发展出另一套下棋方式，有如受人类棋谱‘启发’了一样。”

除程式的进步外，AlphaGo Zero在硬件上也与旧版本不同。新版本只需使用4个TPU（Google特制的AI处理器），旧版本却需要48个TPU，意味新版本更省电却能做到更强的运算。

更多【AlphaGo对弈李世石】的文章

最终回！　李世石向AlphaGo投降　总局数输1比4 李世石不敌AlphaGo连输三局　“只是我输了　不是全人类”【柯洁对AlphaGo】点解AlphaGo咁厉害？AI比去年对李世石时强多倍

未来新发展　AI哪天可超越人类？

新研究成果的最重要部份，是“脱离了人类知识枷锁”。英国广播公司（BBC）述消息报道，DeepMind团队正准备把技术应用在其他范畴，如新药物开发和新物料研发方面。希望人类反过来“被AI启发”，以从未尝试过的方法研发新科技。

不过BBC亦表示“得提防AI过度发展造成可能出现的道德困境”，特别是研发者是Google这样的跨国大企业。当然至今天为止要说AlphaGo Zero会变得过份聪明，甚至威胁人类是言之过早，但按目前发展方向，未来这都会成为人类必需面对的问题。

（THE VERGE／BBC／日本放送协会）

毋须指导自行学习 新版AlphaGo Zero完胜旧版 自封世界最强棋王

毋须指导自行学习　新版AlphaGo Zero完胜旧版　自封世界最强棋王