细思极恐︱AlphaGo再进化 MuZero不知规则却精通十款电玩与棋类

撰文: 数位时代
出版:更新:

2016年,AlphaGo战胜韩国棋王李世乭,向全世界宣示了AI在游戏领域的强悍实力。如今DeepMind又更上一层楼,向公众介绍不必知晓规则,也能精通各式游戏的AI模型MuZero,并可望用于降低YouTube的营运成本。

MuZero懂得游玩数十款雅达利(Atari)电玩游戏、西洋棋、围棋及日本将棋,不过与它的前辈不同的是,以往没有一款AI能够同时精通电玩与棋盘类游戏,且即使不告知它游戏规则,也能在过程中自行领悟。

DeepMind曾于2019年首度披露MuZero的存在,但直到本周才正式于《自然》期刊上,发表论文介绍这项AI技术的细节。DeepMind指出,MuZero在各式游戏中都有顶尖表现,并展现出对未知环境的掌握能力。

▼▼▼还记得AlphaGo先后击败李世乭、柯洁两位世界级棋手?▼▼▼

+3

懂得自行学习游戏规则,MuZero能以有限资讯做出最佳决策

“我们只是告诉系统说,用你自己建构的认知,去了解这个世界怎么运作。”DeepMind电脑科学家大卫.西尔弗(David Silver)表示,“只要内部的理解成功对上了某个现实事物,那我们就满意了。”

根据DeepMind披露的资讯,MuZero的运作方式是为它所游玩的游戏建立一个模型,然后依照模型规划出游戏中最好的策略、下一步,然后透过游玩不断优化这个模型。

MuZero的设计理念是考虑到现实应用环境,演算法不必全盘了解所有规范、准则,并建立一个100%准确的模型,而是需要在有限的资讯下,达到“够用”的程度。

例如,在瞬息万变的电玩游戏中,AI没有充足时间解析所有可能性,但在小精灵这类游戏中,即使只从6、7种选择中找出最佳路径,MuZero依旧能取得非常好的成绩;而在下围棋时,MuZero也能以较少的运算量,达到比AlphaZero更好的结果。

DeepMind解释,具体来说MuZero会对依照三种环境要素建立模型,一是当前位置、状况的好坏,二是最好的下一步是什么,三是最后的结果如何。如同绘制一幅树状图般,AI利用深度学习理解各个行动最后会有怎样的结果。

西尔弗指出,“现实世界非常复杂混乱,没有一本手册告诉我们他是怎么运作的,但人类却可以规划出接下来该怎么做。”若以DeepMind的举例来说,当看到乌云密布的天空,预测有下雨的可能性,就会决定携带雨伞出门。

“这是我们首次拥有一个有办法建立自己对世界的见解,据此做出复杂前瞻性决策的系统。”西尔弗提到,“(AI)可以从完全没有先备知识的条件下开始,经由反复测试学习世界规则,并展现出超越人类的表现。”

▼▼▼相关图辑:人工智能已可吟诗作画,AI真的拥有智慧?▼▼▼

+7

压缩影片比当代技术更厉害,MuZero可望用于降低YouTube营运成本

由于是如此突破性的AI技术,DeepMind也持续寻找它适合担纲的工作,目前表现最好的是影片压缩,用类似MuZero的演算法实验后发现,它的表现比以往最好的压缩法节省5%互联网流量。

西尔弗解释,互联网上资料流量绝大部分是由影片贡献,倘若能够有效压缩影片,便可缩减经营成本。根据思科的资料,预估到2022年时,影片将占据全球82%的互联网流量。

英国媒体《BBC》指出,MuZero找到的新影片压缩方式,也有望用于降低YouTube的营运成本,不过DeepMind暂时不愿透露Google何时会利用这项技术,仅声称明年会有更多细节公布。

不单用于影片压缩上潜力无穷,MuZero也被认为有助于打造虚拟管家、机器人,甚至强化前阵子DeepMind宣布取得突破性进展的蛋白质折叠预测能力。

DeepMind一直渴望利用AI对世界做出贡献,MuZero能够依照有限资讯做出最佳判断的能力,是AI走出萤幕踏入现实的重要里程碑。就如他们提到的,“知道撑伞能让你免于淋湿,比分析空气中的雨滴模型更有价值。”

延伸阅读:迪士尼开发识眨眼、模拟情绪机械人▼▼▼

+9

延伸阅读:虚拟情人众筹!用VR与自订理想恋人约会 未来人类解决性欲方法?▼▼▼

+21

延伸阅读:

DeepMind又有AI新突破,攻克50年未解“蛋白质折叠”难题!可望加速药物研究

Google开除AI伦理学先锋引论战!CEO亲上火线,为何却被批“最糟糕手法”?

【本文获“数位时代”授权转载。】