再进化!“通用棋类AI”AlphaZero问世

环球网 2017-12-07 作者:心月

  就在今年10月份,谷歌旗下的创业公司DeepMind发布了AlphaGo Zero。没错,就是之前接连打败围棋世界冠军,李世石九段和柯洁九段的那个阿尔法狗的终极进化版。阿尔法狗项目首席研究员大卫·席尔瓦曾表示,AlphaGo Zero是目前世界上最强大的围棋程序,超越以往所有阿尔法狗的旧版本。

  然而日前,DeepMind 悄悄放出了一篇新论文,介绍了一个AlphaZero。一开始我们差点以为 DeepMind 也学会炒冷饭了,毕竟AlphaGo Zero 在10 月就发出来了。可仔细一看,这次的 AlphaZero 不是以前那个只会下围棋的人工智能了,它是通用的,国际象棋、日本象棋也会下,所以去掉了名字里表示围棋的“Go”。

  据了解,AlphaZero算法可以在8个小时训练击败李世石版本AlphaGo;再用4小时训练击败世界顶级的国际象棋程序Stockfish;再用2小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。

  我们可以看到AlphaZero与AlphaGo Zero有几点不同,首先AlphaGo Zero是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑,对结果进行估计和优化。其次,AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强,而AlphaZero不会。另外,AlphaZero只维护单一的一个神经网络,这个神经网络不断更新,而不是等待迭代。AlphaZero中,所有对弈都重复使用相同的超参数,因此无需进行针对特定某种游戏的调整。

  AlphaZero 的问世是算法和计算资源的胜利,更是人类的顶尖研究成果。DeepMind 愿景中能解决各种问题的通用 AI,离我们是越来越近了。

责任编辑:王超

科普中国APP 科普中国微信 科普中国微博
环球网
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢