内容字号:默认大号超大号

段落设置:取消段首缩进段首缩进

字体设置:切换到微软雅黑切换到宋体

业界资讯软件之家
Win10之家WP之家
iPhone之家iPad之家
安卓之家数码之家
评测中心智能设备
精准搜索请尝试:精确搜索

AlphaZero“通用棋类AI”问世:8小时学习完爆AlphaGo

2017-12-7 8:54:31来源:网易科技作者:网易智能责编:远洋评论:

日前,DeepMind团队发表了最新论文,提出了全新的强化学习算法AlphaZero,它是一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法,堪称“通用棋类AI”。

通用AI问世!AlphaZero强化学习算法8小时完爆人类

据了解,AlphaZero算法可以8个小时训练击败李世石版本AlphaGo;12小时训练击败世界顶级的国际象棋程序Stockfish;14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。

此外,我们看到这次的AlphaZero与AlphaGo Zero有几点不同,首先AlphaGo Zero是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑,对结果进行估计和优化。其次,AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强,而AlphaZero不会。第三,AlphaZero只维护单一的一个神经网络,这个神经网络不断更新,而不是等待迭代,四,AlphaZero中,所有对弈都重复使用相同的超参数,因此无需进行针对特定某种游戏的调整。

论文地址:https://arxiv.org/pdf/1712.01815.pdf

相关文章

关键词:AlphaZeroAlphaGoAI

IT之家,软媒旗下科技门户网站 - 爱科技,爱这里。

Copyright (C)RuanMei.com, All Rights Reserved.

软媒公司版权所有