摘要:热点聚焦:10月19日,nature 杂志上线了DeepMind 团队的最新研究成果:新一代的AlphaGo Zero 完全从零开始,不需要任何历史棋谱的指引,通过自我对弈490万棋局后,以100:0的成绩击败了上一版的AlphaGo。 简评:本次的AlphaGo Zero 相比之前版本的AlphaGo 除了将策略...
热点聚焦:10月19日,nature 杂志上线了DeepMind 团队的最新研究成果:新一代的AlphaGo Zero 完全从零开始,不需要任何历史棋谱的指引,通过自我对弈490万棋局后,以100:0的成绩击败了上一版的AlphaGo。
简评:本次的AlphaGo Zero 相比之前版本的AlphaGo 除了将策略网络与价值网络一起训练共享参数,同时简化了蒙特卡洛树搜索之外,一个非常重要的变化是不再让机器先经过“打谱”进行有监督学习,而是完全从零开始通过自我对弈的强化学习就达到了更好的效果,而这个效果仅仅用了490万的自我对弈,相比围棋高达10170的状态空间复杂度而言无疑是沧海一粟。一个可能的解释是首先CNN(卷积神经网络)的模型适用范围非常适合围棋的规则,能得到非常完美的表达;其次之前借助人类棋谱的有监督学习或许一定程度上“误导”了机器的思路,导向了局部最优解而不是全局最优解;另外强化学习在规则清晰的随机系统序列决策问题中有望获得超过人类经验的效果,拓宽认知的边界。