阿尔法狗再进化有多厉害?人类赢不了了?
美国当地时间10月18日,谷歌人工智能团队DeepMind团队在期刊《Nature》上发表论文,宣布一款新版的AlphaGo Zero计算机程序可以在不需要任何人类输入的条件下,迅速自学围棋,并以100比0的战绩击败上一代AlphaGo。这是AI历史上又一里程碑式的重大消息。
新版“阿尔法围棋”从零开始 四十天成王者
谷歌旗下的人工智能“阿尔法围棋”在几次世界瞩目的人机大战后站在了围棋之巅——2016年,谷歌旗下的DeepMind团队发布AlphaGo,并以4:1的战绩击败了世界围棋冠军、韩国棋手李世石,震撼世界。此后,AlphaGo又进化出了AlphaGo Master版本,并以3:0战胜了当今世界围棋第一人、中国棋手柯洁。功成名就后,DeepMind团队宣布AlphaGo退役。
现在它又以一种新的方式超越了自己:闭关一年后,DeepMind推出了最新版本的AlphaGo Zero,它在没有任何人类指导的情况下,“从零开始”学习围棋,仅用3天时间自学和训练,就击败了此前的AlphaGo,比分是100比0。值得注意的是,之前的版本都参考学习了大量人类专业棋手的围棋经验,而新版的AlphaGo Zero则是自我对弈,即通过跟不同版本的自己下棋来学习。
英国“深度思维”公司开发出了“阿尔法围棋”,该公司团队在新一期英国《自然》杂志上发表论文,介绍了最新版的“阿尔法围棋-零”。 该公司之前开发的电脑在开始学习围棋时,旧版Alpha Go需要先学习数百万份人类棋谱,还要经过几个月的密集训练,从而进行自我训练,实现超越。
第四个版本,即最新的“阿尔法围棋-零”摆脱了这个限制,完全“从零开始”,自己与自己对弈,通过更为优秀的算法,取得飞速进步。
Zero的学习原理是这样的:研究团队事先没有给Zero学习任何人类棋谱,只告诉它围棋的规则,就让它自己在棋盘上下棋,与自己进行对弈,从一次次试验和失败中吸取经验教训,摸索规律,在实战中提高棋艺。
除了学习原理外,另一点与“旧狗”不同的是,Zero使用了单一的神经网络。
此前版本的AlphaGo都是用了两种神经网络,一种用来预测下一步棋最好的走法,另一种用来计算,根据这些走法,谁更有可能获胜。
而Zero把这两种网络合二为一,只让神经网络预测获胜者,从而能够得到更高效的训练和评估,就好像让一个围棋高手来预测比赛结果一样。
此外,Zero也不再使用快速而随机的走子方法。“旧狗”会通过快速走子来预测哪个棋手会从当前局面中获胜,而Zero则通过高质量的神经网络来评估棋局。
如此看来,“旧狗”像是走一步看三步、步步为营的棋手,而Zero更像是纵观全局、成竹在胸的围棋大师。
开始学习围棋3天后,“阿尔法围棋-零”就以100比0的成绩战胜了“阿尔法围棋-李”;40天后,它又战胜了在所有人类高手看来已不可企及的“阿尔法围棋-大师”。研究人员认为,这一进步标志着人工智能的巨大突破,意味着人工智能可以更好地进入对它来说本是一片空白的领域。
根据DeepMind团队发表在《Nature》上的论文,最新版的AlphaGo Zero最大的突破在于实现了“白板理论”。白板理论认为,婴儿是一块白板,可以通过后天学习和训练来提高智力。人工智能(AI)的先驱图灵认为,只要能用机器制造一个类似于小孩的AI,然后加以训练,就能得到一个近似成人智力,甚至超越人类智力的AI。而自学成才的AlphaGo Zero正是实现了这一理论。
Zero更厉害的一点在于,随着训练的深入,它不仅棋艺获得极大提升,而且不再受到人类认知的局限,能够发现新知识,独立发现游戏规则,并且发展新策略,而这些具有创造性的围棋招式,模仿并完全超越了AlphaGo在与李世石和柯洁对弈时所使用的新技巧。
“深度思维”公司首席执行官哈萨比斯表示,希望人工智能的这种进步能够被用于分析蛋白质结构、设计新材料等领域,为人们的生活带来积极有益的影响。
根据英国《卫报》报道,AlphaGo的首席研究员大卫·席尔瓦(David Silver)称:“它比以前的算法更强大,因为它不使用任何人类数据或人类经验,我们已经消除了人类知识的限制,它可以自己创造知识。”
更多"阿尔法狗再进化有多厉害?人类赢不了了?"...的相关新闻
每日财股
- 每日财股:顺丰控股(002352)
投资亮点 1 顺丰控股现已在物流圈构建了集物流、资金流和信息流为一体的生态系统,...[详细]