‘这其中最重要的方面……是AlphaGo不仅仅是一个手动规则构建下的专门系统,’负责DeepMind监督的戴密斯·哈萨比斯说,‘相反,它还使用通用的机器学习技术来赢得胜利。’
1、穷举与剪枝
早在2014年初,库伦的围棋程序Crazystone就挑战了日本的职业棋手依田纪基并获得了胜利,但有一点需要声明——这是AI在受让四子的情况下。
在围棋中,这代表着开局的巨大优势。
当时,库伦预测,机器还需要10年的发展,才能在分先的情况下赢得顶尖棋手。
这项研究的难度在于围棋规则本身。
即使是功能再强大的超级计算机,处理能力也有极限,无法在给定任意的合理的时间内分析出棋盘中可行的每步棋着的变化。
当深蓝在1997年战胜国际象棋冠军卡斯帕罗夫时,就是以这样的‘暴力’做到的。
从本质上讲,IBM的超级计算机分析了当前可行的每一步棋的结果,这样的预测视野超越了人类棋手的极限。
但在围棋中,这是不可能做到的。
在国际象棋中,任意给定的回合平均约有35种可行的变化;而围棋--这种两个玩家在19×19的网格上以抛光的棋子互相对抗的游戏,有着约250种变化,并且每种都能生出另外的250种,依此类推,无法穷尽。
就像哈萨比斯指出的一样:横盘上存在的变化比宇宙中的原子还要多。
在使用一种被称为蒙特卡罗树搜索的技术后,像Crazystone这样的系统能够脱颖而出,结合其他技术,系统可以缩小必须分析的步数的范围,最终他们可以战胜一些围棋高手——但不能战胜最顶尖的棋手。
2、局面形式判断
在顶尖棋手中,每一手棋更具直观性。
棋手可能会告诉你,要基于盘中的棋形和局势来决定下一步棋着(棋手思维),而不是仔细分析盘上每个点可能的后续变化(系统思维)。
‘好的选点看上去就觉得很棒,就像遵循着某种美学一般。’同时也是一名棋手的哈萨比斯说,‘历经数千年依然是一个迷人的游戏,或许这就是它的魅力所在。’
但是,随着2014年让步至2015年,包括爱丁堡大学团队,Facebook团队以及DeepMind团队在内的研究者们,开始将深度学习应用于围棋研究。
这个想法是利用技术来模仿下棋时所需要的‘人类直觉’。‘围棋是隐式的,且都是模式匹配(一种算法)’哈萨比斯说:‘但这正是深度学习的优势所在。’
3、自我增强
深度学习依赖于所谓的神经网络——一种硬件和软件网络,类似于人脑中的神经元。
这些神经网络并非依靠暴力计算或手动制定的规则来运作,他们分析大量数据以‘学习’特定的任务。
将足够多的袋熊照片送入神经网络,它可以学习识别袋熊;给它‘投喂’足够多的口语,它可以学会辨认你说的话;‘投喂’足够的围棋走法,它就可以学会下围棋。
在DeepMind,研究人员希望神经网络可以通过‘看’盘中的选点来掌握围棋,就像人类在下棋时一样。
这项技术反馈良好,通过将深度学习与‘蒙特卡洛树’方法结合,Facebook旗下的系统已经击败了一些人类玩家。
但DeepMind团队更加深入的执行了这个理念。
当接受了3千万步人类棋着的训练后,DeepMind神经网络能以57%的概率预测下一手人类棋着,这是一个令人印象深刻的数字(此前的记录是44%)。
在这之后,研究员们让该神经网络和与其自身略有不同的版本进行相互对弈,这被称之为强化学习。
本质上来说,通过神经网络进行自我对弈,系统会追踪哪一手棋能够带来最大利益——在围棋中体现在获得最多的地盘。
随着时间的增加,系统在识别‘哪些棋能带来利益,哪些不能’方面变得越来越完善。
‘AlphaGo通过其神经网络之间的数百万次相互对弈,日渐提高,最终学会了自己发现新的战略。’DeepMind的研究员西尔弗说。
据团队成员西尔弗的说法,这使得AlphaGo能够超越包括Crazystone在内的所有围棋AI系统。
在这之后,研究员们将研究结果输入第二个神经网络,收集它通过自我对弈给出的建议棋着,神经系统便可以预见这之后的每一步的变化。
这类似于较旧的系统(如深蓝)在国际象棋领域所表现出的一样,只不过AlphaGo系统在分析更多数据时,会不断进行自我学习并最终做到这一点,而非通过暴力的手段探索棋盘上所有的可能性。
这样一来,AlphaGo不仅学会了击败现有AI程序,也能学会击败顶尖的人类棋手。
4、风雨欲来
在非公开场合打败了欧洲的围棋大师之后,哈萨比斯和他的团队旨在在公开论坛上击败世界顶尖棋手之一的李世石。
不久之后的三月,AlphaGo将在韩国挑战围棋世界冠军李世石。
李世石是至今为止世界冠军数第二位的棋手,并在过去的十年里获得了最多的世界冠军。
哈萨比斯将他视为‘围棋世界的费德勒’。
根据库伦等人的说法,战胜世界冠军将比战胜欧洲冠军樊麾更具挑战性。
但是这次,库伦将赌注押在了一直以来的竞争对手——AlphaGo上。
在过去的十年中,他一直尝试开发出能够击败世界最顶尖棋手的AI系统,现在,他相信这个系统就在眼前。
上面这些内容,大家未必真能看得明明白白。
简单说,通常人们会认为,穷举法理应是计算机所擅长,而剪枝法赢为人类的天赋。
而计算机的穷举法非常有局限性。
这也是之前人们普遍认为,计算机围棋与人类顶尖棋手尚存在遥不可及的差距的根本原因。
但阿尔法狗取得了了不起的成就,它背后的谷歌团队悄然突破了“天堑”。
上面那些,总而言之可总结为——“深度学习”。
某种程度上,计算机已经可以如同人类一样进行主动学习并取得进步;而不是如之前那样,总是进行模仿、总是生硬地进行天量运算。