All About Programming: 专家点评：谷歌人工智能AlphaGo完胜欧洲围棋冠军，如果对战一组冠军结果如何？-博客-云栖社区-阿里云

专家点评：谷歌人工智能AlphaGo完胜欧洲围棋冠军，如果对战一组冠军结果如何？-博客-云栖社区-阿里云

此外，AlphaGo的发布，也是Deep MInd在2014年1月被谷歌收购以来首次发声。在被收购之前，这家位于伦敦的人工智能领域的公司还获得了特斯拉和SpaceX创始人马斯克的投资。

详解部分技术内容

所有完全信息（perfect information）博弈都有一个最优值函数（optimal value function），，它决定了在所有参与博弈的玩家都做出了完美表现的情况下，博弈的结果是什么：无论你在棋盘的哪个位置落子（或者说是状态s）。这些博弈游戏是可能通过在含有大约 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy= 个可能行动序列（其中b是博弈的宽度，也就是在每个位置能够移动的步数，而d是博弈的深度）的搜索树（search tree）上反复计算最优值函数来解决的。在象棋（）和围棋之类（）的大型博弈游戏中，穷尽地搜索是不合适的，但是有效搜索空间是可以通过2种普遍规则得到降低的。首先，搜索的深度可能通过位置估计（position evaluation）来降低：在状态s时截取搜索树，将随后的子树部分（subtree）替换为根据状态s来预测结果的近似的值函数 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy= 。这种方法使程序在象棋、跳棋、翻转棋（Othello）的游戏中表现超越了人类，但人们认为它无法应用于围棋，因为围棋极其复杂。其次，搜索的宽度可能通过从策略概率――一种在位置s时表示出所有可能的行动的概率分布――中抽样行动来降低。比如，蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均，能够提供有效的位置估计，让程序在西洋双陆棋（backgammon）和拼字棋（Scrabble）的游戏中展现出超越人类的表现，在围棋方面也能达到低级业余爱好者水平。

详解：AlphaGo 如何在对弈中选择步法

黑色棋子代表AlphaGo正处于下棋状态，对于下面的每一个统计，橙色圆圈代表的是最大值所处的位置。

a.用价值网络（value network） 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy= 估测根节点s处的所有子节点s'，展示了几个最大的获胜概率估计值。

b.计算树中从根节点s处伸出来的边（其中每条边用(s,a)来表示）的动作值Q（s,a），仅当（λ=0）时，取价值网络估值的平均值。

c.计算了根位置处伸出的边的动作值Q(s,a),仅当（λ=1）时，取模拟估计值的平均值。

d.直接从SL策略网络 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy= 中得出的落子概率，（如果这个概率高于0.1%）则结果以百分比形式表示出来。

e.计算了在模拟过程中，从根节点选出的某个动作的频率百分比。

f.表示来自于AlphaGo搜索树的主要变异性（principal variation）（最大访问数路径），移动路径以序号形式呈现出来。

红色圆圈表示AlphaGo选择的步法；白方格表示樊麾作出的回应；樊麾赛后评论说：他特别欣赏AlphaGo预测的（标记为1）的步法。

AlphaGo与樊麾的比赛结果

以编号形式展示了AlphaGo和樊麾进行围棋比赛时各自的落子顺序。棋盘下方成对放置的棋子表示了相同交叉点处的重复落子。每对中的第一个棋子上的数字表示了何时发生重复落子，而落子位置由第二个棋子上的数字决定。（见补充信息 Supplementary Information）

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy
第一盘：AlphaGo 以 2 目半获胜

第二盘：AlphaGo 中盘胜

第三盘：AlphaGo 中盘胜

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy 第四盘：AlphaGo 中盘胜

第五盘：AlphaGo 中盘胜

最终，我们评估了分布式AlphaGo与樊麾的比赛，他是专业2段位选手，2013、14和15年欧洲围棋赛冠军。在2015年10月5日到9日，AlphaGo和樊麾正式比赛了5局。AlphaGo全部获胜。这是第一次一个电脑围棋程序，在没有让子、全尺寸（19X19）的情况下击败人类专业选手，这一成果过去认为至少需要 10 年才能实现。

讨论

在我们的工作中，我们开发了围棋程序，它将深度神经网络和树搜索结合起来。这个程序可以达到最强的人类选手的表现，因此完成了一个人工智能"伟大挑战"。我们也为围棋首创了高效步法选择和位置评估函数，这是通过具有创新性地将监督和强化学习两种方法结合起来从而训练深度神经网络。我们也引入了一个新搜索算法，这一算法成功的整合了神经网络评估和蒙特卡洛树模拟算法。我们的程序AlphaGo在高性能树搜索引擎中从一定规模上将这些成分整合在一起。

在和樊麾的比赛中，AlphaGo在评估位置方面要比深蓝与Kasparov4比赛时所评估的位置少几千倍，这是由于我们使用了策略网络更智能地选择那些位置，还使用了价值网络更精确地评估它们，而价值网络更接近人类的下棋方式。另外，深蓝依靠手工设计评估方程，而AlphaGo的神经网络是直接通过纯比赛数据训练，也使用了通用监督和强化学习方法。

围棋代表了很多人工智能所面临的困难：具有挑战性的决策制定任务、难以破解的查找空间问题和优化解决方案如此复杂以至于用一个策略或价值函数几乎无法直接得出。之前在电脑围棋方面的主要突破是引入MCTS，这导致了很多其他领域的相应进步：例如，通用博弈，经典的计划问题，计划只有部分可观测问题、日程安排问题和约束满足问题。通过将策略和价值网络与树搜索结合起来，AlphaGo终于达到了专业围棋水准，让我们看到了希望：在其他看起来无法完成的领域中，AI也可以达到人类级别的表现。

介绍下Google DeepMind

Google DeepMind 是一家英国人工智能公司，创立于2010年，名为DeepMind Technologies，2014年被谷歌收购，更名为Google DeepMind。

这家公司由Demis Hassabis、Shane Legg和Mustafa Suleyman创立。公司目标是"解决智能"，他们尝试通过合并机器学习最好的方法和系统神经科学来构建强大的通用学习算法。他们试图形式化智能，进而不仅在机器上实现它，还要理解人类大脑。当前公司的焦点在于研究能玩游戏的电脑系统，研究的游戏范围很广，从策略型游戏围棋到电玩游戏。

Demis Hassabis，人工智能研究人员，神经科学家，电脑游戏设计者，毕业于剑桥大学，并在伦敦大学获得PhD，研究兴趣：机器学习、神经科学。
Shane Legg，计算学习研究人员，DeepMind创始人，研究兴趣：人工智能、神经网络、人工进化、强化学习和学习理论。
Mustafa Suleyman，英国企业家，DeepMind Technologies的共同创始人和产品运营主管，同时也是Reos Partners的共同创始人，被谷歌收购后，他成为Google DeepMind的应用AI部门主管。

Read full article from 专家点评：谷歌人工智能AlphaGo完胜欧洲围棋冠军，如果对战一组冠军结果如何？-博客-云栖社区-阿里云

专家点评：谷歌人工智能AlphaGo完胜欧洲围棋冠军，如果对战一组冠军结果如何？-博客-云栖社区-阿里云

No comments:

Post a Comment

Labels

Popular Posts