他们确实做得很好,能让 4 子胜 Zen 和 CrazyStone,把职业二段打成五比零,实力不容质疑。就期待着今年三月他们和李世石的比赛了。
从算法上来说,这篇文章并没有太多新意,主要是通过大量的训练数据,包括以往的棋谱和自我对局,把性能堆出来。他们训练了一个走子的神经网络(这个和我们的办法是一样的,但我们的文章主要在这上面作了改进),又训练了一个可以评估局面的网络(这个我们还没有),然后在蒙特卡罗树搜索中同时使用这两个网络。后者用了两千万局的自我对局 (self-play) 的结果训练。为了避免过拟合,每局只随机选了其中一个局面,然后让网络预测对局结果(胜或负)。两千万局不是个小数字,大家可以算一下一刻不停地下,15 分钟一局需要多久才能下完(大约是 570 年)。这个规模我说实在没有想到过,谷歌在这方面是很有优势的。最后,他们的 default policy 也是经过处理的,能够两微秒走一步而且准确率也不错。还有一些小细节就不一一赘述了。总之,谷歌的做法充分利用了大数据 + 深度学习的优势,而几乎完全没有用到围棋的领域知识,所以若是以后棋力能再往上走,我也不会惊讶。
其实这篇文章在去年 11 月份就已经投稿,但是因为《自然》杂志严格的审查制度,现在才出来。我们在 11 月的时候还只有 3d 的水平,蒙特卡罗树搜索还有各种问题,12 月初的时候已经听到了谣言,当时我惊得话都说不出来了,然而就算这样,还是决定一点一点做,抓紧圣诞和新年的时间,把性能提高到 5d 的水平。我们还差一点拿了一月 KGS 锦标赛的冠军(Zen 和 DolBaram 都参加了),可惜最后因为程序错误而超时,输了一局赢棋给 Zen,得了第三名。谷歌的文章有 20 个作者,明显是下了血本,前两位都是计算机围棋界的大牛,一作 David Silver 是计算机围棋和强化学习的顶级专家,整个博士论文就是做的围棋; 二作 Aja Huang 以前写过多年围棋软件,自己又是 AGA 6D 的水平。相比之下我们只有两个人( @朱岩 ),只做了半年,中间还要穿插 VQA 等其他项目,而且都没有做过围棋的经验,想想有些差距也是不冤了。
现在回想起来,要是他们决定去年 10 月份战胜了樊麾后马上公开,或者我们再拖一会儿,决定不投 ICLR 而等到今年的 ICML,那我们就被灭得连渣都不剩了(笑)。这回虎口拔牙,能从中拿到一些贡献,为公司增加一些影响力,算是比较成功的。至于单挑全军的感觉如何――我的回答是很爽 :)
Facebook 高层也给了我们很大的支持,昨天我们组的老大 Yann LeCun 发了文章介绍我们的工作,扎克伯格还特地发了一篇文章点到了我的名字,赞扬我们的努力,对此我非常感动。
最后,我们的 arXiv 更新了[文章见http://arxiv.org/abs/1511.06410],欢迎大家有空看看。谢谢~
Read full article from 谷歌人工智能第一次秒杀欧洲围棋冠军,是人类打败了人类
No comments:
Post a Comment