本篇文章1883字,读完约5分钟
出版社:本文作者田元东已获授权。
第四局,李世石的78手l11被誉为“诸神之一”,在黑森林的战略网络输出中排名第31,j11排名第10。因此,我认为也许阿尔法戈没有做到这一步。如果对手玩的是机器无法计算的象棋游戏,蒙特卡洛(mcts)搜索树将清除空,然后再次开始搜索,因此不应该过早得出结论。Zach Li的第六段告诉我k10只有几秒钟的路程,这可能是因为时间管理子系统在搜索树清理空时有程序漏洞,所以搜索结果过早返回。在mcts搜索开始时,由于模拟的数量不够,而且每一步的成功率差异很大,所以MCTS返回像k10(在黑森林排名前四)这样的糟糕方法是正常的。这更容易纠正。
另一种可能性是阿尔法戈的估值网络有问题。因为评估网络的权重是0.5,所以无论快速行走g从一个情况重复多少次,它的权重也是0.5。在某种情况下,估值网络只能得到一个数字,但如果你从这种情况下去,你会在走了很长一段路后得到很多数字,这在统计学上应该更重要,但阿尔法戈不这么认为。计算双方的获胜率后,直接分成50-50。因此,如果估价网络在某一情况下得到错误的结果,将会极大地影响对该情况的中标率的估计。请注意,在这里获得大量数字的原因是,根据文章,叶节点是在累积一定数量的磁盘(40)之后展开的,而不是在第一次访问时展开的,从而提高了dcnn的效率。黑森林没有使用估价网络。在挖掘l11之后,它正确地返回到l12和l10。根据李,他们都是正确的反应,这间接支持了这一推论。阿尔法戈没有意识到他已经落后了87手牌,这可能是由于同样的问题,比如看到右边的黑龙还活着。
那么为什么估值网络有问题呢?这可能是自学习的样本分布中存在一个盲点,用于训练评估网络。为了提高样本生成的速度,alphago的自学习样本是通过使用两个纯dcnn相互竞争(完全不搜索)而生成的。然而,由于dcnn下的棋是纯模式识别的,一个很大的问题是它不正确,而且它经常是在死棋中下的。如果黑白双方都犯了不区分生死的错误,然后一方偶然赢了,那么估值网络会认为白棋的情况是好的。这样,估值网络就会遭遇同样的问题,并在复杂的板块对抗局面中做出错误的判断。如果是这样的话,就很难处理了,阿尔法戈在下一场比赛中可能会遇到同样的问题。从这里可以看出,电脑本身并不依靠疲劳来下棋。毕竟,围棋太复杂了,每一步都必须修剪,小心地靠近当前形势(使用dcnn),快速地远离当前形势(快速行走),直到赢得最终结果。修剪的质量直接关系到棋艺的水平。dcnn只是一个很好的大图片剪枝方法,它的盲点会被丢失所反映。
dcnn+mcts抢劫案。首先,因为mcts在全球范围内评估分数,所以抢劫本身和项目中的其他情况没有本质区别,这只是一个动作。抢劫的特殊性在黑森林中表现出来,当有抢劫发生时,dcnn经常以很高的概率(大于0.8)回来提及抢劫。可能的原因是抢劫点作为一个单独的特征被输入,所以dcnn学习它与输出(抢劫)的强相关性。这样,MCT搜索将强烈偏向这只手。这在很多情况下是真的,但有时抢劫的规模太小而不能被忽视,或者两起或两起以上的抢劫需要被放弃,所以“必须提及抢劫”的偏见会给搜查带来麻烦。有时,这也是电脑屡遭抢劫的原因。Alphago可能有这个问题,或者是一个相反的问题(例如,抢劫的概率很小),所以当下棋时,每个人都会觉得它是在避免抢劫或者是在涉及抢劫的变化中犯了计算错误。
地平线效应。在国家大象的人工智能中会有这种效果,例如,它只搜索10步,在计算了别人之后,它就被自己吃掉了。然后,用简单的加法估计,在下盘发现很多人是特别酷的,这个分支特别好。事实上,如果你再退一步,你就会被别人吃掉,或者掉进陷阱,从而误算了磁盘的价值。然而,由于Go总是在每次模拟中走到最后,dcnn可能在最初的30步中使用,然后使用快速步行者。虽然步行者的素质有差距,但总的来说他们不会出错,所以地平线效应在一定程度上被削弱了。此外,阿尔法戈这次的失误在20步之内,应该仍然在dcnn的范围之内,所以地平线效应的可能性相对较低。
在所有人的要求下,李世石没有机会在这里玩第三场的胜率游戏。
游戏4没有运行空,下面是一个关键段落。注意黑森林只有5天,所以看不到它是黑色是正常的。
编辑汇总了作者对阿尔法戈和李世石在前两场比赛中的胜率的估计:
首先,说明每个数据点是df在当前情况下给出的最佳响应,同时给出获胜率。这种最佳反应不一定与玩家的反应相同。如果您想查看df给出的答案,您可以下载以下两个文件:
远东/win_rate1.txt
远东/win_rate2.txt
标题:Facebook 田渊栋:第四局AlphaGo 败招的分析 ( 附前3场比赛胜率分析)
地址:http://www.j4f2.com/ydbxw/9273.html