本篇文章4942字,读完约12分钟
在国际象棋和国际象棋中,计算机软件非常强大,只有围棋是唯一一个“计算机不能打败人类”的项目。今年1月,有一条爆炸性新闻:由谷歌深度思维开发的人工智能围棋程序alphago以5: 0的压倒性优势击败了欧洲围棋冠军和职业二级棋手。然后阿尔法戈将在三月迎战韩国的九段和世界冠军李世石。如果阿尔法戈赢得这场战斗,这意味着人工智能的真正里程碑式的胜利。
这也激起了作者的好奇心。春节期间,他与facebook的田元东(他的背景无可挑剔,卡内基梅隆大学机器人系博士,谷歌x无人机核心团队,facebook人工智能组研究员)进行了交流,他所做的也是电脑Go AI-暗黑森林(熟悉这三具尸体的朋友都知道发生了什么)。今年1月,他的文章被机器学习顶级会议iclr 2016接受。(江湖上称之为深度学习或特色学习,在机器学习领域开辟了自己的领地,成为学术界的新宠。(
在他的聊天中,他说自从谷歌收购了deepmind之后,它已经投入了大量的资源在人工智能项目上做得很好,除此之外没有什么可以向世界证明谷歌的智能是强大的。在顶级杂志《自然》上发表了20篇论文,这显然是一篇血腥的论文。前两个是电脑世界里的大奶牛。大卫·西尔弗是计算机围棋和强化学习领域的顶尖专家。博士论文全文为《去》;第二部作品,aja huang,已经写Go软件很多年了,他的水平相当于aga 6d。
仍然没有胡说八道,这里是spinpunch cto对阿尔法戈工作原理的解释。参见参考资料中的原文。
-
谷歌deepmind宣布其神经网络Go ai,alphago,已经击败了人类职业玩家。这篇论文是由大卫·西尔弗等人完成的。里面的技术出奇的简单但功能强大。为了便于理解不熟悉的技术,下面是我对系统工作原理的解释。
深度学习
“深度学习”是指多层人工神经网络及其训练方法。一层神经网络将大量的矩阵数作为输入,通过非线性激活方法获取权值,然后生成另一个数据集作为输出。这就像生物神经大脑的工作机制。通过适当数量的矩阵,多层组织被连接在一起形成一个神经网络“大脑”,进行精确而复杂的处理,就像人们识别物体和标记图片一样。
尽管神经网络已经存在了几十年,但直到最近情况才明朗。这是因为他们需要大量的“训练”来发现矩阵中的数值。对于早期的研究人员来说,获得好结果的最小训练量远远超过了计算能力和所能提供的数据量。然而,近年来,一些能够获得大量资源的团队重新挖掘了神经网络,即通过“大数据”技术进行高效训练。
两个大脑
阿尔法戈通过两个不同的神经网络的合作来提高下棋水平。这些大脑是多层神经网络,其结构与谷歌图像搜索引擎识别的图像相似。它们从多层启发式二维滤波器开始处理围棋棋盘的定位,就像图像分类器网络处理图像一样。过滤后,13个完全连接的神经网络层对他们看到的情况做出判断。这些层可以进行分类和逻辑推理。
这些网络通过重复训练来检查结果,然后校对和调整参数以使下一次执行更好。这个处理器有很多随机元素,所以我们不可能确切知道网络是如何“思考”的,但是更多的训练可以让它进化得更好。
第一个大脑:移动机械臂
阿尔法戈的第一个神经网络大脑是“监督学习的政策网络”,它观察棋盘布局,试图找到最好的下一步。事实上,它预测了每个合法的下一步的最佳概率,所以第一个猜测是概率最高的。你可以把它理解为“下降选择器”。
下落的选择器如何看待棋盘?这些数字表明最强壮的人类玩家可能在哪里玩。
该团队通过最强的人类对手(网络围棋战斗平台)和数百万名棋手来训练大脑。这是阿尔法戈最喜欢的,它的目标是从顶尖专家的最佳手中学习。这不是为了胜利,而是为了找到作为人类主人的下一步。阿尔法戈掉落选择器可以正确地满足57%的人类主人。(不一致并不意味着错误,它可能是人类自己犯的错误)
更强的液滴选择器
alphago系统实际上需要一个有两个额外拖放选择器的大脑。一个是“强化学习政策网络”,由数百万个额外的模拟办公室完成。你可以称之为更强。与基础训练相比,它只教网络模仿一个人的弱势者,而高级训练将跟随每一场模拟象棋比赛进行到底,教下一手牌网络最有可能赢。银队通过一个更强的玩家选择器总结了百万级训练象棋游戏,这比他们以前的版本更具迭代性。
单独使用这种移动选择器已经是一个强大的对手了,可以达到业余棋手的水平,或者和以前最强的围棋相比。这里的重点是这种选择器不会读取。它只是简单地看着一个棋盘的位置,然后提出从那个位置分析的堕落之子。它不会模拟任何未来的动作。这证明了简单的深层神经网络学习的力量。
快速下降选择器
阿尔法戈,当然,团队并没有就此止步。我将解释阅读能力是如何赋予人工智能的。为此,他们需要一个更快的大脑版本。更强的版本需要更长的时间——它足够快来产生一个好的版本,但是“阅读结构”需要在做出决定之前检查成千上万种可能性。
银牌团队建立了一个简单的选择器来制作一个“快速阅读”版本,他们称之为“滚动网络”。简单的版本不会查看整个19*19棋盘,但会考虑对手以前和新的棋子,并观察一个较小的窗口。如果删除掉一部分选择符,大脑会失去一些力量,但是轻量级版本可以比以前快1000倍,这使得“阅读结构”成为可能。
第二大脑:位置评估器
阿尔法戈的第二个大脑是回答另一个与掉落选择器相关的问题。它不是猜测具体的下一步,而是根据棋子的位置预测每个玩家赢棋的可能性。这种“情境评估者”就是论文中提到的“价值网络”,它通过判断整体情境来帮助失败者选择者。这种判断只是近似的,但对提高阅读速度很有帮助。通过对“好的”和“坏的”潜在未来情况进行分类,阿尔法戈可以决定是否通过特殊的变体来深入阅读。如果情况评估者说这种特殊的变体不起作用,那么人工智能将跳过阅读这一行的任何孩子。
情境评估者对这个棋盘有什么看法?深蓝色表示下一步有利于赢棋的位置。
情境评估员也是通过数以百万计的象棋游戏来训练的。银队通过复制两个阿尔法戈中最强的选择器,并仔细选择随机样本,创造了这些情况。在这里,ai faller选择器在高效地创建大规模数据集以培训情境评估员方面非常有价值。这种下降选择器让每个人都可以模拟许多可能的情况,并从任何给定的棋盘情况中猜测出赢棋的大概概率。然而,人类的国际象棋比赛并不多,恐怕很难完成这种训练。
增加阅读
在这里,我们制作了三个版本的“留守选择大脑”和“情境评估大脑”,因此阿尔法戈可以有效地解读未来的行动和步骤。像大多数围棋一样,阅读是通过蒙特卡罗树搜索算法完成的。但是alphago比其他人工智能更聪明,能够猜测检测哪种变体以及检测的深度。
蒙特卡罗树搜索算法
凭借无限的计算能力,MCT理论上可以通过探索每个游戏的可能步骤来计算出最佳玩家。然而,空对未来行走的探索太大了(它比我们认知宇宙中的粒子还要大)。事实上,人工智能无法探索每一种可能的变体。MCT优于其他人工智能的原因是识别有利的变体,以便跳过一些不利的变体。
银牌团队让阿尔法去安装mcts系统的模块。这个框架允许设计者嵌入不同的函数来评估变量。最后,全马力的阿尔法戈系统使用所有这些大脑如下。
1.从当前的棋盘布局中,选择下一个可能性。他们使用基本的下降选择器大脑(他们试图使用一个更强的版本,但事实上它使alphago变弱,因为它没有使mcts提供更广泛的选择空空间)。它关注“明显最好的”失败者,而不是读很多书,也不是选择另一种可能对未来有益的方法。
2.有两种方法来评估每一个可能的失败者的质量:要么使用失败者后面的棋盘上的情况评估器,要么运行更深的蒙特卡罗模拟器(滚动)来思考未来的失败者,并使用快速阅读的失败者选择器来提高搜索速度。阿尔法戈使用一个简单的参数,“混合相关系数”,来衡量每个猜测。马力最大的阿尔法戈采用50/50的混合比,并使用情况评估器和模拟滚动来做出平衡判断。
本文模拟了alphago在使用插件时的能力变化和上述步骤。只有使用独立的大脑,阿尔法围棋几乎和最好的电脑围棋一样强,但是当使用这些综合手段时,就有可能达到职业人类玩家的水平。
alphago的能力变化与是否使用mcts插件有关。
本文还详细讨论了一些工程优化:分布式计算、网络计算机来提高mcts速度,但这些都没有改变基本算法。这些算法部分精确,部分近似。在特殊情况下,alphago凭借其强大的计算能力变得更加强大,但随着性能的增强,计算单元的提升速度会变慢。
优点和缺点
我认为阿尔法戈将非常擅长小规模战术。它知道如何通过许多位置和类型为人类找到最好的方法,所以它不会在给定的小范围战术条件下犯明显的错误。
然而,阿尔法戈在全球判断方面有弱点。可以看出,棋盘状过滤器通过5*5金字塔状过滤器,给战术小块融入整体战略带来麻烦。同样,图像分类神经网络经常混淆一件事和另一件事。例如,在一个角上执行的公式会创建一堵墙或一个标志,这将极大地改变另一个角上的位置估计。
就像其他基于mcts的人工智能一样,alphago在判断大趋势方面仍有很多问题需要深入解读才能解决,比如大隆的生死。阿尔法戈还会对一些看似正常的游戏失去判断力,比如天元开局或者稀有公式,因为很多训练都是基于人类象棋库的。
我仍然期待着看到阿尔法戈和李世石的第九场比赛!我的预测是:如果李使用直人风格,就像面对其他职业球员一样,他可能会输,但如果他把阿尔法戈置于一个陌生的战略位置,他可能会赢。
-
在原文的结尾,下面是董老师的抒情咏叹调:)
在这里,我还想到了另一个人,凌豹,一个来自中国超级大脑的玩家,他看着他走出蜂巢迷宫,被他超强的记忆力和想象力深深震撼。他的职业是围棋,他是盲人。他能完成1比5的盲棋真是不可思议。在围棋圈里,几乎没有棋手能完成盲棋,因为这实在太难了。我也问过他这件事。他说这位欧洲冠军不能触及程序的底部,但从国际象棋的比分来看,我很难赢得谷歌程序,它真的打得很好。虽然围棋圈对李世石持乐观态度,但我不确定谷歌的项目在3月份取得了多大进展。
让我们来谈谈田博士的facebook,它不同于谷歌深度思维(Google deepmind)超豪华团队的长期投资。半年多前,他从项目建立到实施,直到最近才有一名实习生加入到他的团队中来帮助他。背后是他的辛勤努力。为了抓紧时间,他在圣诞节和新年加班。根据他的陈述,他每天工作10多个小时,制造自己的机器,编写代码,调整参数,独自取得成就。
在谈到与谷歌团队的较量时,田博士说:“这是一场必败之战”,但我还是很佩服他。他让我想起了三国时代的赵子龙,独自一人与曹骏作战,试图拉山盖世!因为他是一个真正的战士。正是这些勇敢的科学家打破常规,一次又一次挑战极限,我们才知道人类的巨大潜力。随着近年来的发展,从大数据、深度学习人工智能到虚拟现实,从发现类地行星和确认引力波,从超循环、无人驾驶和量子计算,这些迷人的技术使我们对世界的理解上升到一个新的高度。面对这个激动人心的时代,我想说天堂空是我们的极限,宇宙是我们的极限,未来是我们的极限!
最后,请允许我用田博士的话结束我的发言。
我有时会问自己,“我是否背弃了我的梦想?”我想除了我自己没有人会给我答案,任何评论都不会有效果。我记得有人问,如果一个梦从开始实践时就无意识地妥协于现实,它还是最初的梦吗?事实上,没有什么好纠结的,因为这个世界从来就不是二元的。梦想和现实就像高高悬挂的太阳和月亮。在太阳和月亮之间有一条灰色的路,蜿蜒在你的脚下,绕过各种各样的障碍,向前走。
“我能做的就是在跑步的时候提醒自己,记住‘梦’这个词的意思。”
参考材料
alphago如何工作http://www . dcine/2016/01/28/alpha go/
自然论文:http://www . nature/nature/journal/v 529/n 7587/full/nature 16961
阿尔法戈论文阅读笔记
关于去http://zhuanlan.zhihu/yuandong/20364622的新想法
原文作者:董老师,如有转载,请注明出处
“读完这篇文章还不够吗?如果你也开始创业,希望你的项目被报道,请点击这里告诉我们!”
标题:深入浅出谷歌人工智能围棋 “大脑”
地址:http://www.j4f2.com/ydbxw/8234.html