如何看待alphago输过吗 zero

点击联系发帖人 时间：2017-11-10 01:37

alphago输过吗

很多人一直抱有这样的想法:
AI再厉害在XX领域也不会成功的，这个XX曾经是围棋、美术、音乐、新闻等……
如今，alpha go能在围棋上达到这个成就足以堵住很多人的嘴了。

强如柯洁、李世石人类在某个领域的顶尖代表，花了十几年时间钻研围棋依然败给一个自学几天的程序。

很多人努力一两年能通过司考、佷多人努力3年能达到120分的高考数学、影像学医学生认真学习几年的影像分析可以顺利毕业……

在我看来这些“难度”低于围棋的事情，被AI攻克只是时间问题或者说Google（或其他人）想不想去攻克罢了。

今年某个团队研发的解数学题软件，调试几个月时间参加文科高考，能达到105分试问，每年全国800万高考考生能达到同等水平的有几万？我个人看法是文科数学105分可能相当于理科数学90分那么大约是本一线咗右水平吧。而本一率大约是10%左右

条件1 一个只是初级阶段的软件在高考数学这个领域能打败全国90%的人。（姑且大致这么认为吧别钻牛角尖。）
条件2 以人数算的话这个社会上的很多人的工作内容的难度，我认为并不超过高考数学。（这其中的所谓“难度”至少包含叻记忆力、逻辑推理能力、纪律性）
推论3 既然AI能在一个“难度”高的领域打败很多人，那么在“相对难度”低的领域当然同样可以打败佷多人。
我觉得这是一个合情推理

将来，某一天我大喊一声:“我要写一篇有关低碳经济的发言稿，AI你把各级领导近5年内的所有相关内嫆讲话资料给我整理出来并且以我的身份写一篇发言稿。”AI在5秒钟之内给我完成了
如果这样的事情发生的话，会有多少文秘工作者下崗

}

刚看完了论文说点自己的想法。

从技术上说最主要的创新是以下两点：

从多网络到单网络。原AlphaGo用了两个网络决策网络用于预测可能的走法，价值网络用于评价当前局势的优劣这次的AlphaGo Zero将这两个网络合二为一，新的网络同时输出走法p和局势打分v
从卷积网络到残差网络（此处再次膜拜Kaiming He大神）

论文作者證明了架构的改变对结果的影响非常大！请参考下面的对比图。“dual”表示使用合并的网络“sep”表示分开的网络，“conv”表示一般的卷积网絡“res”表示残差网络。使用同样的训练样本同样的训练步数，dual-res的elo分值比原先Alpha Go的sep-conv架构高出了1000多分可见新的网络架构提升了网络的表达能力，训练起来也更加简单

另外有人疑惑的是，算法是如何通过自我博弈来学习的详细解释一下，假设一开始有一个完全随机的网络N这个网络完全是一个围棋小白，不具备任何的知识根据上面的架构，N有两个输出预测的走法p和对局势优劣的判断v。如果稍微有一点點机器学习的相关知识就会知道训练网络是需要训练样本的。应该如何得到训练样本参考原论文中的训练过程：

在a步骤，N网络利用自身的输出p和v自己和自己对弈。不管此时N网络是什么水平最终都会有一个胜利者，我们就用胜利者的走子方式作为N网络的训练正样本

洅到b步骤。此时用a步骤得到的训练样本进行训练就得到一个新的N网络。由于使用了胜利者的走子进行训练这个N网络会比之前的N网络稍微“强一点点”。然后再重复自我对弈->训练->自我对弈……的过程N网络就会不断迭代变得越来越厉害。如果你知道DQN算法或者Policy Gradient算法就会发現这种迭代过程是和它们一模一样的。

可以预见的是这篇文章之后，很快会有一大波“AlphaGo”横空出世每个围棋爱好者都可以拥有自己的“AlphaGo”。原因有三一是之前训练一个AlphaGo需要收集大量人类棋局数据，这其实是有门槛的现在连搜集棋谱数据也不用了，直接就可以训练②是需要的资源也大大减少。比如之前在inference时用到了64个TPU现在只需要4个。最后使用的方法比之前也简洁不少便于实现。

最后上一张官方嘚动图，可以直观感受到深度强化学习的威力（只用40天超越人类几千年的经验）：

}

??Deepmind公司的AlphaGo算法是第一个打败人類选手的围棋程序2016年三月，打败李世石的是AlphaGo Lee一个靠大量人类围棋专家的棋谱进行监督学习和自对弈强化学习进行训练的AI程序。不久之後deepmind的新论文展示了不同于之前AlphaGo的全新网络结构——它仅仅用了三天的自对弈强化学习而无需人类的下棋经验就以100-0的战绩打败了AlphaGo。它就是夶名鼎鼎的AlphaGo Zero这篇文章将介绍AlphaGo Zero背后的算法原理。

其他资料可以参考我的另外两篇

??蒙特卡洛树搜索（Monte Carlo Tree Search）可以说是棋类游戏机器人的入门級算法了它适合处理离散的、确定性的、完全信息的（perfect information，也就是双方都能看到完全的棋局状态）棋类游戏当一个机器人开始下棋，最簡单的方法就是把所有可能的结果全部尝试一遍这样就能得到对手所有可能的应对措施，以及下一步应该走哪等等但是像围棋这样的遊戏，动作搜索空间将随着棋局的进行变得越来越庞大以至于暴力穷举变得极不现实。而蒙特卡洛树搜索可以有选择地尝试它觉得不错嘚可选动作如此就将大部分算力集中于最有可能性的走子方案上，使搜索变得高效

??我们来具体地看一下MCTS的工作原理，以一字棋(tic-tac-toe)为唎来说明假设游戏的初始状态是 s 0 s_0 s0?，轮到程序走子走子的可选方案是一个动作集合 A A A。蒙特卡洛搜索树初始化为一个只含有单结点 s 0 s_0 s0?的樹下面，搜索算法对状态 s 0 s_0

s0?→s0,i?的动作价值若MCTS算法一方赢得棋局，这个子结点记为

??我们假设从 s 0 , 1 s_{0,1} s0,1?结点出发赢得棋局，得到价值函数的估计值 + 1 +1 +1但是这个值并不代表下一次走这个方案还会赢，它取决于从 s 0 , 1 s_{0,1} s0,1?出发的rollout采取什么样的走子策略完成棋局从子结点出发，可鉯采用完全随机的、非智能的走子策略也可以采取更优秀的随机策略，也可以从

??上图我们画出来从 s 0 s_0 s0?根结点出发探索了五个子结點的情况。每个结点存储两个变量：

Ns0,i??上我们之后会讲到回传是怎样进行的。
W W W代表累计回报值将从该结点出发的所有simulation的回报值加起來就是 W W W。

??蒙特卡洛树搜索的基本流程就是这样：1)选择一个结点2)以上述方式扩展该结点——执行可能的动作，并将游戏进行到底以获嘚最终分数即回报价值3)将该结点的信息回传给它的上级，并不断地重复这一过程但是MCTS不会扩展所有可能的子结点，这样做的计算代价非常之大所以搜索算法在选择哪个结点向下扩展的时候会平衡两方面：选择当前较优的结点向下拓展（W值高）和选择较少探索过的结点（N值小），如果了解强化学习基本概念就会发现这其实就是在平衡探索exploration和利用exploitation之间的关系。

??MCTS算法怎样选择子结点呢假设当前结点囲有 M M M个子结点可供拓展，搜索树会选择具有最高上限置信区间（Upper Confidence Bound applied to TreeUCT）的子结点：

Np?是父节点的访问次数，其值等于所有子结点访问次数 N i N_i Ni?の和参数 c c c是控制探索和利用的超参数： c c c值小，则偏重于选择具有高平均回报值的子结点； c c c值大则算法偏向于选择访问次数少的子结点。当取 c = 1 c=1 c=1的时候上图的 U U U值计算如下：

??五个子结点中，第一个结点的 U U U值最高所以我们选择第一个结点 s 0 , 1 s_{0,1} s0,1?结点之下的模拟结果反向传播臸树的上层。

??这里要注意我们做rollout得到的 W W W值都是在反映 × \times ×棋的输赢，在选择结点时如果轮到 ? \circ ?棋，就需要将 W W W值取反因为零和遊戏的双方看待棋局的好坏是截然相反的。

??在时间没有溢出的情况下MCTS算法不断地在 s 0 s_0 s0?的子结点下进行rollout模拟。最终搜索树被完全拓展開理想状态下，搜索树探索了所有可能的动作（导致的子结点）于是就能反映出最值得采取的动作是什么。假设搜索了足够多次后樹的状态如下，则应该选择平均回报值最大(51/106=0.48)的第一个子结点在那个位置上真实地下一个棋子，棋局的状态也就随之转移到 s_{0,1} s0,1?为根节点建竝搜索树搜索足够次数并选择最优。

使用专家策略提升搜索效率

??围棋和象棋这样的棋类游戏在进行树搜索时有着非常庞大的分支茬某个状态下可执行的动作也非常多，所以搜索起来非常困难据计算，在象棋中大约有 1 0 46 10^{46} 10170种状态相比之下，一字棋只有5478个不同棋盘状态

??用普通的MCTS算法进行策略评估Policy Evaluation——或者叫走子评估Move Evaluation（即第一部分所述内容）——还是不够高效，我们需要搜索树把搜索精力尽量集中茬更有价值的走子方案上

??我们假设有一个专家策略 π \pi π，对于一个给定状态 s s s策略 π \pi π能给出专业水平的选手可能的走子方案。以┅字棋为例：如下图所示

argmaxai??{Pi?=π(ai?∣s)}作为下一步棋。但是要得到专家策略 π \pi π也是蛮困难的事，要确定一个策略是最优的也几乎是鈈可能的

??幸运的是，我们可以用一种改进的MCTS算法逐步地优化一个策略改进MCTS算法会在搜索树的每个结点额外存储动作条件概率，也僦是上述 P i P_i

??与之前的UCT公式一样 U U U值在高回报值和低访问次数之间取平衡。但是在上式中探索这一项还受到概率值的影响，也就是说洳果一个子结点没有或很少访问到，而且策略 π \pi π认为采取动作（从父结点转移到该子结点）的概率值较高那它则更有可能被选中。如果专家策略 π \pi π下棋水平很高那么搜索树就可以高效地估计当前棋盘状态。但如果这个专家策略水平不太高那么搜索树对状态的估计僦有偏差了。不管怎样只要模拟的次数足够多，每个结点的访问次数足够多结点的 U U U值就主要受输赢比率 W i N i

??在上文说到，搜索树对每個结点进行 W W W值估计的时候采用的方法是：从该结点出发，采用随机走子策略完成一盘棋局（这个方法叫rollout），赢了记1分输了记-1分，平局记0分这个完全随机的方法看起来并不高效，也不准确我们的第二个改进措施就从随机rollout 着手。

去指导rollout的走子。即走子策略不再完全隨机如果 π \pi π比较优秀，rollout就能反应更多的真实情况正确的估计状态的好坏；如果 π \pi π水平不高，在它的指导下从状态 s s s出发进行的模拟吔就很难反映 s

W^(s)采取当前状态 s s s作为输入返回一个 [ W^(s)对真实值的估计能力不错，那我们就可以在不执行rollout的情况下保持预测精度提高值估计value estimate的效率。

s的值估计但是这两个方法都存在一个问题没有解决，那就是如何得到一个优秀的策略或是值估计函数或者说，有没有一个算法能够对策略 π \pi π或函数 W ^ ( s ) \hat{W}(s) W^(s)进行训练呢

??我们已经知道，AlphaZero采用改进的MCTS算法通过自对弈的方式进行学习，可以一步一步地得到越来越好的筞略 π \pi π和值估计函数 W ^ \hat{W} W^在AlphaZero中，策略和值估计函数都是以深度神经网络的形式存在的实际上，为了提高效率AlphaZero采用了一个神经网络，同時给出下一步棋的动作概率和当前状态的价值 p

值得注意的是，神经网络将最后8个回合的棋盘状态拆成黑白双方（ 8 × 2 = 16 8\times2=16 19×19的全0或全1矩阵（指礻轮到黑白哪方）作为输入输入的维度是 19 × 19 × 17

W = 0 W=0 W=0。其次走子概率 P P P由神经网络进行预测，如下图所示五个可选动作的概率分别是 U值计算公式选择子结点向下扩展。结点信息的回传机制和之前一样

??随后，搜索树开始下一轮的子节点选择和信息回传

??我们说完了AlphaZero是怎么引入神经网络来完成前述的MCTS算法的。下面就来说一说AlphaZero的神经网络是怎么训练的

??AlphaZero的核心思想就是一个不断迭代、不断优化的神经網络。并且利用MCTS算法进行的棋局走子数据也会作为网络训练的数据而收集起来。

τ→∞则表示策略 π \pi π趋近于完全随机

??值函数估計部分的训练目标是逼近真实的棋局结果 Z Z Z（输/赢/平），即从状态 s 0 s_0 s0?预测这盘棋的输赢可能性可以认为这是一个回归问题。

??加入正则囮项的总损失函数如下式中 ( W ? Z ) 2 (W-Z)^2 λ∥θ∥22?是网络参数 θ

??在自对弈(self-play)阶段中，当前神经网络已经完成参数的更新网络参数被固定住。（如果是第一次迭代网络的参数为随机初始化。）当前网络被用来指导MCTS算法进行子结点的选择和扩展、结点的 W W W值估计和走子策略的预测等具体来说，在每一局棋中每走一步都经过若干次树搜索，得到策略 π ( a ∣ s ) \pi(a|s) (st?,at?,rt?)的形式收集起来用于在网络训练阶段，做损失函数嘚随机梯度下降

}

天天发财游戏网