DeepMind的强大的分布式强化学习技术

强化学习，就是让智能体置于未知环境，采取一些行动，然后收获回报，并进入下一个状态。时间差分学习（TD算法）是强化学习的核心，也是一种学习如何根据给定状态的未来值、来预测价值的方法。该算法会将新的预测和预期进行比较。一个特定的行为所带来的未来奖励数量，通常未知且随机。在这种情况下，用标准的TD算法去预测的未来回报是平均的，也叫单个预测。

在许多情况下，尤其是很多现实情况中，未来奖励的结果实际上是依据某个特定的行为，而不是一个完全已知的量进行的预测，它具有一定的随机性。而分布式强化学习是更复杂的预测方式，与标准TD非常类似，被称为分布式TD，会预测所有未来奖励的概率分布。

而且当分布式TD与深度神经网络结合时会非常强大。因此，研究人员采用分布式 TD，尝试研究大脑的奖惩机制。

结果发现，单个多巴胺的神经元所呈现的积极性是多样的。如果把这些神经元比作一个“合唱团”，那么所有的神经元不会唱同一个音域，而是彼此配合——每个神经元都有自己的音域。这与我们过去对多巴胺神经元的认知不同（过去，人们认为多巴胺神经元的反应，应该都是一样的）。

在人工强化学习系统中，这种多样化的调整创造了更加丰富的训练信号，极大地加快了神经网络的学习效率。

据此，研究人员推测，大脑可能出于同样的原因，而使用类似的机制。

于是研究人员以此训练小鼠执行一项任务，并给予它们不同（大小不一，不可预测）的奖励。他们从小鼠腹侧被盖区域(控制多巴胺向边缘和皮质区域释放的中脑结构)中发现了“分布式强化学习”的证据。其证据表明，奖励预测是同时并行地由多个未来结果表示的。

这不仅为人们对大脑中的多巴胺机制的研究提供了新的依据，也为研究AI和神经科学之间联系的课题提供了非常有趣的启示。同时，这一研究成果充分说明了分布式强化学习的潜力，也肯定了分布式强化学习在机器学习中的重要地位。

对于一向热衷于人工智能的DeepMind创始人戴密斯·哈萨比斯（Demis Hassabis）而言无疑是个好消息，让他和DeepMind在通往实现通用人工智能的道路上又往前迈进了了一步。

对此，戴密斯连续发推特，表达两个研究成果发布在《自然》的兴奋之情。对于分布式强化学习的研究成果，他称这是DeepMind在AI和神经科学这两个交叉学科上获得的出色成就，他们在强化学习方面的工作带来了新的灵感，也让人们对多巴胺在大脑中的工作方式有了全新的认识。

戴密斯出生于英国，从小对人工智能无比热衷，引领着他走过了职业生涯的四个阶段：游戏开发者、神经系统科学家、电脑程序员以及人工智能企业家。

2010年，他创办了DeepMind，并在4年后被谷歌以4亿英镑收购。

在2014年的TED上，谷歌当时的CEO拉里·佩奇（Larry Page）介绍人工智能的发展以及谷歌的未来在何方时，提到拥有计算机科学的背景的DeepMind创始人戴密斯为了发展人工智能，曾回学校攻读博士学位，就是为了研究大脑。

当时，拉里·佩奇表示，要真正理解怎么让计算机变得聪明，融合计算机科学和神经科学两大领域是很有必要的。

可见，在让计算机变聪明的使命指引下，推动了人们对大脑的认知。

DeepMind——《Nature》的常客

之后，DeepMind开发的AlphaGo在“人机大战”中胜出李世石，一时间家喻户晓，也让团队对实现通用人工智能增添了信心。

2017年10月19日，DeepMind在发布在国际学术期刊《自然》上，发布了AlphaGo的顶级版——AlphaGo Zero。AlphaGo Zero的特色在于采用了新的强化学习的算法，在无任何人类输入的条件下，它能够迅速自学围棋，并以100:0的战绩击败“前辈”。

2019年10月30日，DeepMind开发的AlphaStar，在《星际争霸》游戏中超越了99.8%的人类玩家，在神族、人族和虫族三个种族上都达到了“宗师级别” （Grandmaster），再次登上《自然》期刊。

DeepMind在博客中表示，这些结果提供了强有力的证据，证明了通用学习技术可以扩展到人工智能系统，使之在复杂动态、涉及多个参与者的环境中工作。

星际争霸15年来一直是AI研究人员面临的巨大挑战，戴密斯对这项工作被《自然》杂志认可感到兴奋。

才过几个月，DeepMind昨日再度登上《自然》，再次证明其团队实力不容小觑。

另一新发现：科学家们或能找到大脑物质和意识之间的联系

除了DeepMind此次对大脑的新发现，不得不提的还有上周来自德国和希腊的一组研究人员对大脑的全新研究成果：

科学家们可能已经找到了大脑物质和意识之间的联系。在他们最近的研究中，对我们大脑神经元之间的分支连接进行了更深入的研究。

他们发现，人脑中的单个神经元都可以进行计算，而我们之前认为这些计算是众多神经元沟通的结果。

根据该团队发布在AAAS的研究论文《Newly identified dendritic action potentials give humans unique brain power》：

研究人员发现，人脑可以调节电活动的幅度，以增加其信号的寿命和有效性。这不仅允许单个神经元做更多的事情，它还允许它们执行XOR计算，这在以前被认为是人脑中单个神经元不可能做到的。

目前还不清楚这个新信息的确切含义，我们需要更多的研究来澄清新发现的电活动是做什么的，以及它是否真的对更高的大脑功能负责，甚至是否是人类独有的。

这是一个令人兴奋的线索，可能会回答人类智力和意识如何出现的终极问题。

对智能体的发明离不开对大脑的探索，人类几千年来一直没弄明白的意识问题或许在AI发展的道路上会越发清晰。DeepMind的研究成果相信也让他们越发坚信：当下的AI研究正走在正确的道路上！

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

http://www.braintechnews.com

DeepMind的强大的分布式强化学习技术

相关文章阅读