AI能忆起昨天的你了但触景生情还有点难

2019-12-18 09:37:01来源：中国吉林网

人工智能要形成长期记忆，还需要脑科学、神经科学、心理学和行为经济学等多学科的交叉研究。

记住一些东西并能回忆起来，对于人类来说是与生俱来的能力。记忆可以让我们回忆过往之事，并基于此对未来做出决策。能否让AI智能体也做到这点呢?近日，谷歌旗下人工智能企业“深层思维”(DeepMind)提出一种方法，能够让智能体使用特定的记忆来信任过去的行为，并对未来做出正确的决策。相关成果发表于最新一期的《自然·通讯》上。

那么，目前我们让AI产生的记忆和人类的记忆是一回事吗?人工智能可以用什么方法产生记忆?与以往相比，此次“深层思维”提出的新方法有何不同?在赋予人工智能记忆方面，我们尚需做哪些努力?

四种方法让AI产生“记忆”

记忆是我们对过去的经历进行编码、存储、回忆等的能力。一般而言，可以将其视为利用过去的经验来影响当前行为的能力。它使人类能够学习以前的经验并与现在的实践建立联系。

生活中那些感动我们的人或事往往会触发回忆，也就是我们通常所说的触景生情。“人类的长期记忆实际上是呈现多模态、场景化特征的，即一个记忆事件在存储时包含多个维度，触发某个维度就可以快速找到线索并进行回忆。”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲在接受科技日报记者采访时表示，但人们往往高估了记忆量，其实我们的记忆容量很有限，所以人类记忆本身是高度抽象的，在记忆时我们通常选择对事件进行特征提炼，其中有好多要素只是概况并且是模糊的。如回忆电影，我们不会精准地回忆一帧一帧的完整成像，但如果类似场景再现，我们就会回想起之前的一幕。

在以往的研究中，采用什么方法可以让AI产生回忆?

谭茗洲介绍说，比较常用的有四种方法:第一种是长短期记忆网络。它是由一个被嵌入到网络中的显性记忆单元组成，功能是记住较长周期的信息。这一技术主要被谷歌、亚马逊和微软等公司用于语言识别、智能助手等。第二种方式是弹性权重巩固算法。这种算法主要用于序列学习多种游戏。“深层思维”采用的就是这种与记忆巩固有关的算法，目的是让机器学习、记住并能够提取信息。第三种方法是可微分神经计算机，这种计算机的特点是将神经网络与记忆系统联系起来，并像传统计算机一样存储信息，还可从例子中进行学习。第四种方法是连续神经网络，主要用于迷宫学习，解决复杂的连续性任务，同时可以迁移知识。

解决长期信用分配问题是关键

那目前，AI产生的记忆与人类的记忆是一回事吗?谭茗洲答道:“目前AI的记忆仍只是停留在将学习所获得的信息进行编码、存储，进而转化为认知的过程。以前的做法只是让AI将所发生的一切悉数存储，然而记忆与存储是有区别的，记忆是为了能够有效回忆。人类回忆的方式，往往是跨各种阈界的，如通过某个品牌忽然想起某个事。因此，要让AI智能体对过去所发生的一些事情，判断该不该记忆，关键要采取一些方法令其做出评定，达到人类回忆的效果。”

要让AI能够实现回忆过去的事情，涉及到长期信用分配问题:即如何评估行为在长期行为序列中的效用。但人工智能现有的信度分配方法无法解决行为与结果之间存在长时间延迟的任务。

据介绍，人工智能的研究中，在一个长序列内评估个人行为的效用问题，被称为信用分配问题。该评估可以对过去的行动或计划的未来行动进行评分。

谭茗洲解释道:“具体在强化学习中，智能体获得指导的唯一途径是通过奖励，而奖励通常是稀疏和延迟的。当智能体得到奖励时，很难知道哪些行为应该被信任，哪些该被责备，这就是信用分配问题。”

此外，谭茗洲介绍道，想让AI像人类那样产生回忆，首先需要让AI学会情景记忆以及自传式记忆。AI之所以很难做到这点，是因为情景记忆和自传式记忆有着非常强的个体体验特性。情景记忆与自传式记忆一旦和当事人割裂开来，就失去了生命力，对于机器而言，这很难想像。毕竟对于机器而言，精神可以独立于物质存在，体验可以独立于主体存在。此外还要防止机器可能出现的灾难性遗忘。认知心理学研究表明，人类自然认知系统的遗忘并不需要完全抹除先前的信息。但是对于机器而言，遗忘就是灾难性的，即需要抹除先前的信息。

与人类复杂记忆相比仍是初级阶段

据谭茗洲介绍，此次“深层思维”提出将范例建立在深入的强化学习基础上，并引入长期信用分配的原则。首先，智能体需编码并存储感知和事件记忆;然后，智能体需通过识别和访问过去事件的记忆来预测未来的回报;再有，智能体需根据其对未来奖励的贡献来重新评估这些过去的事件。这样可让智能体使用特定的记忆来信任过去的行为，并对未来做出正确的决策。

为了做到这一点，“深层思维”论文显示，其做的首要工作是形式化任务结构，主要包括两种类型的任务。具体而言，在第一种信息获取任务中:一阶段，智能体需在无即时奖励情况下探索一个环境来获取信息;二阶段，智能体在很长一段时间内从事一项不相关的干扰任务，并获得许多附带奖励;三阶段，智能体需利用一阶段中得到的信息获取远端奖励。

在第二种因果任务中:一阶段，智能体需采取行动触发仅具有长期因果关系的某事件;二阶段，同样是一个干扰任务;三阶段，为了取得成功，智能体需利用一阶段活动引起的环境变化来获得成功。

而在研究这种结构的完整任务之前，研究人员考虑让智能体实现一个更简单的被动过程的任务——“被动视觉匹配”，即智能体不用采取任何主动措施去采集信息，如同一个人在街上走路，不经意间就观察到某些信息一样。

“深层思维”的论文呈现一个打游戏过程中的简单场景，并让AI智能体对探索过的路径及攻略进行记忆，当然与人类复杂的记忆机制相比，还是相当初期的阶段。

谭茗洲强调，正如论文所述，新方法的范式拓宽了AI研究的范畴。这是一个有趣的话题，涉及人脑科学的研究，以及神经科学、心理学和行为经济学等多学科交叉研究的尝试，今后还有很长的路要走，需要更多开放性的探索。