学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲(2)

2018-07-19 00:00:43

为什么要强调记忆建模的重要性呢？在强化学习中，无模型的强化学习训练需要大量的尝试才能学会一项任务。

因此此类方法在游戏中表现良好，如 FAIR、DeepMind、OpenAI 等之前都已在许多游戏上实现接近甚至超越人类的 AI 系统，但这些系统并没有达到现实应用的水平。

因为现实环境远远比游戏中的环境要复杂得多，无论是变量复杂度还是不确定性方面，对此，无模型的强化学习系统面对的探索空间是相当巨大的。而且，不像 AlphaGo 那样可以在计算机上模拟成千上万次比赛，现实世界环境是无法被「加速」的，有些试验还涉及很大的风险，这也大大限制了系统的训练资源。

那么目前来看，人工智能到底缺少了什么？监督学习需要太多的样本，强化学习需要太多的尝试，AI 系统缺乏常识。

Yann LeCun 总结了一下这两类系统的缺点：缺乏独立于任务的背景知识；缺乏常识；缺乏预测行为后果的能力；缺乏长期规划和推理的能力。简言之就是：没有世界模型；没有关于世界运行的通用背景知识。用更一般的语言来讲就是，目前的机器无法在心里想象（表征）世界，而只是像僵尸一样被气味驱使着（无意识地）行动。记忆建模只是一方面，建立完整的世界表征才是我们真正需要的。

在现实应用层面，Yann LeCun 总结道，利用现有的监督学习和强化学习技术，我们可以在自驾汽车、医疗图像分析、个性化医疗、语言翻译、聊天机器人（有用但还很蠢）、信息搜索、信息检索、信息过滤以及其它领域中取得不错的进展，但仍然无法实现常识推理、智能个人助理、智能聊天机器人、家庭机器人以及通用人工智能等。

然后，Yann LeCun 指出我们可以从婴儿的学习方式上获得启发。婴儿对外部世界的概念学习大部分是通过观察，仅有小部分是通过交互，而视觉比触觉、体感等能捕获更多、更完整的外部信息。那么机器如何做到这一点？其实，这种情况不止发生在人身上，动物也是如此。LeCun 随后展示了一幅婴儿和大猩猩观看魔术的图，并解释说，当违反世界模型，也就是当我们观察到一些不寻常、与世界模型不匹配的东西时，我们的注意力就会被调动（如婴儿和大猩猩看到魔术表演会大笑就是因为世界模型被违反了）。

接下来，LeCun 解释了突破强化学习现状的解决方法：自监督学习，它能通过输入的某一部分预测其它部分。在空间层面上包括图像补全、图像变换等，在时间层面上包括时序数据预测、视频帧预测等。

Yann LeCun 总结了三类学习范式，分别是强化学习、监督学习和自监督学习，相比于强化学习和监督学习，自监督学习将输入和输出当成完整的整体。它们的区别和联系在于反馈信息的逐渐增多，模型表征复杂度、适用任务类型也大幅增加，同时任务中涉及的人类工程比重也大大减少，意味着自动化程度的增加。

LeCun 还用之前经常使用的蛋糕比喻来说明三者的关系，之前蛋糕胚代表的是无监督学习，现在则被换成自监督学习。

Hinton 在自监督学习领域探索了多年，LeCun 之前一直持怀疑态度，现在终于认可了这个方向。

机器学习的未来不会是监督学习，当然也不会纯粹是强化学习，它应该是包含了深度模块的自监督学习。

那么下一个问题是，自监督学习能够产生一般的背景知识吗？这里重点是模型需要推断出背景知识，它需要从真实世界收集的背景知识推理出当前它希望预测的任务。如下 LeCun 举了一个例子，如果接收到一个自然语句，模型应该推断出当前场景的各种背景知识。

对于基于模型的经典最优控制，我们可能需要初始化一个序列来模拟世界，并通过梯度下降调整控制序列来最优化目标函数。而目前我们可以通过强化学习的方式模拟世界，这些模型不仅需要预测下一个可能的动作，同时还需要预测一系列可能的未来。

上页 123 下页

点击展开全文