学习世界模型,通向AI的下一步:Yann LeCun在IJCAI 2018上的演讲(2)

2018-07-19 00:00:43



为什么要强调记忆建模的重要性呢?在强化学习中,无模型的强化学习训练需要大量的尝试才能学会一项任务。



因此此类方法在游戏中表现良好,如 FAIR、DeepMind、OpenAI 等之前都已在许多游戏上实现接近甚至超越人类的 AI 系统,但这些系统并没有达到现实应用的水平。



因为现实环境远远比游戏中的环境要复杂得多,无论是变量复杂度还是不确定性方面,对此,无模型的强化学习系统面对的探索空间是相当巨大的。而且,不像 AlphaGo 那样可以在计算机上模拟成千上万次比赛,现实世界环境是无法被「加速」的,有些试验还涉及很大的风险,这也大大限制了系统的训练资源。



那么目前来看,人工智能到底缺少了什么?监督学习需要太多的样本,强化学习需要太多的尝试,AI 系统缺乏常识。



Yann LeCun 总结了一下这两类系统的缺点:缺乏独立于任务的背景知识;缺乏常识;缺乏预测行为后果的能力;缺乏长期规划和推理的能力。简言之就是:没有世界模型;没有关于世界运行的通用背景知识。用更一般的语言来讲就是,目前的机器无法在心里想象(表征)世界,而只是像僵尸一样被气味驱使着(无意识地)行动。记忆建模只是一方面,建立完整的世界表征才是我们真正需要的。



在现实应用层面,Yann LeCun 总结道,利用现有的监督学习和强化学习技术,我们可以在自驾汽车、医疗图像分析、个性化医疗、语言翻译、聊天机器人(有用但还很蠢)、信息搜索、信息检索、信息过滤以及其它领域中取得不错的进展,但仍然无法实现常识推理、智能个人助理、智能聊天机器人、家庭机器人以及通用人工智能等。



然后,Yann LeCun 指出我们可以从婴儿的学习方式上获得启发。婴儿对外部世界的概念学习大部分是通过观察,仅有小部分是通过交互,而视觉比触觉、体感等能捕获更多、更完整的外部信息。那么机器如何做到这一点?其实,这种情况不止发生在人身上,动物也是如此。LeCun 随后展示了一幅婴儿和大猩猩观看魔术的图,并解释说,当违反世界模型,也就是当我们观察到一些不寻常、与世界模型不匹配的东西时,我们的注意力就会被调动(如婴儿和大猩猩看到魔术表演会大笑就是因为世界模型被违反了)。



接下来,LeCun 解释了突破强化学习现状的解决方法:自监督学习,它能通过输入的某一部分预测其它部分。在空间层面上包括图像补全、图像变换等,在时间层面上包括时序数据预测、视频帧预测等。



Yann LeCun 总结了三类学习范式,分别是强化学习、监督学习和自监督学习,相比于强化学习和监督学习,自监督学习将输入和输出当成完整的整体。它们的区别和联系在于反馈信息的逐渐增多,模型表征复杂度、适用任务类型也大幅增加,同时任务中涉及的人类工程比重也大大减少,意味着自动化程度的增加。



LeCun 还用之前经常使用的蛋糕比喻来说明三者的关系,之前蛋糕胚代表的是无监督学习,现在则被换成自监督学习。



Hinton 在自监督学习领域探索了多年,LeCun 之前一直持怀疑态度,现在终于认可了这个方向。



机器学习的未来不会是监督学习,当然也不会纯粹是强化学习,它应该是包含了深度模块的自监督学习。



那么下一个问题是,自监督学习能够产生一般的背景知识吗?这里重点是模型需要推断出背景知识,它需要从真实世界收集的背景知识推理出当前它希望预测的任务。如下 LeCun 举了一个例子,如果接收到一个自然语句,模型应该推断出当前场景的各种背景知识。



对于基于模型的经典最优控制,我们可能需要初始化一个序列来模拟世界,并通过梯度下降调整控制序列来最优化目标函数。而目前我们可以通过强化学习的方式模拟世界,这些模型不仅需要预测下一个可能的动作,同时还需要预测一系列可能的未来。


上页123下页

点击展开全文
相关推荐
本站文章来自网友的提交收录,版权归原作者所有,