强化学习：通用人工智能的基石-第三届未来网络发展大会

当前位置：嘉宾致词> > 分论坛六

强化学习：通用人工智能的基石

发布时间：2019.05.27 编辑：共浏览：838次

非常荣幸今天到我们搞网络的专场。我今天想跟大家交流是我的一个学术研究方向强化学习，跟大家交流一下在未来人工智能里面的作用。看一个非常简单就是我个人的介绍。这是我个人一些情况。也谈到就是我们在2017年吴文俊人工智能自然科学二等奖，这一次于老师让我代表奖励办来做一下选择。

下面正式一个报告。主要从以下几个方面，时间关系我会比较快速过一下。首先看一下强化学习产业和创业，介绍一下公司，（英文）大家最熟悉的，我们在2007年在欧洲（英文）会上跟他们有交流，当时觉得他们做的跟我们没有什么差异，到2014年被谷歌收购。除此之外（英文）还有另外一家美国公司叫OSARO，两个大学教授创业的。苹果收购一个英国公司，以前苹果语言接口很难用的，收购了之后提高了85%，这个公司是强化学习技术跟语音结合起来是非常好的。在日本有两家公司，丰田投资另外一家这是日本市值最高的公司，主要也是用在自动驾驶以及AI制造业上面一些应用。在去年6月份微软收购的（英文），这个公司收购没有对外透露，包括在微软的一个战略定位也没有对外公布。我们举几个例子，医疗上的问题，医生对治病就是一个决策的过程，根据症状然后根据反馈做决策，因此是跟学习模型是非常吻合的，在这里面怎么把学习技术引入到医疗当中，国内外做了很多探索。在驾驶上就不说了，包括在智能机器人包括工业机器人也用的非常多。自然语言上这几年基本上我们从深度学习过渡到强化学习结合到自然语言去，我这样举一个例子多轮问答，知道吴教授电话吗？他说我知道啊，能告诉我号码吗？我能啊。就是说我们人自然语言上的问话是一种任务，是带有目的性的，想要知道这个问题求解，而不是一个简单做PK，这是一个非常有趣的问题。

在金融上还有物联网应用就更多了，1月份的时候阿里巴巴出了一个橙皮书，强化学习对整个平台支撑度，现在推荐都是采用学习技术推荐的，推荐教科书上做的一些方式。这是（英文）在收购之前有一个白皮书，在制造上整个行业里面可应用的范围，包括在产业自动化上，这里面就是一个对一个优化问题，优化问题特别是在大规模场景里面时候优化已经变成一个分布式优化，第二个控制问题第三个监测和维护，工业场景里面都是重设备的，对于设备这样一个维护是非常重要的，而传统包括我们开车开车到4S店让你5000公里去一次或者一年去一次，当你什么核心元器件需要保养，这就需要各种传感器的数据做一些预测性的维护，这是整个制造业升级是非常重要的。所以我们说从国际上来看强化学习和深度强化学习成为投资界最为追捧的人工智能技术之一。

刚才我提到我们在做研究，在早期跟学术研究上没有很大差距，为什么突然在产业上出现一个，我们也在跟国内外同行交流，有一点是非常重要的，也就是关于强化学习开源开放平台的问题。，过去十几年记忆学习技术得到一个长足发展，统计学习技术包括视觉上很多人像做人脸视觉场景这样依赖于有这样一个数据集，再有像（英文）这样一个开源框架出来，我们说把整个研究门槛降低，把产业应用门槛给降低，这样在产业上不需要那么多做科研人。这一点我们说在强化学习里面更为重视，之前做强化学习少的原因，因为强化学习是一个在线学习的技术，但你做推广化功能应用就很难。美国人像ALE环境开放出来，把所有游戏已经开放出来，以这个引擎作为这个技术测试平台。

再往后开放了（英文），这样我们人在玩游戏的时候第一人称视角看到的场景，这样的话天然的释放视觉和强化学习结合这样一个应用平台。如果是一个多维度的，军事上我们战争不可能天天发生，不可能从天天发生战争当中获得数据，进行模型的训练，怎么样发展学习技术呢？基本上就发展了一个（英文）。刚才谈到车，我们在座有企业界或者产业界的，我作为一个高校里面能不能做一些车的技术呢？可以用平台模拟器，可以做成本身技术的研究，在学校科研上做人才培养，技术前沿研究，才可以到工业界、产业界上去用他。后面还有一些其他就不多说，所以我们说到目前为止强化技术突然爆发之后是美国人在之前做了大量一些前期的工作，把这些平台以前都封闭像游戏场景，用这样开放游戏平台测试强化技术，这个平台打开来之后的话就使这个研究门槛就降低了，就让我们更多学生，更多研究者能够进去，当我们产业界用这个技术的话，我们人才队伍，人才供给，就会降低，所以这个产业才会兴旺。

这个词实际上在我们做AI领域我们实际上不太愿意讲的，（英文）团队一直在（英文）说他们要做通用人工智能，这个词我们做传统AI的人很忌讳的，因为这些概念早在五六年（英文）都已经讨论过了。现在在商业背景里面（英文）提出来通用人工智能就等于深度学习加强化学习，我们看这两个技术简单发展历程。深度学习大家这几年已经非常热了。这是最早的集成，到后来发展生五成网络，核心问题从数据上早就知道这个多成网络可以无线性逼近，问题计算不可解，没有BP反常算法，现在还有过程一些（英文）问题，更多还是一个计算问题，不是一个模型的问题。但是这个事情在2006年的时候就开始得到了一个突破，2006年开始采用（英文）训练的方法，到2008年提出（英文），一直到2012年最早这个东西不算干什么用，就在这个（英文）来做比赛，这个比赛一下就觉得第一。这个就是取得比较大的突破。这几个代表性，一个是做图象的CNN，你简单来讲CNN就是我们图象处理用最基本方式。RNN对时间序列数据进行梳理，再到DBN做的无监督训练，再到SAE，以及近两年更热的GAN。这些技术我们说本身并没有发展到非常完善的程度，有很多的问题仍然需要进一步的解决。

我们再从另外角度看强化学习历程，最早五六十年代都已经有强化学习早期算法在里面。强化学习跟统计学习最大不一样在哪呢？统计学习我们说是一个基于试教的学习，强化学习是一个试措的学习通过环境得到奖赏，得到一个求解认知方式。这个跟本质上团体学习有非常大的不一样。这里面最大问题就是说强化学习在工业上的应用或者在真正我们在用到实际当中里面，我们说原本模型简化太简单了，用（英文）进行建模，实际当中问题往往都是高维独，这个思路在2000年之前大家都这样做，只不过你用什么样的方式，用决策数还是用神经网络，无非就是这样一个东西。而这个东西现在来看大家不会用别的，只会用一个深度网络。我们看一下（英文）动态规划到1992年的（英文）提出来基本上代表这个算法本身来讲成熟了，就可以作为一个学科在发展了。但是到2000年之后的话我们才开始发现有更多一些（英文），从1999年，2009年就把一些（英文）问题结合起来，得出来一些相关算法。深度学习结合在什么时候？（英文）第一个人提出来，2013、2014年的时候发表（英文）文章，到2016年的（英文）提出来。三年时间用神经网络跟（英文）结合将近有十几年时间，大家一直在黑暗当中摸索，不知道能走向何方。这是一个简单的一个架构就不去多说了。现在基本上谈深度强化学习都以DQN模式，大家做一些贡献性的改变，我的学生也在做，所以觉得很无趣，所有地方科学性的东西都被别人做了。

这是另外一条基于策略的不多谈了。这样简单讲一下（英文）简单变化，2014、2015年文章就算科学技术再怎么反对他，工业界就是好用，所以我们也就是转过来用所谓叫（英文）理论问题。本身Alpha Go技术就是分线下学习和在线对应，线下学习通过一个监督学习，然后去学一个方法，再通过强化学习调这个网络，这里面一共有三个神经网络，每个网络有一个学习方法训练一下，最后拿这个网络训练在线下。最早不用一个视觉，不用视觉感知，用48个局部特征，这块棋有多少个，来做一个线性回归，这样做完之后，预测准确率接近60%，本身60%不足够，所以必须再用强化性的方法去调。大概是这样，调完之后就可以达到80%。这个就不去再谈细节了。Alpha GoZero有一个根本性的改变，我总结了一下第一个完全抛弃人类棋谱，不再需要监督信息，第二不需要人工特征，第三就是几个网络也不需要，只要一个神经网络，整个网络结构是基于一个深度的残差网络，而不是基于CN网络。大概就这样一个变化，所以这种模型比刚才架构要优惠的多。

最后跟大家介绍一下未来技术是什么，尤其在最近美国人又在对中国，我们还在想我们还是一定要再去跨越，第一个技术我们叫做迁移强化学习，也就是说我们经常会想我们从小被老师教育学东西举一反三，到底怎么样机器举一反三，或者训练一个Alpha Go无人驾驶它会吗？这里面我们就会讲什么样的任务能够迁移，迁移什么样的东西，如何实现迁移，人学会骑自行车，那自然而然就会学骑摩托车。这里面有一系列的方法在开始尝试，现在都还没有真正从理念上，技术体现上做一个完整架构。第二个多智能体学习，像无人机的协同，交通路口信号灯要采用集中式的控制，协同问题除了谈的通讯上的问题、网络上的问题，更大问题在哪？是在技术上的。为什么讲技术上呢？我举一个简单例子，在分布式一定会跟（英文）结合起来，（英文）大家知道计算是一个（英文）的问题，现在三个人要算纳税均衡，达到上百上千里面去做没有办法做这是一个很大的困难。这件事情图里面谈到国际上基本上采用（英文）作为测试场景，我们也在弄，但是总的来讲大家关注点会有点差异。目前来讲的话基本上大于3的冷扑机器是吓不过人的总的还是计算上会有问题。今年指南我们也在提可能会给科技部提人工智能经济平台。这个事情本身回到科研上来讲又是一个多层一体强化学习的问题，有一些新的方法出现。大家都会说高老师谈的问题是不是在游戏场景里面吗？我下面会说几个。

这些案例我就不方便透露是什么企业，什么出来的，但基本上大家可以看到强化学习在工业界应用面已经呈现出一种爆发的态势，这个不是一个电路板的布线，这是光纤，这个就是一个非常复杂分化的问题，以前靠工程师经验去调，现在有没有方法，在传播上或者算法上能够直接做自动部件。第二跟通讯网络有关的，各位做网络同事比我清楚。我们不管是小区网络还是什么过一段时间告诉我上行带宽多少，用一段时间网络速度就下来了，怎么把QS静态位置到一个动态位置，怎么去做，跟业务流程怎么调这个东西，这个东西不是一个静态东西，而是做一个在线（英文）配置。

在5G里面，5G计算上怎么样做这样一个算法的调度，任务的调度等等这些都需要技术引入进来。军事上就用的更多了，军事对抗，电子干扰等等这些，实际上就是一个军事的博弈，你怎么拆除对方的战术战略，怎么采用更好方式制约你。

所以我最后总结一下，通用人工智能是什么？尽管近两年AI比较热，我们作为传统做AI的人，AI目前仍然有很多挑战，我们基本上看在AR复杂场景上是不能使能的，多人决策环境，像足球队，几个机器人来协作，还有大量货币行为，再有像分布式优化场景里面，当然可以觉得在技术上感觉学习技术或者多成技术可以用到这些场景来，但是没有一个好的体系来做支撑，这是未来要发展AI的技术。

最后我们说尽管我们到目前基本上可以认可深度学习也可以解决很多的现在一些场景的问题，但是我们说到目前为止只能解决人的感知和人质的问题。但是人的创造性的问题，在目前基本上解决不掉的，这是我们认为未来人工智能要有大的发展一定会有新的理念的出现。这是我的报告，谢谢大家。