智能化互联网体系结构-第三届未来网络发展大会

当前位置：嘉宾致词> > 分论坛二

智能化互联网体系结构

发布时间：2019.05.24 编辑：共浏览：773次

大家好，非常高兴能有机会和大家分享一下我们的研究工作，我今天主要是想讲一下最近出现的人工智能和知识学习技术跟整个互联网体系相结合，我们互联网体系理论研究一些机会和挑战。

我们说互联网体系结构的话，一般指了两个事，一个数据平面、一个控制平面，我们数据平面一个是转发方式，用尽力而为的方式，尽管说尽力而为的方式，我们看到过去这些年提出新的未来网络体系结构，没有一个用这种方式，SSDN并没有挑战这一点。IP另外一个含义指以IP地址为核心的选址方式，这不是唯一一个做法，从产业届来说过去这些年群体方式最大的变化从IPV4，已经到IPV6，这是比较大的事情。

总体来说从互联网上来看，围绕数据平面的创新技术，虽然很重要，但是现在比较缓慢也比较困难，我们看互联网的控制平面，这一点提出了很多新的方案，前面MP20还是SDN，还有（英文）都是从控制的角度去对互联网体系做一些新的创新。

当前互联网路由控制这块，大家有约定俗成的做法，通过一些确定性的方法对网络进行建模，根据建模的结果对网络进行确定性的控制，这个确定性的控制做的话非常困难，为什么困难？我们知道互联网开始的时候，我们互联网实际上只是只要大概差不多一致的意见，通过可运行跑出来，大家说互联网本身并没有非常坚实的理论基础，（英文）首任主席讲过一段话，他最近几年把学习技术用到网络上来，他的意思非常直白，我们互联网开始就没有统一的，通过不断试错的方式搭建起来。

因为我们说互联网早期设计这样一种理论，（英文）的做法，跟我们网络建模的话带来很多，你在加上网络本来的规模非常大，不管是什么样的规模，并且流量动态性很强，能力出错，把所有因素考虑在一起的话，我们对互联网进行确定性的控制是非常困难，我们今天经常说互联网到底这样的问题、那样的问题，我们经常就非常简单的归结为IP的问题，我们想想真的是IP的问题吗？真的是IP问题，IP过去这些年不但自己互联网规模扩大，还到很多网络。

对于互联网采用确定性控制的这样一种做法，其实也让我们互联网今天使用起来非常低效，有很多问题的所在，可以举几个例子来看，一个是网络路由，在80年代一直有互联网用静态路由还是动态路由的争论，我们静态路看拓扑不看别的，网络脱铺并不是最优的路径。就是因为把动态路由考虑进来非常困难，我们增加的问题，所以说为了对网络进行确立性的控制我们选择了次优的做法，互联网这种静态路由的做法，静态路由会带来很多问题。

我们路由的时候考虑拓扑没有考虑流量状态，我们必须为可发生的流量做空间，这也是为什么骨干不高的原因，再有这个的话影响非常大，我们知道昨天也讲，现在很多网络的流量，尤其是数据中心之间的流量，50%甚至低于30%，也就是我们当初回过头想的话，我们要对网络做确定性的静态路由，导致我们在这个利用率上不能太高，我们要看一下拥塞控制。

我不知道大家是否知道今天（英文）里面，操作系统内核里面一共有多少个拥塞控制的协议，我们至少有十几万篇的论文，你做特别好才在内核里面，我们一共有19个，默认是（英文），还有另外18个（英文）协议，根据用户的需求再去启动它，为什么？为什么有这么多控制协议？就是因为每一个拥塞控制协议以特定场景设计的，就是说不可能是能适应所有的网络场景，也就是说我们当时设置协议的时候，基于确定性的规则设置，但是因为网络太复杂只能考虑一种场景，导致我们有这么多协议，还有用户的需求再配置。

我这里列了几个简单的协议，（英文），这里面有很多的超参数，我们想为什么会是这样的参数，像HSTCP里面，这种参数怎么来的呢？最早设计的时候做小规模的模拟，或者是小的环境下做的实验效果不错，作为一个确定性的规则写在这个协议里面，但是我们说这样一些超参数真的是最优的吗？很难这样讲对吧，最近这些年有很多方法去做控制的协议，我们发现拥塞控制性能有很大的提升空间。

我们再来看网络运维，这个可能对运营商和数据中心是更头疼的问题，我们特别尊重大型的网络公司为例，全球18万元员工里面6万多是网络运维，网络太复杂给运维带来的开销非常大。

今天网络运维的话做法是自动化的调本，人力决策在里面起到非常重要的作用，这样导致不但效率低下，运维的成本还高。还有网络安全，我们问题一直层出不穷，左边是2018年报道出来了运营商，每年都在发生，但是我们说网络安全为什么大家一直是市场重要的问题，也一直没法从根本上解决，当然也不可能解决，这是我们网络安全里面也是一样的，基于确定的规则写到网络设备里面，头痛医头、脚痛医脚，这个问题很难发现。

另一方面出了安全问题的话经常做外挂式的处理，处理效率也是相对比较低的，前面通过几个例子想说明，今天我们网络基于确定性规则的控制体验，实际上是导致网络存在很多问题的一个重要的原因，这几年机器学习技术发展这么快，我们看机器学习智能技术对我们有没有带来新的机会，这些学习我们本质上来说是很简单的事情，机器学习本身不是一个确定规则，完全是一种尽力而为，我有多少数据，我从数据当中挖取什么样的规则，我们基于这个对网络控制。

我们这些做法对网络控制能不能带来机会，带来什么样的机会呢？我觉得可能在很多方面对我们网络能力有一些提升，第一个就是（英文）算法，非常强的对于复杂特征识别的能力，可以让我们对网络感知方面的能力得到很大的提升，这样场景很多，流量类型识别，流量异常识别、故障识别，我们去做很难的，像我们算法对这样的网络感知带来新的机会。

第二点就是像RNN这样的算法，对持续数据超强的拟合能力，我们在网络里面做控制的时候，可以让我们去做一些预测，就是我们可以对一些流量举证做预测，对网络故障做预测等等。

第三个像（英文）数据挖掘的算法，它本身关联推理是非常强的，所以说可以帮助我们做一些网络分析，像网络故障分析等等，最后是强化学习代表的算法，对网络优化决策我们可以做一些事情。

前面讲拥塞控制的调用，我总结不一定全，最近这些年技术的发展，这些能力使得我们网络控制比以前做得更好、做得更优，这个事新不新，这不是很新的想法，我们网络控制很早就有了，我们（英文）2013年，在互联网里面也是一个知识层面，当时（英文）也引起了很大的关注。

再往前90年代在非常不错的学术推理，用知识学习做路由，做控制这样一些想法，这些早期的研究基本以理论为主，停留在基本的概念这样一个层面，最近这些年的话，有新技术的发展，可能要么觉得把知识学习引入到网络控制，他的时间确实到了，一个以这种INT网络遥测的发展，我们在网络设备测量更多的数据、收集更多的数据，帮助我们更多做决策。

另外深度学习算法的发展，使智能技术和智能发展更加成熟，我们这些算法的效率更高，再加上互联网运行超过半个世纪，也拥有丰富的数据和这些一些案例，来帮助我们做更好基于数据的推理。

基于这样的想法我们提出了智能网络控制层面的想法，我们叫（英文），我们基本想法就是想基于网络遥测技术，实时不断测量网络里面的数据，并且把关键数据的话给网络控制体验，在控制体验进行数据驱动的智能网络控制，这里面比较核心我们想把数据的测量分析的话，直接做到网络的控制平面，取代我们今天完全基于规则的网络控制，或者完全不一定取代，也是继而有之的，这个想法并不复杂，实现起来的话有不同的技术手段。

第一个我们要做集中式的、分布式的，集中式是（英文）做法，我们整个网络是一个大脑，我整个AS就一个大脑，我大脑收集全网的数据，SDN基于规则控制比较简单，要收集大量的数据成本有点太高了，网络带宽本来就比较珍贵，另外一个做法基于分布式的网络控制，但是数据驱动，每个节点都是一个独立的决策，这是集中式、分布式的选择。

另外我们叫（英文），做上响应型的还是主动型的，响应型我们知道当前网络的状态，做推理，我们知道网络流量动态性是非常强的，新的设备一出来我网络状态已经变化了，所以说一种更理想的做法叫（英文），主动型的，我们需要对网络的状态做预测，需要提前做配置的管理，然后这样更好适应网络动态的变化。

基于这样的想法，我们参考了像无人驾驶、自动驾驶里面，他们说我们要实现什么样智能化的技术，分成几个（英文），我们也简单做了一个智能网络控制（英文）的划分，这个不一定准确，代表我们现在的想法，（英文）可能是今天网络的一种控制，完全基于确定性的建模所产生确定性的规则，里面也不用什么智能性的技术，我们起码解决网络正常运行。

在我们对网络控制的时候网络违法程度比较低，在此基础上我们，实现level 1的控制，我们叫响应性的控制和集中式的决策，我们把控制器更多基于机器学习的智能技术对网络做控制，这里面涉及到技术网络的遥测、流量识别、故障识别、攻击识别等等，以及知识学习算法到底图像处理、语音处理好，可以做一些适应网络的智能算法。

这个方法缺点就是说我们收集网络这么多的数据，所以从网络的节点到集中控制系统到数据太大，我们用level 2智能网络控制，我们把集中式的决策变成分布式的决策，分布学习、强化学习，避免网络节点数据传输的开销，它还是响应式的控制，对网络快速变化不能够响应非常好，我们最理想的智能网络控制应该是level 3，主动的控制加分布式的决策，也有故障的预测等等，网络预测我们对网络进行一个控制的规划。

我下面举两个例子，IEC给用户用到什么场景，一个是智能驱动网络动态路由，动态路由实际上在网络设计早期的时候，对网络界从业者来说是一个理想，只不过建模太复杂没有实现，我们说这一种机器学习的技术，也许在层面上帮助我们做这个事情，做起来我们不再用OSPF的协议，我们让每一个节点不断通过INT测量数据，让节点之间不用交互数据，分布式学习，参数做一些同步，或者用强化学习的方式，在多条可选路径之间学习到非常理想流量的分割地，这样我们实现基于流量这样一个动态变化自适应的网络路由。

这其实也可以把流量的做法引入进来，我们怎么对网络流量预测，学术界做的工作非常多，我们这块也有非常大的提升空间，我们团队前不久做了一个工作，我们把声音和（英文）相结合，在（英文）两个网络分开的实际流量数据上面运行一个结果的话，可以把流量预测错误率到千分之一，我们也做了一个比较，提升还是比较明显的。

第二个我们可以用网络的安全里面，内生安全词比较火，大家提的比较多，按照我们的理解什么是内生安全，就是在系统设计的时候把安全问题作为核心的设计要素考虑进来，你说系统设计的时候把安全要素考虑进来不能说网络没有安全问题，你提供服务我对你（英文）攻击，总会碰到安全问题，内生安全的话还有很重要的一点，尽量在系统架构内部解决面临的安全问题，对外部系统的依赖能够减少到最小，这可能最近几年国际界安全学术界流行的词，安全的自动化，这本身是内生安全很重要的一个技术的组成部分。

我们通过智能网络控制的话，我们其实希望在网络的控制平面也是不断对数据检测，可以做异常流量的检测，设置做安全对应的分析，如果有异常流量或者是异常的行为，到底是劫持还是什么等等，我们把这个做网络的控制平面来，这个事是不是异常天开，显然也不是，我们注意到（英文），我们做互联网标准化，在2018年成立跟安全有关的工作组，我找到两个工作组，跟刚才讲的想法是不谋而合。

一个工作组（英文），去年成立，这个工作组做自动化的网络，怎么自动化网络的模型和方法，里面特别提到把网络做到自管理、自优化、自保护这是网络安全的想法，另外一个工作组叫SACM，其实做了一个安全的自动化，可以看到里面的表述和我们刚才讲的基本上差不多的理念，就是要在网络里面对节点的状态和流量状态测量，通过控制平面的分析来去高效率第一时间发现和解决里面的安全问题。

这就是我今天想跟大家分享的内容，我们动机因为现在物联网确定性的建模非常困难，我们网络路由、运维控制带来很多问题，我们想提出数据驱动智能网络的控制体验对网络进行非确定的控制，我们愿景通过非确定的控制提高网络控制的效率，能够在今天网络尽力而为的数据平面之上汇聚进行管理的控制体验，这可能是很好的做法，谢谢。