第三届未来网络发展大会

网络全球 决胜未来

当前位置:嘉宾致词> > 分论坛十

网络人工智能发展与实践

编辑: 共浏览:560次

尊敬的邬院士,各位教授和来宾,下午好,非常荣幸能有这个机会在这里给大家分享我们中国电信在网络人工智能领域的研究和实践。

我介绍的内容主要有三个方面,首先介绍一下我们这个人工智能发展,为什么人工智能有了60多年的发展历史,到现在我们才考虑把它运用在我们的网络上。第二部分介绍一下未来网络对人工智能的一些需求,一些驱动力,最后介绍一些中国电信的探索实践的活动工作。

首先讲到人工智能的发展历程。其实人工智能最早应该是1956年的达特茅斯会议上首次提出的,到现在已经经历了63年的发展阶段,整个阶段可以分成主要的三个发展周期,第一个是推理期,第二个周期是知识期,将人类的知识来教授给计算机系统,第三个周期是这次的人工智能发展的浪潮,是以Hinton2006年发表的一篇深度学习的文章为代表的,到16年谷歌的阿尔法狗战胜了世界的围棋冠军,掀起了新一轮的人工智能浪潮。

我们怎么理解人工智能呢?其实从1956年到现在,业界对人工智能还没有一个权威的统一的定义,我们怎么来理解这一轮的人工智能发展。因为这一轮人工智能的发展是伴随着深度学习研究的爆发和应用,所以从狭义的角度来讲,我们现在讲的这个人工智能可以等同于以深度学习为代表的机器学习类的一些理论、应用。从整个产业的角度来讲,国家讲我们要发展人工智能,还有各种各样的人工智能的企业,它是包括了从底层的芯片到大数据,以及上面的人工智能开发的技术框架和模型算法,以及最上层的面向特定应用场景的一些人工智能的应用方案和服务,这一整套我们来讲它是产业界的一个人工智能的内涵。

第三轮的人工智能发展有什么样的特点?为什么我们说到现在第三轮人工智能发展它有可能真正的从产业界取得一定的成功?其实是各种技术因素驱动的,首先是从算法模型的角度来考虑,传统的机器学习,比如我们要去识别一个图片,这里面的人是谁,在传统的机器学习算法中需要人工智能的工程师去定义,这个人哪里是他的鼻子,哪里是他的脸,脸形是圆的,去选择特征,去选择合适的机器学习的算法,经过不断的调整调试,得到这个图片里是张三,可以把他识别出来。这个过程就需要人工智能的专家投入大量的时间精力做特征的定义,还有模型的调试,参数的调整。

新一轮的深度学习它有一个比较典型的特征,我可能中间去构造模型这些工作,就可以节省下来让AI芯片去做,我把大量的图片数据输入到深度神经网络里,然后我的机器就基于这些AI开源的框架可以自动调整模型的参数,包括神经网络的层数等等,所有的这些配置的参数,不需要人再去做太多的这种参数调整、模型设计的工作,最后就能通过大数据的输入和AI算力的支持,来把图片里的人识别出来。

所以说在强大的算力支持下,将大数据深度学习的模型进行训练,机器是可以比人类的专家更快的得到更优的模型。所以在本轮的人工智能发展中,让人工智能的广泛应用成为了可能。本轮人工智能的发展特点也是大数据+深度学习+人工智能芯片驱动的。

后面就讲我们的网络,因为通讯技术也发展了不至十年,也有比较久远的发展历程,为什么到现在我们才来提将人工智能应用在未来网络上?其实一个最显著的特点,最近几年引入了很多新的网络技术,包括软件定义网络SNA,包括5G,包括云计算,以及新型的开发模式,对未来网络中引入了这样一系列新的网络技术,我们的网络其实变得更加的灵活和强大,但同时也变得非常的复杂,可以说运营商现在面临着一个前所未有的复杂的网络,我们同时运营着3G、4G、5G、固网,比如中国电信可能有将近20万的运维人员来运维整个中国电信的网络。如果再引入了这些新的网络技术之后,这些大量的部署运维的工作再去依靠人工去解决,基本上是不太可能完成的工作。

这里面有三方面的挑战,第一个就是未来网络的网络架构户动态的变化。传统的网络里是根据我们的业务制定向下的设计部署一个一个独立的烟囱的系统,网络架构都是固定的,网元也是非常的明确。整个大网的设计和部署周期都是5-10年才会发生一次变化,我们的网络规划以年计的滚动规划,但是未来会将业务和网络功能都原子化,按需的编排组合我们需要的业务原子和网络功能的原子。包括引入的网络切片的概念,也是基于我切片业务的需求,动态的选择我需要的网元,然后给它创建一个切片。在业务结束之后,我可能把这个切片释放掉了。

所以未来网络里面网络架构是随时可变的,它这个变化可能是以小时计,甚至是以分钟来计的。怎么适应这种运维模式的挑战?就需要引入更多的自动化和人工智能化的手段。

我们引入NFV技术以后,这个网络就变得层次更多了,在传统的网络里我们一般一个网络设备就是一个厂商来提供的,这个设备承载的业务出现了问题,我们就去找这个厂家,它就负责给我们解决这个问题。引入了这个NFV技术之后,它一个最大的好处,我的软硬件结耦,动态的管理和编排引入了MANO(音)的系统,可能我的服务器是来自联想的,可能我的虚拟化软件是VMR的,在管理编排系统也是分了三层,每一层都有不同的厂家来提供。

在这样一个复杂的多方组网的环境下,我们发生的故障点就变多了,一旦发生了故障,会涉及到去定位到底是哪一层哪一个设备出现了问题,到底是哪个厂家的问题,这个很容易就出现不同的厂家之间互相去推卸责任的情况。所以我们需要用人工智能的手段去定位我们的故障,甚至去做一些主动的故障预测和识别。

网络资源的实时调整。运营商的网络传统是用人工统计各层网络下一年的业务需求,通过部署大量的冗余设备容量,来保证峰值的业务需求。未来引入了NFV之后,我们动态的进行资源的分配,目前NFV在规范中给网络功能分多少的资源,都是通过我们NFV的模板来定义的,这个模板可能定义了不同级别的规格,比如低级别的可能会分两个CPU,一个G的内存,一个G的存储,这个都是提前写在里面的。一旦业务量达到一个静态的设置的阈值的时候就会把它做扩容,这个相对来说是一个比较死板的方式,比如说我的业务量有一个峰值,马上它可能过了(英文)又下来了,这可能会引起网络的振荡。所以我们需要预测业务量的变化趋势,然后去做这种动态的资源分配和调整的策略,并且下发给网络设备来执行。

基于上述的这些考虑,我们也做了一些标准和圆形开发,以及限网试点的探索。

首先中国电信在16年发布了白皮书,我们发现上面说的这一系列的问题,在17年2月的时候,我们成立了全球第一个组织叫ENI,经过来年半的发展,ENI的工作现在结束了第一个阶段的两年,发布了包括用力、需求、术语,以及现有标准和我们预期的一个差距等等一系列的标准规范,目前也在开始第二个阶段的工作,主要工作包括去定义ENI整个体系架构,以及新增的具体的用力如何用架构来实现,还有启动了一系列的概念验证的项目,去验证我们这个架构是能够支持限网的应用的。

这个目前也是包括了有来自欧洲、美国和亚洲超过40家全球主流的运营商、厂商,参与了我们这个工作组的工作。中间这个红色虚线是我们的主席、副主席单位,紫色的T型里面是POC概念验证项目评估组的成员单位。

在ENI的研究过程中,自研发了一套基于人工智能的流量预测原型系统,这是展示的界面,这个界面上有三种颜色的曲线,这个红色的线是我们实际的流量曲线,蓝色的线是我们根据AI模型对未来六小时流量变化做的预测的一个结果。在最右侧有六个黑色的不断在往下走的黑色的点,这是我们预测的未来六个小时的情况。根据包括用开源的一些数据,用中国电信限网的数据做的验证,这个准确率在90-92%左右。我们会把流量预测的模型用在不同的应约场景下。

第一个应用场景就是基于这种流量预测做智能化的承载网切片的生命周期管理,AI模块会和承载网切片管理器做一个对接,一方面获取现在承载网带宽的资源情况和流量的情况。另一方面我们会把基于预测结果做到动态的带宽分配的策略下发给承载网的切片管理器,它在实际的网络中调整我的切片的带宽。

这个项目我们也是和华为做了联合的开发,AI部分是我们中国电信研发的,承载网的切片管理器和设备是由华为提供的。根据测算,因为传统上如果没有应用AI的策略,承载网切片一定按峰值流量给它分配资源。左下角的图黑色的部分是实际的流量,红色的部分是我们建议到的承载网切片贷款的策略,加了一定量的冗余之后,我现在实际的流量还是可以包在建议的承载网带宽的资源之内。

现在的扩缩容它不够灵活,我们就去预测虚拟网元的业务量,根据它的情况做智能的扩缩容的量。这个原型系统和塞科斯合作对接,在6月上海,这套原型系统会对外来展示。

基于流量预测做设备故障的识别。比如说IP设备出入流量不是完全一致的,进到这个设备的流量比出去的要多的时候,证明是有丢包,进来的流量比出去少的时候可能有非法复制。我们通过去预测网元流量的变化趋势,来确定这个偏差是不是扩大了,或者是大到一定程度了。如果我们有这个扩大的趋势,就会提前给运维人员提供一个预警,去实现这种网络故障主动的识别,这套原理系统也是我们在和中兴一起联合研发,也会在6月NWC期间展示。其中AI模块,黄色的部分是由中国电信来提供的,网络设备由中兴提供。

基占KPI预测及扩容预测。它可以预测基站是否需要扩容的预测。把刚刚讲的趋势预测的这套模型乱法放在无线的一些性能指标中,比如PRB的利用率,用户的在线数量做一个预测,可以实现对全国小区未来一周一个月的趋势的变化预测,再加上一些分类的算法,结合无线性能的KPI的情况,以及小区的配置多维度的数据,我们可以对半年内需要扩容的小区进行预测。我们的任务就是识别出来到底哪里小区是可以通过扩容来提高网络质量和用户感受的。这个预测的准确率目前能够达到99.5%,是非常准确的。

数据中心负载预测。在低负载情况的时候会做负载的迁移,把一些服务器上的虚机迁移到另外的服务器上,把这些空闲下来的服务器做一个休眠。为什么要做这个事情?因为我们睡眠的服务器它的能耗仅20瓦左右,如果长期正常的工作模式去跑,它的功耗在200-500瓦左右。未来会部署大量的云化基础设施,数据中心里这些服务器的耗电量会占到整个数据中心成本的百分之三四十,是个非常大的支出。如果我们能够节省数据中心里的耗电量,会给我们的运维成本有比较大的降低。这个方案我们在重庆电信也做了试点,在我们的机房里做了评估,大约每台服务器每年可以节省300多块钱的电费。

我今天分享的内容主要就是这些。因为整个人工智能的发展是需要上下游的伙伴一起配合完成的,包括厂家提供的网络设备、AI的芯片、算力的支持,以及我们从这个基础设施采集到的大数据,大数据的处理,把它输入到AI模型当中去做研发,再以这个为基础去做各种各样的应用场景的解决方案。所以我们需要有数据,有应用场景,我们和基础设施的厂商,芯片厂商,以及AI理论研究,比如高校,以及AI解决方案的提供商有更多的合作,所以也是希望和大家一起共同的推动整个网络人工智能产业的发展。近期中国大新打算成立一个中国电信的人工智能发展联盟,也在邀请产业上下游的各方合作伙伴来加入我们这个联盟。如果在座的各位嘉宾有这个意愿可以联系我,来商讨一些后续的工作。在这个联盟里,我们有可能会去分享一些脱敏的数据级,以及学校,还有一些AI的企业,共同去做一些模型算法方面的优化,以及可能把我们的成果在电信的限网和现有的业务上做应用等等。所以非常欢迎,也非常希望各位嘉宾能够加入到我们后续联盟的工作中。

我今天的分享就到这里,感谢大家。