第三届未来网络发展大会
网络全球 决胜未来
大家下午好,感谢组委会给我这样一个机会,能在这来跟大家介绍一下阿里云的产品和技术。我先自我介绍一下,我叫宗志刚,现在目前负责阿里云网络的技术架构、技术规划方面的工作。
今天我想跟大家分享的主题是智能、开放的阿里云网络。其实网络的智能化、开放性,其实在业界早已经达成一致,都是大家共同前进的方向。今天我给大家分享的是阿里云网络的在智能化、开放性这一块儿的最新的成果,这些成果实际上都已经应用到了阿里云的网络中去了,都是实实在在在线上运营的产品和技术。
在此之前,我先跟大家简单介绍一下阿里云网络的概况,到目前为止,阿里云已经建设了覆盖全球的网络基础设施,包括19个Region,110多个接入点,以及1500多个边缘节点,这些基础为我们的客户建设了一个可以简单访问使用阿里云上面产品和服务的平台。对于我们这样的产品,实际上我们构建了业界目前最丰富的产品家族,我们按不同的位置划分为四类,第一类是一个云上的网络,其实对应的是我们传统网络里面的数据中心网络。我们的产品包括VPC、NAT网关、SLB、以及IPv6服务等等。另外一块儿我们把它称之为跨地域网络。第三块是一个混合云网络,其实是对应着我们传统网络里面的接入网的位置,我们的产品包括专线高速通道,VPN网关,以及目前正在广泛推出的SD-WAN产品叫智能接入网关。另外一块我们叫智能网络,其实对应的是我们普通的网络里面的运维、运营的系统,我们的产品名称叫大圣智能机器人,这些是我们的产品。
那么产品对应的技术,这个图描述的是我们目前的一个技术平台,不同的产品的技术是不一样的。第一块叫云上网络,我们的技术平台叫洛神,它的特点是大规模,因为阿里云的网络规模是非常非常大的。规模大,高可用、可靠。第二个我们技术平台的名称叫织女,织女就是简单可靠、高效,覆盖全球。还有一个混合云我们叫嫦娥,它的特点就是高速、稳定、安全可靠。对于智能云我们的技术平台名称叫齐天,它的技术特点是高性能、分布式的数据处理系统,他要处理大量的数据。我们今天介绍的这样一个阿里云网络产品里面的智能化的能力,很多都是基于这个平台去构建的。大概的阿里云网络的基础概况就介绍到这里。
对于网络智能化方面,我第一个想跟大家介绍的是网络可视化的能力,因为只有网络可视化了,然后才能实现智能化,包括智能运营、包括智能的运维。那么网络怎么实现可视化?其实最关键的在于数据,没有数据的话你不可能实现这样的可视化。这一张图实际上就展示了我们是如何去获取数据的,为了简单清晰的去看到每一个网络的质量状况,实现他的可视化,我们将整个云网络分成了四个组成部分。第一个部分是虚拟机和虚拟机之间的网络连接的可视化,第二个部分是服务器和服务器之间的,第三个部分是数据中心和数据中心之间的,第四个部分是数据中心和公网之间的状况,这样的一个质量情况。
对于每一个这样的一个连接,这样的一个网络的情况来说,我们采用了两种方式来采集数据。第一种方式是主动的去探测,我们在协议的各个层面实现了主动探测的机制,能够发现点和点之间,任何一个逻辑网元之间的一个网络的连接状态。第二块实际上是流信息,我们通过各种技术把全部的流信息采集下来,并且输入多齐天系统里面进行大数据的分析,来实现每一块网络的质量和可视化。那么可视化之后的下一步是什么呢?就是智能运维,实现我们的智能运维系统。目前阿里云虚拟网络是如何实现智能运维的呢?有了数据之后,我们会对网络里面的每一个对象进行建模,然后用一组特征来描述这样的一个模型,你的特征可能是一个连接数,连接数包括负载情况,包括它的端口情况,然后包括它的配置状态等等。通过这些特征组合,来识别出哪些属于正常的状态,哪些属于异常的状态。到目前为止,这一块儿我们是和清华和浙大的老师进行合作的,将网络中通常的一些网络对象进行一个建模,并且用我们已有的数据去训练他,得到这样的一个异常和正常的边界,通过这个边界来判断我的这个是不是发生了异常,网络是不是正常的,它是通过特征组合边界来判断的。到目前为止,我们通过这个判断,目前阿里云网络里面90%的故障都可以通过智能化的运维去发现,就是刚才最前面我介绍的,我们的齐天智能机器人,这个齐天智能机器人会主动的发现故障,并且推送给网络管理员。
刚才我们说可视化第一步是智能的运维,第二步实际上目前我们实现的是智能的运营。我们会通过这样的大数据,来为我们的用户包括我们自己,我们自己可能是网络管理员的用户,去构建用户画像,通过这个用户画像来判断勾勒出你这样的网络模型以及你的资源使用情况。然后通过动态的去看这样的一个用户的画像,你就可以预测出我们用户的业务的峰谷以及对资源占用的情况。从而挖掘出用户的业务潜力,以及提前去布置购买好用好网络资源,从而为用户去节省这样的开支。当然这个功能我们目前是只开放给我们的TOP客户,VIP客户,并没有对所有的客户进行开放,这个是智能运营的系统。
那么网络智能化的另外一个点我想跟大家分享的就是我们刚刚发布的一个无人职守的发布系统,其实做过运维的同学可能都知道,网络的故障,往往很多时候是发生在版本的升级发布的过程中,传统的通过人工的方式发现故障可能并不及时,然后处理故障的时间也会比较长。但是业务不停的迭代,功能不停的增强,版本的升级是不可避免的,在这种情况下,我们内部去设计并发布了这样的一个无人职守的发布系统。从技术架构的角度来讲,它分成五个方面的子系统,第一个子系统是发布策略系统,他是在发布之前判断这样的配置状态以及发布的策略,比如说是在什么情况下发布,是在凌晨发布还是流量在什么值的情况下发布,这个是发布的策略子系统。第二个子系统是报告子系统,这个很好理解,它主要是用于展示我升级发布过程中的进展,以及实现信息的查询。第三个是监控子系统,因为在整个的升级发布过程中,到底有没有出现异常,你升级完了之后,业务到底有没有恢复,这个是通过这个子系统去完成的。第四个子系统是报警系统,这个很好理解,就是真正在发生故障的时候,要通过电话、邮件等方式快速的告诉网络管理员。第五个子系统叫决策子系统,因为你可能在升级的过程中出现了异常,那么出现了这个异常的时候,我的下一步策略是什么,还很有可能会跟我们的一个故障逃逸系统做联动,这个是决策子系统的用途。
这个图展示的是一个监控子系统的逻辑图,为什么呢?因为监控子系统是这个里面最复杂的,是影响我们的版本升级、发布,实现自动化最大的障碍,因为很好理解。你在升级过程中怎么知道有没有出现故障?你升级完了之后你怎么判断业务有没有完全的恢复?这一点是最难的。那么我们是怎么做的呢?其实我们是通过采集数据加主动探测,采集了流数据,采集了事件数据,并且在每一个节点和层次进行主动的探测,来判断出我升级的前后业务有没有恢复,这是最难的一个点,现在目前我们已经发布到线上使用了,提高了很多的效率。
这个就是解释了这个流是怎么在发布前后我能判断出它有没有恢复的。其实这个里面每一个网络的实例,我的用户eip,甚至是一个高速通道,或者是集群,它的流量发布之后,它的细致的特征,到底有没有按照我们制定的策略去实现,任何的抖动和异常不符合既定策略它都会被检测出来,提前发现,告知这个发布系统和策略系统,然后去做调整。智能化这一块儿跟大家介绍到这里。
下面跟大家介绍一下开放性的最新的产品和技术,第一个我想跟大家介绍一下我们混合云SD-WAN的接入平台,目前正在大力的推广。对应的阿里云产品里面,我们叫云接入网CCN,它的作用定位实际上是一键式的一体化的快速上云的解决方案。然后它在刚开始设计的时候,目标就是要打造一个开放的一站式的生态系统,然后让我们的合作伙伴的终端设备可以接入到这样的一个系统里来。而它开放的平台是什么呢?开放的载体是Open API,通过北向的接口开放网络监控的接口、数据分析的接口,我们的合作伙伴可以将阿里云的这个系统继承到自己的应用里面去,可以实现自己的解决方案。那么在南向这一块儿,我们通过Open API,开放相关的接入相关接口,只要你经过认证,你的终端设备就可以接入到阿里云的连接网的网络里面去。这种设备你可以是一台物理的硬件设备,也可以是一个应用APP,都没有问题,都是可以接进去的。
然后开放的第二个点就是刚才我前面说的,我们刚刚推出了一个极致互联网服务,这个服务其实是一个SDK,大家可以把它集成到自己的运用系统里面去。它是一个什么功能呢?就是集成了这样的SDK的端的应用,如果你需要通过网络去访问服务的时候,可以利用阿里云的全球网络资源以及云上面的一些解决方案和一些资源,可以减少在访问过程中的时延、抖动、丢包,可以提高整个访问的体验。它的一些关键的技术是什么呢?关键的技术实际上第一个是在端侧集成了这样一个SDK的端侧,在需要去连接的时候,它会去智能的动态的去选择接入点,他会选择接入点,然后在中间的网络上面,我们使用了基于SR-TE无的技术,可以去在中间的链路上面寻找质量最优的路径,同时可以兼顾你对成本的要求,然后你对这样的网络带宽的要求,从而实现一个最优路径的访问方式,提高用户的体验。这个是我们开放的第二点,就是任何感兴趣的客户第三方的生态都可以集成我们的SDK。
另外一个开放的点是我们在云上系统里面,我们刚刚发布了这样的一个开放的NFV平台,第三方的应用网络产品,比如说虚拟路由器,虚拟防火墙你都可以部署到上面去,都可以部署到这个平台上面来实现自己的功能。然后在底层实际上是基于虚拟机做的,所以它的弹性能力,然后性能的扩展,然后包括可靠性,其实都是相对来说都是可以得到保证的。对于具体的技术上面,其实主要是两点,第一点是如何引流,我们目前是通过策略路由的方式,对于可靠性是用路由的ESMP的方式去做的。
第三方的生态,我们的合作伙伴怎么去部署到我的开放平台上面去呢?目前是通过阿里云的云市场去申请,右侧是我们云市场的申请流程,非常欢迎我们的生态伙伴和客户,可以通过我们的云市场,将自己的产品部署到整个阿里云上面来,我们是一个开放的生态系统。
今天我想跟大家介绍的就是阿里云在智能化和开放性这一块儿的最新产品和技术,我就跟大家介绍到这里。谢谢。