第二届全球未来网络发展峰会
创新·引领·未来
尊敬的各位、各位同学大家好。我是来自清华大学计算机系,跟很多从事通信领域的理解不完全站在一个维度,做计算机角度看一些思考,今天这个会议已经是2018年参加过第三次关于讨论网络和AI怎么融合这样一个讨论,我们做互联网或者计算机网络人来说到底将来的网络会怎么样一个发展,可能过去这些年就是(英文),虽然我们今天很多运营商都在谈,但是今天我们谈的和十年前提出来不是一回事,技术的发展并不跟我们之前的预期是一致的,我们更多是关注AI大家这么看重,到底给往来带来什么样的改变或者有什么样的结合,但是谈这个事的时候好多不是一回事,到底网络和AI怎么样的结果。大部分专家谈的都是(英文),怎么能够把网络做得更好,这个事我觉得有一个备论或者思考。
十年前的时候国家就有好多项目,包括973、863,而且以前在网络里面也有很多用统计、分析这些方法去解决网络里面的一些问题,今天我们说在谈新一轮要AI改变网络,到底有一个什么新的价值,这一轮被人关注还是深度技术为代表,深度学习应用非常成功的领域,视频、图象处理、语音的处理,这几个领域,到底用在网络这个方向,是不是也能产生类似比较大的价值,这是有待验证的一个事情。
我最近跟中信银行有一个合作项目,是做他们一个关于营销统计一个分析,之前都在用一些(英文),我们很多深度学习或者知识学习的方法,并没有一个非常显著的提升,这个我觉得用在网络这个领域也是一样,现在处于AI一个探索早期,我觉得第二个方面的结合是(英文),这个主要是把一些本身AI的领域,比如说多各无人机,怎么联合做战,这个和我们传统的做了所谓的(英文)不太一样,我以前考虑(英文)只是怎么把这个连接起来,但是并没有一个智能体,我觉得是我们可以去关注的,地方。还有第三个方面就是(英文)AI系统本身实际上是不是也有网络的问题去关注。今天早上看徐雷院士给我感触很大。所以对于这样的AI视频当中网络互联和扩拓展性怎么来提高强大的计算能力,我所在的团队(英文)都在做一些相关的工作,专门到最后一个方面(英文),前面很多专家讲的,今天深度学习应用的比较广泛,比较成功是图象处理,语言处理和图象系统,这几个方面做这些学习,人工智能计算的这些系统都已经非常大,我们看从数据规模,模型的规模,大家可以看一下,基本上都是到几十亿级,甚至到千亿级,因为大家也都说人工智能成功归结于大数据,在这样一个大规模的系统里面,基本上用单机也不太可能去给我们返回一个结果,所以分布式的学习训练的话,基本上成为一个必然的选择,举一个例子,去年6月份(英文)做(英文)一个结果,(英文)这个比赛去年已经停止了,停止的原因是再怎么增加机器的规模精度也不可能再提高了,原因是要做一个东西,做分布式每个机器上要有一个(英文),机器规模非常大的时候,机器上所有的(英文)加在一起量就会很大,拿再多的机器做训练就没有什么意义。所以去年开始大家就不在关注。用尽量快的时间把这个训练给完成。6月份的时候(英文)发表一个成果,10月份的(英文)也做过这样一个工作,怎么样用更短的时间完成。
百度做过一个调研,做推进系统,200-400台机器同时做一个任务的训练,我说这个规模已经相当大了,所以这就是我们已经看了大规模学习一个现状,但是我们不管从哪个情况来看,目前还是采用高性能机构,他们之间的网络互联是用(英文),基本上不用考虑可靠性或者是速度的问题,另外一个基本上不用考虑容错的问题,可靠性做了非常好,比较高的这样一个价格作为一个代价,我们说这种超算的思维,这是没有问题,可能将来做更大规模的计算这个成本是不可承受的,或者性价比是比较低的,这也是过去这些年很多互联网的公司他们的都是用普遍的商用服务器和因特网的技术,而不是走以前超算的这条路,基本上现在大家还是在用超算的的思维。大家现在还是在讨论HPC里面的算法,怎么样提高分布式训练的一个性能。
我就在想将来我们要把大规模的要商业化,我们还是要(英文)上面,普通的商用设备上面来(英文),这个有没有什么独特的问题呢?
这是去年(英文)谷歌负责人,或者是别的地方在中国做的一个演讲,这个字可能是比较下,我来解释一下,他有一个观点,就是深度学习能取得这么大的一个成功,主要是来自于这三个方面,一个是知识学习算法的一个提升地主要是DP算法,第二个是一个大数据,这个我们也公认,第三个大家也认可的就是算力的提高,这就是为什么GDU发展的速度也很快,这个算力的提高,这三个方面的因素共同促成了这一论深度学习的成就,然后他自己发表了一个观点,将来我们有没有可能不靠这种知识学习算法的提升,只靠更多的数据和比现在成百上千算率的提高,我们理论上还是有它高兴的地方,这个资源的话我们可能提供尽可能多的资源,这个是我引用它的报告里面的一个观点,也就是说我们将来是不是可以通过提供更大规模的分布式的学习用更多的数据来做训练,然后把我们的知识与学习尤其是深度学习他的精确度尤其是性能做更大幅度的提升,我今天早上听徐院士的讲的是非常吻合的。
我们现在讲这个事一个分布式学习还是有一个层次化的架构,我们说最上层肯定是机器人学习的应用,这个应用很多了,他在网络里面的应用也是一个应用,在下面的话是机器学习的算法,这个很多专家都在做,包括深度学习、强化学习,我们也天道了跟多这方面的介绍,再往下就是一个知识学习的框架,一是互联网公司向争夺技术的制高点,想通过开元这方面,到今天为止,应该说知识与学习的框架他跟大数据出来的时候还不太一样,大家公认只要涉及到大数据的处理都回用这些框架,但是现在知识与学习的框架基本上就是百花齐放,现在大家关注比较多的就是(英文),很多分布式的情况下很多人也发布过这样的成果,他的性能并不高,现在又出来了很多强化学习的框架,还有一些知识动态图框架,没有一统江湖的框架。
在更大规模的情况下到底怎么样让它的可扩展性做的很好及,不影响训练的精度,这个方面很多问题还没有被大家真正的拿来去讨论或者是研究,(英文)包括国内阿里巴巴公司也在关注这方面的事情,但是我们很多分布式传输这类的技术大家关注的其不够,下面就是芯片,CPU、FPG还有更多的GPU,要结合起来提供更强的一种算力。
这个是有一个互联网大会在中国开的时候,当时做一个报告,她想做一个什么呢?想做一个分布式,做了16个GPU,我们看一下不同的趋向,选不同的(英文),我们看他的(英文)比较大的时候,他网络通信的开销是比较低的,但是他的(英文)到16的时候,基本让99%的开销是网络,我们跑不到这么大规模的迅速,这是报告里面的截图,这个结构就更加的理想,甚至是等于二的2这个事就说明在这样分布式知识学习的训练里面他的网络传输这个问题已经是比较严重的问题,这个当中可能涉及到跟网络传输协议同步机制各方面都有关的问题,这个就是目前我们看到的一个业界的现状。
所以说我们这个网络这个问题本身是分布式的知识与学习训练的一个瓶颈,我们也关注这个问题,这个事也很容易理解,假设我们做一个建模的话,因为我们知识与学习的训练是一轮轮的迭代,你需要的计算时间和同步的时间,虽然这个节点数量的增加以放在计算上面的时间越来越小,但是你后面做网络传输,他出现结构这个传输和同步,占的比例会越来越大,这个很容易理解为什么当分布式知识与学习的训练规模一大的时候网络和通信这方面的会占很大的比例。
我们看一下这个大规模网络与知识学习的问题,我们这方面的严重也刚刚开始,这是我们看到的一些,我觉得在这样一个环境下来传统的协议是不太可行的,但是这个有这个的问题。
这个并行机制,大概有数据并行、模型并行还有义务的并行,但是采用比较多的还是数据同步的并行。
大家都采用了PS的价格,就是参数服务器,它本身的话在可扩展性是有自己的问题的,我们大家用HPC用这种技术的话,基本上不用考虑他出错的问题,但是我们用因特网技术的话这里面错误的技术是我们必须要考虑的。
这是我们做过一个实验,哪怕你用两台机器,做参数同步,他整个训练时间上的差异是3倍的差异,这是一个数据集,他如果是倡议会变得更加的明显,因此我觉得用TCB可能不太可行,(英文)是一个更好的选择,但是这个(英文)传输的话,你大规模的网络里面也是比较危险的,他流动机制存在问题。
在网络拓估是一个(英文),但是关注一下在HPC这个领域里面很多做分布知识与学习的话主要的一个网络是(英文)这样一个算法,一个机制,存在故障,这个网络(英文)。好多大规模的因特网,这个地方跳过。
目前到的目前广泛的CLOS的网络还有(英文)都存在各自的问题的,我们尝试做了很多的工作。
第三个并行的方法,我刚才也提到了,在数据并行和模型并行的方法,数据并行还是用的比较多,基本上用的也是同步的并行,基本上靠最慢的一个机械来决定最后的速度。
我们做网络很容易想到用P2P的方法来做参数同步,去回避到PS这个架构里面一个中心的参数服务器带来的瓶颈的问题,在这方面我们也可以做一些工作。
最后在(英文),用的时间比较长,如果节点出错的话我们不可能推导重来,尽管有故障我们还是会让这个实验进行下去。
我们在清华的团队开展了一些研究工作,最后我代替我的同事做一个广告,就是在6月15日到17日作北京开一个讲习班,也是请了一些专家,讲一些网络的一些技术。
谢谢大家。