第三届未来网络发展大会
网络全球 决胜未来
首先非常感谢协会的邀请,让我跟大家汇报近期的研究成果。我汇报分为三个部分,第一部分是AI赋能的物联网,第二部分是智能数据融合,第三个智能数据的计算。
随着电子技术和通信网络的发展,互联网产业得到了迅猛发展,这一点前面几位老师介绍中我们提到,2018年的时候整个物联网产业规模2500亿美金,到2020年预计达到4500亿美金,发展的速度还在不停的增加,从2017年24%到2020年达到38%左右,物联网产业里面排在前面是智慧城市、工业互联网、健康医疗和智能家居相关的产品。
物联网快速发展带来一系列的问题,这里面我们简单列举一下数据相关的一些突出的特征,第一个就是大数据的特征,现在到物联网的设备越来越多,每个设备都会产生各种各样类型的数据,这些数据会快速回传到后台的网络,这是我们所说的大数据。
第二个就是数据的异构性,不仅体现在设备的多样性、网络多样性,义务多样性,第三个互联网容量能力,互联网设备目前来看一方面单个能力有限,支撑网络应用功能非常强大,现在越来越多人提出来利用人工智能提高性能,改进缺陷,主要由于人工智能在其他领域的一些巨大成就,包括人脸识别,语音处理,阿尔法狗等等。
里面有一些重要的特征,一个数据的能力,利用深度神经网络刻划海量复杂数据之间的合作关系,第二个知识抽取的能力,神经网络从数据层面上,从海量数据中提取到信息,再用信息到知识,最后知识深化到所谓的智能。
但是在AI和物联网的结合并不是容易的事情,主要有以下几个方面的挑战。第一个多模态数据的结合,传统里面更多是单模特,图像是图像、语音是语音、自然语言是自然语言,物联网数据是多样的,包括图像的数据、包括语音的数据包括文本的、文理的还有一些其他的数据。
第二个数量低复杂度的分析,我们很清楚像所谓的深度学习需要专门的市场分析,物联网设备不能支撑复杂的计算。
第三个是终身学习的一个能力,事实上人工智能领域,单纯人工智能领域进展非常缓慢,随着物联网快速发展,物联网支撑多样应用,因此算法和模型要持续完成,必须达到终身学习的能力。
我们分两个角度介绍一下前期的相关工作,第一个属于智能的数据融合,互联网因为里面传感器的类型非常多样,用它产生的数据非常复杂,我们将产生的数据分成三个不同的类别,第一个所谓系统相关的,系统相关的数据涉及到设备相关的、设备尺寸、设备型号、设备一些采集数据内容特征,编码特征,等等一些特征。
第二个上下轮的一些因素,包括全网部署的位置,部署的空间,移动,频率等等一些信息。
第三个是人物的,我们可穿戴设备,如果放到人身上产生一些特征,人的情感、人的年龄、人的性别以及知识等等,传统的数据融合的方法更多基于信号处理,基于信息融合其他表达的方式来做,但是这些通常会存在这样那样的问题,第一个就是说这些数据之前有非常复杂的关系,传感器采集到一些生理上的数据,这些特征数据通常是线性、非线性的关系。
我们希望通过深度神经网络的方式,将三个数据的方式通过神经网络快速的融合,在融合之后提取、学习或者是估计等等一些操作,这边是我们提出了一个模型,这个模型简单分成三个层次,第一个针对不同类别的一些数据。
比如说文本的,我们可能应用(英文)基于文本的特征,视频用(英文)基于视频的特征,还有类别信息分别提取特征之后在空间中快速融合,融合之后我们最后放到一个全链接的网络层里面,这是他数据的一些预测或者是回归的一些操作。我们的模型也是目前放在(英文)上,包括一些模型训练的,大家可以应用自己的数据慢慢去做。
下面给具体的实验结果,我们根据真实的数据测试的结果,我们根据传统的技术方法做一些比较,另外基于我们的数据方法,将原始的数据放到我们深度神经网络进行提取,最后放到传统机器学习的模型里面做回归或者是预测。
黄色线看到明显的,所有机器学习的典型运用我们都可以得到显著的特征,第二是视频特征的提升,现在工业视频监控里面产生很多信息,不仅包括视频,还包括文字,其他姿态类的信息,我们将视频的特征,视频的连锁数据放到我们深度学习网络进行提取的过程,我们明显看到用到最右边红色的线用在我们深度学习的算法中,我们相当于原始所有的算法都有一个比较大幅度的提升。
另外是所谓小样本下的数据融合,刚才几位老师提到了深度学习和机器学习需要一个标记良好的数据样本进行学习,但在物联网的领域里面可能标准非常有限,大部分都是小样本的数据,我们结队的方式进行训练,同时提高可运用样本的数量,我们也做了观点的特征,给大家举一个简单的例子。
第二个个体,一个是男人、一个是女人,她领域上有非常强的关系,另外如果是一个国王和王后也有关系,我们深度神经网络可以捕捉到层面上的一些信息。
第三个所谓智能数据计算,首先我们介绍一下物联网深度学习的计算模型,第一个所谓的Alone,在本地进行数据的分析,这是常见的方式,第二个是(英文)的方式,数据赋能回归到边缘的节点,或者是设备上分析,两种分析方式之间并有优缺点。IOT设备资源的能力包括计算包括存储,包括功耗都是严格受限,处理能力非常受限,需要将数据回传到边缘分析,随着物联网设备生成的数据量非常多,数据回传的难度非常大,我们针对缺点提了三个新的模式,第一个所谓的IOT+(英文)的方式,我们基于模型的(英文)。第二个IOT独立的方式,我们叫做模型的(英文)方式。第三个通过模型协作你的方式。
我们先简单介绍第一种,我们知道复杂的神经网络或者更高的版本网络模型几百个,甚至复杂可能更大,我们单独设备上往往难以部署和运行的,我们只是讲一部分的模型放到IOT设备上,我们可以放到(英文),但是这种简单的方式会存在一些明显的问题,左下角这副图我们将中间层的数据做了一个传说数据量,把大小做了一个展示,我们可以看到原始的图片在IOT分析数据量,如果基于神经网络结尾需要传输照片到十几个,传统没办法实用技
我们提出一个方式对于神经网络中间层数据进行一个压缩的方式,包括我们通过数据量化的方式将这个变成整数,通过编码将一些比较小的去掉,通过自编码的方式把高维数据降到低维的。
我们在常见的网络上进行压缩比例测试,像(英文),我们在保持相同分析精度情况下,我们将数据量降到原始的一半,允许10%的性能丢失的情况下,我们数据压缩量可以到十分之一或者是百分之一,另外我们在真实的神经网络环境下,或者是真实的(英文)做一些测试,包括像(英文),包括用的也是移动的神经网络测试,测试在底下我们算法可以加速3倍到12倍,在(英文)我们加速可以到3倍到25倍。
第二个属于模型选择的问题,事实上模型选择也是比较直观的,我们给现实中的数据,数据直观上理解用越复杂的模型我们精度越不高,这个不成立,我们左边的三幅图,我们复杂的模型去做,包括最简单的(英文),事实上第一张图片精度模型下精度最高,最右边的图只是在精度在最复杂的那个上,他的精度属于高的,复杂的模型意味着我们需要有更大的计算资源,本土资源,更长的时间,但是并不带来更好的精度,我们根据我们拿到的数据然后自信的去选择模型,来实现我们应用更少的计算资源达到更好的性能。
这边是我们用到数据的特征,主要是用到测试,我们首先拿到原始数据,我们可以根据提取到特征,然后做一些操作,进而来选择一个不同复杂度的模型。这边是我们真实测试的结果,我们测试精度所有的方法和精度要好,第二个我们推理时间比最简单的模型更长,比其他复杂要短,另外我们功耗消耗比复杂模型要低,低的非常明显。
第三个是模型协作的问题,我们大家知道,我们学习去年神经网络需要专业的基群,去年(英文)我们有几千块的(英文),在物联网的设备,物联网环境下实现终身学习,目前设备发展的角度来说远远做不到,我们可以借鉴老师和学生之间的关系,我们在座有非常多老师,老师经过非常多的社会经历达到这样的水准,我们老是学习新鲜任务,学习的速度可能比学生更快,我们能不能把老师的经验慢慢传递给学生,(英文)将会是我们提出面向IOT的过程,我们在云计算中心可以部署非常复杂的模型,但是在IOT设备上我们部署简化版的模型,在云计算中心里面模型把关键的知识点抽取出来,交给IOT设备上提高学习的一个精度。
这是我们提到一个方法,我们可以在用一个专有的(英文)部署神经网络,我们在IOT设备上去看,或者用(英文)学生的神经网络,对中间学到的特征我们用到(英文),我们把规律性等等,没有那么重要,把重要的信息交给学生的神经网络,IOT设备上,运用关键信息提供快速学习的能力。
这边是我们做的一些实验,在相同的神经网络上,在简化版的神经网络上,相同的性能下需要一半的复杂度。我汇报到这里,谢谢各位。