第二届全球未来网络发展峰会
创新·引领·未来
非常荣幸有这个机会在里做一个报告,我来自于南京大学,今天给大家介绍的都是从我的研究里面最近做的项目当中拿出来的一些内容和大家汇报一下。
今天报告的内容主要从这三个部分进行介绍,首先来看,现在所有的关于信息化的内容,我们都是回溯到40年代,我们计算机从1946年开始往后的推移当中,我们的计算机无论是硬件技术本身起来软件技术本身都得到了突飞猛进的发展,同时我们信息技术的应用已从最传统的计算,后来聚焦于通信,然后聚焦于现在所处的无处不在的感知时代。
基础学科的不断发展,信息技术不断的发展,以及右边罗列出来所有内容的一系列的发展导致了两个事情的发生,第一,传统意义上的数据变成了大数据,为什么这么说呢?因为我们来看基础学科的发展,使得我们有更多的方法,更快的方法能够把万事万物数字化,然后传到计算机里面,让我们数据来源的种类和速度都变的越来越快,同时存储材料技术的发展,使得我们存储能力提高了,我们能够采集到那么多的数据,现在已经可以存得下来。我们现在面临的问题,那么多的数据,我们怎么样用它呢?于是我们会说现在数据多到不能利用现有技术去解决,我们把这个难题交给大数据。
信息技术的发展还让我们的软件开发走着另外一条路,早期我们的计算机只是做科学计算的,随着人机交互的发展,人和系统之间的关系已经是融为一体了,人与系统,再后来随着网络的不断发展,人、网络和系统又融为一体了。在互联网这么发达的一个时代,万事万物互联化,又使人、物、网络处在一个这样的系统当中。
我们今天研究的主题,讨论主题是围绕数据来的,显然我们为什么要做呢?如果难题没有用我们就不做了,恰恰是因为所有人对这个数据有着极大的价值希望,比方说以奥巴马为首的大数据是一种竞争资源,竞争资本,各界都处于自己的利益使然,当所有人都需要大数据的时候,那不就如现在每天都需要石油一样吗。
当然,大数据另外一个特征,数据是一种资产,尽管数据的买卖还存在很多技术上和法律上的一些瑕疵,比如说这个数据的所有权归谁的,就是数据的权限问题。数据的价值,数据卖的获益给谁,都没有研究透。我们已经看到数据买卖的模式由政府主导的,有大数据中心,也有淘宝模式,现在是让市面上数据的买卖已经在进行的事。
还有人说大数据是科学研究的范式,最开始是科学实验,后来说科学实验搞不定就做数据推理,像再后来计算机发展以后可以做模拟。大数据为什么会成为第四范式呢?以前做就是用什么样的实验佐证我的假设,现在有大量的数据,这么多数据在一起,哪些数据是相关的呢?但显然大数据想把它的价值期望给落地,很难。有两大难题,第一,我们说政、产、学、研,每个人都有不同的理解。价值没有办法统一的时候就会发现我们市场上有很多大数据项目,纯粹都是一个个好听的名目,价值没有办法去准确的定义或者很难得到统一的认识。第二,大数据本身就是一个难题。
大数据要做三件事情,第一,我们要找应用的地方,如果大数据不能找到应用肯定没有落地的价值。要落地,应用场景在什么地方,做这件事情有没有价值,以及我用什么样的技术来嫁接这样的应用场景,有这样的数据和这样的需求呢?当然,我们做大数据还要让我们的分析更准。数据建模这件事情就要考虑到数据层有什么特点,应用层有什么特点,数据在什么地方也是我们要考虑的地方第三个就是我们的大数据一定要追求高效。因为很显然,数据量的增大,定会导致计算复杂度的增大,时间要求又很高,怎么样可以快速的响应呢?我们发现现在从高性能计算角度有分布式的,有并行的,为了让计算和存储更协调的操作相等,其实都有大量的技术难题和许多商务上的难题。所以大数据本身一定是很难的问题。
比如说应用层的困难,王老师,帮我做个东西,你要做什么?他我说也不知道做什么东西,反正我有数据。现在我们在做大数据的落地应用的时候,我们经常面临的是应用层是模糊的,数据在什么地方也不清楚,来自于计算层的挑战,也很显然,我们可能会有一些(英文)等等这样的计算模型,让我们计算的更快,但是我们的存储材料又出问题了,我们经常举的一个例子是什么呢?西格玛一下再筛回去,可能感觉不到时间的消耗。如果从数据库里检索一条数据出来,西格玛出来,我们的消耗可能是20分钟读取,一秒钟计算。
来自于算法层的挑战就更加明显。工程开发都是这样,甲方需求定下来了,因为你需求一改,我们下面就玩不了了。我们都是在封闭的环境下运行的,但是大数据给我们的挑战,数据是源源不断的到来,数据背后反应的人物,人物的模式其实是在变化的。数据是在源源不断的到两,反应了我们分析人的行为模式也变化。我们原先在传统计算理论上的封闭计算环境下的算法是否能够应用于这么样的开放呢?那需要做很多算法题的研究。
我们所有的数据都是来自于多元,我们的软件开发首先是软件开发,如果要把不同数据源的数据都拿过来,那一定会存在都可以背下来,多元异构,非精确。我们可以做一个分类。
比方有一个系统人先要输入身分证号码,由于我们输入的可能会出错,过去没有自校验方法。如果两个数据合适再生了一起就出现了问题,两个都不一致。这种源自数据质量的问题是必须要解决的问题。当然,我们怎么样去发现这个大数据的价值呢?我们就要需要对数据本身有所理解,数据本身能够连接起来,连接是我们今天要介绍的一个重要的内容。
提出大数据的时候用现有技术是解决不了的,我们想的很多的办法去做它,比方说我们以(英文)的批处理的计算架构,比如TPU加速,从数据建模的角度而言很显然,深度学习,这波人工智能的热潮显然被这个东西弄出来,还有谷歌的(英文),以及芯片化的TPU,还有数据建模,围绕数据动态到来,我去做增量学习,多任务学习等等之类,所有的这些其实都是在过去我们没有类似的基础,都是在迎合或者响应大数据带来的挑战时候的所有东西。
我们希望大数据能够让我们做到打穿数据孤岛,形成链接多领域的知识中心,支撑新技术和新业态的跨界融合与创新服务。我们为什么要提打穿数据孤岛的事情呢?除了因为我们的软件开发导致数据孤岛,信息孤岛排外,还在于我们每个人每天,我们说数据是分析人的,人本身每天的生活实际上是被碎片化的,我可能同时用着QQ,用着微信,同时还用着微博,反应我行为模式的东西因为有这么多应用,使得我碎片化到各个业务系统当中去,这与人性有关的。
更重要的是即便是统一数据源的数据也是碎片化的,每天以短信为例,短信都是电信公司给我们的,我们要知道每条80个字的短信,也是把我们历史上比如一年一个月来所有的数据,反映我们行为偏好,反映我们行为社交的,反映在几个短信里面去。
黄精细在1969年刊登了王进喜的一张照片,这个目的是为了激励中国人民奋发图强,好好工作。日本的经济学家看到了这幅照片以后就立马可以判断出来,根据他戴的帽子,以及手里拿着铲子,精准的预测出来在北魏多少度到多少度之间有这个油田,油田的产量大概有多少,又由于中国现在设备制造能力很有限,他们正准备要走开放的这条路,就告诉日本说,就按照这样年产能力的设备制造赶快去制造,制造出来以后中国一定会要。所以C2B的产品制造,日本人从几十年前就开始用了。任何一个数据实现完了自己最原始的价值期望,利用我的敏感度把它拿出来。比方说我们经常用的芝麻信用,我们都可以看到芝麻信用有六大纬度,社会关系等等,要知道每一块都是拿了不知道多少数据源合到一起,以这个人为中心,把数据关联起来,然后在各个纬度进行建模打分,最后给出一个平均值。显然打了这个分以后大家都可以用了,现在很多做P2P的直接拿芝麻信用就可以做。假如说数据没有办法合到一起,我们要想办法把它合到一起。
现在我们经常会发现我们的商家看起来让我们方便了,实际上是商家很坏的一点,比方我去到某一个网站注册,可以拿你的EMAIL去注册,另外一个品牌也说可以用你的EMAIL注册,实际上他们就是把数据连接起来。我一个博士生在飞利浦做访问学者的时候做了一个很好玩的东西,我在电视上做一个广告,在非洲有什么样的响应呢?把两个电视媒体的数据事件和社交平台关联起来,为什么要做这件事?因为这件实真的是哪怕数据源连接埠起来,相关性也是一种途径。
刚才说到数据连接,短信能做陕西呢?我经常举一个荔枝,但是绝不在PPT里面说的。比方说对公短信,你一定会接触到来自于银行,来自于快递公司,违章了有交管局,这些我们叫官方的短信,这个短信一个个都是割裂的,没有意思。如果把短信拿出来,以关心的技术为中心,把短信当中所涉及到的人、事件、时间、关联物,如果只要把这几个东西拿得出来,短信就可以不需要了,因为我只要有一条短信把刚才我说的那些信息提取出来,关于这个活生生的样子我就拿得出来,我就是把同一个数据源,以及随便化的数据整合起来,达到对这个人的精准的分析。
每一个客户都可以隔三差五的来联系,要把他每次跟我联系的情况都积累起来,我就可以拿到关于这个人的精准画像。最右边的例子是一个法院裁判文书的例子。过去无论对于征信还是个人画像都是一个裁判的数据,中国的裁判文书都毋庸置疑。我们可以从这个数据源里挖掘出更多的实体和实体的关系,因为我们要做数据连接。比如在裁判文书的中间一般都是描述跟这个案件有关的故事,比如说谁借的谁的钱,谁违约了等等。关系把它拿出来,事件拿出来,我就可以得到实体关系的一张图。如果再叠加到其他数据源里面,我就会得到一个细节更多的图谱。
说了这些都是说数据连接及其重要,我们可以从很多角度去说数据连接一定是有用的,但是我们在说数据连接这件事情的时候,会耦合很多事情,比如说要做数据连接,每个数据源表示不一样怎么办呢?要做统一的数据表示。你的质量有问题要做数据治理,以及数据隐私保护,要做数据的安全性。
最简单的数据连接其实很简单,假如说表格型的数据,就把以关键字为中心,能够建起来,对于文本图象视频可以拿出(英文)的样子,我以K为中心,把K和(英文)集成起来,可以做特征等等之类。我们可以把各个数据源拿得出来,这第一层次的,我们叫比较硬的层次的一个数据连接。
我可以同最传统的配置一系列的数据归置,通过归置引擎把数据连接起来,我们在做的过程中,我们由于前期配了那么多的归置,事实上我就有了一大堆的样本库,把这个样本苦从积极学习的角度做这样的连接。这是硬连接,实际上我们还可以做词连接。这是我们在2017年做的工作,其实是做短文本的主题建模。以前是LDA,它是对长文本比较有效,短文本如果分析短信,分析微信、QQ,显然就不给力,这个时候BTM被提到日程上来,它找了一个词语的贡献关系,开始找关系了。我说的关系是词与词之间的关系找得到。我们做了一个改进是什么呢?两个词义贡献在一起未必对它有用,我通过了一个深入神经网络,去训练出来哪些词语在这个语义表示上是有联系的,我们得到的效果其实还不错,只不过今天说的这个段子,词与词至今也要做联系。
我们现在发现做情感分析,早期多少一段文本,一段文章似的情感分析,这部电影是好的坏的,事实上现在面临的情况是什么呢?不是的,我们要去找这篇文章里说的哪一个产品是好是坏,以及哪些属性是好是坏的。从情感分析角度而言我们不仅要做实体与评价词之间的连接,还是还要做实体与评价的哪个纬度,哪个属性之间的连接。我们经常这样说,我买了一个帮宝适,这个品牌的帮宝适比那个品牌的帮宝适质地要柔软,价格比那个贵,这个是两个产品之间的比较关系,而且不是直接的比较,而是粮食产品之间不同属性的一个比较。这一块正在做工作,目前的还不错。
在人工智能微化当中一个共性研究叫跨媒体数据融合。我们做情感识别,文本情感识别,图象情感识别,对于我了一个文章而言,其实我觉得这篇文章的好和坏,实际上是图片和文字合在一起对应情感识别。我们现在做的是什么呢?两个融合起来做主体建模。
现在这个数据不够大,我就找另外一个数据,利用其他数据源的数据,这本质上做的什么事情呢?就是要找源数据,要做这件事情可能变的复杂,因为我们的源数据到底
是单个还是多个。现在的集成的思路,我们做完了单源同构,单源异构,还有多源异构。
我还想说的一个是什么?其实找数据之间的关系,实体之间的关系建立起连接,这是我们大数据领域里面一个重要的思维。
我举一个例子。这是我们跟中山大学、天津大学几个学校一起做的重点工作。我们做的工作是什么呢?把数据源采集了以后,数据连接起来以后还不仅如此,我还在这个意义上建立起来以实体为中心的图,因为我们会认为任何一个事件都是多个实体,组成了这么一个复杂问题。因此我们在复杂网络上去研究那样的东西,可能更能符合我们人之所以为人有的社会属性。
这是我们在企业征信里面提到的一个例子。美国的一个征信公司用了很多的数据源,做了很多的风险模型,把风险模型集成起来,他认为所有的数据都有征信风险。
我们在做企业征信的时候,我大概给出一些可以公开的数据。我们为了对一个企业的数据进行评估,我们必须要用的数据源也有很多。我们最早期做企业征信的时候,数据源大概只有几万条,现在是20多万条。你的数据源也是不断的竞争的,我们必须要把不同的数据源合起来,在这种信息物理系统的人、物、网络都是对的。
时间的原因,我给大家最后做一个小结。其实大数据的价值发现要围绕两个路径进行,第一条路径是技术路径。任何大数据项目数据流很清晰,就是数据采集、数据存储、数据建模,但是我们要细分一下,做的第一件事情要做数据源的梳理,我要把那些数据源梳理出来,然后把这些数据采集得来,采集来以后归并到一起,然后可以把它们进行联系起来,不仅是表与表之间,更多的还考虑统一数据源之间的数据实体怎么样关联起来。我把数据连接起来以后就可以对这个数据打标签,实体打标签,以及往上再做一些服务,在我们没有应用的时候,做到这一级就可以了。我们要从应用出发,应用场景在哪里,应用场景解决的是什么问题,我们能不能把这个问题解决好,这样以来会聚到一起才是我们数据分析的源泉。