第二届全球未来网络发展峰会
创新·引领·未来
非常感谢黄老师和沈老师的邀请。
我们发现有很多挑战,数据规模越来越大,从几万到几十万,计算的复杂度越来越高。现在整个网络规模数据已经非常大了,我们在亚马逊租了十到二十台的服务器。
我们后面做了很多相关的研究,无论从深度学习,大规模的数据挖掘,再到智能的推荐,我们做了很多的相关研究。
从科技情况的挖掘,大家一下子就会想到(英文),包括微软的(英文),还有(英文)等等。总的来讲这些系统是以文献为中心,是搜索文献,缺少很层次的挖掘。我们的想法,我们能不能把整个大数据规模的挖掘,比如下来全球发表的文献已经超过三亿,国家对这方面也有很高的认识,国家认为到2020年可能有很多这种新型的科技服务业。总的来讲谁掌握了科技发展的规律,谁就掌握了未来经济发展的引擎。
比如最近中心事件可以看出,科技,包括洞察科技的趋势是多么重要。其实我们早就知道中国要发展基础芯片,非常重要,我们之前也发展了,事实上这个事情还真的不那么简单。比如说中心科技芯片本身,并不是说我们做不了芯片,六纳米五纳米我们解决不了里面的量子效应,可能会导致电流的击穿,所以我们才做不了芯片,不是说芯片本身我们做不出来。从科技研究的角度上来,我们可以布局怎么做量子效应的问题。
我们现在做了(英文),这个(英文)市场叫做一个智能性的挖掘性。从人工智能知识的角度上讲,我们怎么挖掘出一个知识,人工智能自己面对的,比如机器学习,聚类等等这种深层次的怎么自动化的建立起来,你说人工智能国家已经做的那么丰富了,要认真的看整个人工智能,会发现无论从全国各个行业,除了计算机,有时候我们说人工智能是计算机的,汽车的,计算机的跳出来不是的。
你怎么把这种里面相关的东西的画像做好,基于这种画像怎么提供一个智能的引擎,能够怎么样的回答这种用户交互的东西,包括语音做自动的推理,这就是我们整个(英文)所做的东西。
我们可以搜索这里面,甚至会说中国话的,在美国的,女性的科学家到底有哪些,有地点,有(英文),会不会说中文话,是不是在美国。这种信息全部构建了出来。
从核心的角度上来讲我们到底做了什么东西,其实我们严谨的(英文),第一个就是在讲专家系统构建的时候,(英文),这也是专家系统之后,也是图灵奖获得者,在78年的时候提出专家系统的时候,专家系统就应该做两件事,一个是构建大规模的知识库,第二个要提供智能化的服务。
在这上面怎么构件智能化的服务?近期的另外一个图灵奖获得者(英文),他提出了数据怎么语义化,他提出语义描述语言,怎么把所有的数据的语义描述出来。我们在AMiner做了大数据怎么抽取出智能知识,在这种知识上怎么构建智能引擎。
我们从技术的核心角度捉做了这么一些事,第一个把数据语义化,我们做了一个数据语义化的方法,把误差降低40-60%。因为很多数据很多语义化的信息分布到网络上。我们怎么推介相关的东西,我们也发表了一系列的文章,论文点击率也超过一万多次。
从刚才的几个点来讲,怎么把数据语义化。什么叫数据语义化?这是一个WEB,我们要做的事就是把这种非结构化的WEB里面的语义信息结构化出来,你可以讲是一个传统的问题。在做数据集成的时候要解决一个语义集成的问题。我们当时做了这样的事,我们来研究一下这件事是不是可以做的。首先我们发现70%的研究者都有一个页面。很多人名都是重复的,我们是不是可以继续他们的年龄,其他的画像相关的信息来分析。
再给你一个例子,这篇文章是我们实验室发的一篇文章,有两个张样,怎么办呢个我们就做了一系列的文章,我们做了相关的工作,主要是通过模型来做,最早期我们通过概率模型把相关的语义信息从互联网抽取出来。
我们也构建了一个基于深度学习的框架,这个框架非常有意思。现在数据越来越多,现在有几亿的论文,每天就有几万个论文,几乎每秒钟都有论文。我们有了这个输入数据以后,怎么把这个输入数据的人快速的做分析。有些很现实的问题,把这个数据线存在大的服务器上,再把它拉到本地再送上去,把所有的数据拉回来一千美元,再送上去天天折腾不起。这个时候就要变成一个真正的服务,迅速的做出一个结果。
一个算法如果全部自动化,我是一个AI系统,没有任何人参与,它的精度始终不达不到要求,一个叫温迪侯,一个叫温迪。为什么名字不一样呢?他说我结婚以后名字就不一样了。我们遇到很多这样的问题。
我们抽取了超过百万研究者相关的信息,自动构建了相关的页面。我刚才提到了上亿,这里有上百万的信息,我们非常精准的,人去验证了觉得这些信息很准的就是上百万。上亿的是自动抽取出的个数是上亿。
有了第一步以后其实还不够,随着互联网的发展,尤其WEB2.0、3.0的发展是不一样的,2.0都是非结构化的处理,怎么把非结构化处理变成结构化。WEB3.0我们要做的事情,在(英文)其实已经有一些半结构化的处理,怎么把这种来自不同源的半结构化进行带一点语义的数据集成在一起,这个就更难了。我们又做了一系列的工作,我们核心的东西是考虑不同的网络,比如有AMiner的网络,(英文),我们现在要做一个(英文),这个时候我们可以考虑一些(英文),比如说自身相关的一些(英文),也可以算一些网络的(英文),另外还要考虑(英文),(英文)把它(英文)到一起,到底是不是保持一致的,什么叫保持一致呢?比如这里V11到V13,如果V13跳到V32,它就不一致了。我们希望避免这种(英文)的不一致,我们了基于(英文)。
整个结果大概是这样的。给定一个人的页面有(英文)的页面,有(英文),甚至一些专利的数据,我们把所有的数据自动化的集成在一起,于是我们就可以做深层次的分析了。
比如我们在跟科技部做这个项目的时候,科技部当大数据非常热的时候,这两年人工智能非常热,大数据非常热的时候,科技部两万人把研究改成了大数据,要做这种精度的匹配,要把它做的非常精准。我们又做了相关的算法。从知识的图谱上我们做了(英文),另外一方面我们又作了一些网络(英文)的方法,所以我们有了一个学者的表示,还有各(英文),他们的空间不一样。
比如说我们对每一个人都可以研究出他的兴趣,这个研究兴趣是一个大的知识构建出来的。
这个其不够,为什么呢?另外还有更多的人作者网络,这里面怎么做深层次的挖掘,两个人做了文章,可能一个人是另外一个人的老师,怎么把这种相关的信息自动的给挖出来。我们希望从发表论文的数据中把谁是谁的老师的数据给挖出来。
我们现在可以考虑根据(英文)的定律,有了知识图谱,我们需要提供什么样的服务是我们想的。我们做了一系列相关的应用。我们做了计算机应用的专家库。还有解除青年资金会获得者的库等等。
我们还给科技部做了科技评价。每个专家来了评价这个专家是不是活跃,他的影响力是怎么样的,甚至包括他的荣誉,包括世界说的大奖啊,是不是获得了一些其他的发明奖等等,还有一些人才计划承担的项目,包括他的研究方向,授权的专利,近三年获得的一些项目等等。
人才大数据的东西还可以提供给一些公司,阿里巴巴的人才地图不仅可以搜到人才的专家,不同的公司,比如国家层面上,战略层面上,这个时候给公司战略上起到很大的战略布局的作用。
我们还做了一些顶级人才迁徙的图。这里有一个小视频。
(视频)。
我们把过去四五十年所有顶级的专家做一个分析,我们就可以看到这些顶级专家在全球的分布。从80年代的时候,在中国的顶级专家非常少,这个线表示从原来的地方迁徙到目标地,到了90年代从东海岸的人开始往西海岸迁徙。中国现在开始出现一些亮点,比如北京、香港、上海等等有些,中间的在亚洲还有以色列、日本那些国家。到了2000年以后中国的亮度越来越高。总体来讲,我们很多人都在讲,包括张院士也在讲,很多人说我们中国的AI已经超过美国,其实其不够,我们还有很长的路要走。相对来讲有点黑的,未来还有很长的路要走。
我们还可以借助知识图谱做技术趋势的预测,右边是研究点分别的研究趋势。
我们最近还做了很多技术发展报告,区块链的基础理论与研究报告,还有行为经济学与人工智能研究报告。有一些来人来总结。我们做了半人工的把发展报告给写出来,到未来我们希望是全是机器做出来。
我们最近开放了很多大数据,把我们系统的数据开放出来给大家研究,这是一些(英文)开放出来,比如(英文),(英文)是一个论文文献的一个数据,我们把论文对应上,再把引用关系加上,一起开放出来。
比如把每个人的信息抽取出来也开放出来。我们和微软合作做了(英文),这个数据更大,有将近3亿的论文,我们把两边的网络连在一起,这里边主要是论文,开放出来给大家使用。
在科学的本质上,到底哪些东西是最本质的东西,它的发展规律是什么,它未来的趋势是什么,这是我们希望做的一些相关的研究。我们也希望和大家精诚合作,做出更多的东西。这是我们的整个团队。
基本上我今天的报告就到此为止。感谢大家。