面向网络大数据的自然语言处理研究进展-第二届全球未来网络发展峰会

当前位置：嘉宾致词> > 分论坛六

面向网络大数据的自然语言处理研究进展

发布时间：2018.05.14 编辑：共浏览：983次

谢谢参会的嘉宾。是这样的，刚才王老师给大家做了一个非常非常精彩的报告，说实话，我是受益匪浅，我在想王老师的报告讲完了，我也不要讲了，我讲的东西王老师的报告里面已经很清楚了。黄老师交代的一个任务，我必须得把我的作业好好的完成。我就简单的讲一下我主要做的工作。

刚才王老师讲的是从大数据的角度，从应用驱动的角度讲大数据怎么进行分析，怎么进行处理。我的题目大家可以看到面向网络大数据的自然源处理，大家可以想象一下，大数据里面有个很重要的组成部分，就是自然语言，我们知道人类最最重要的一个智能的表现就是语言，网络大数据里面很重要的组成部分就是语言大数据，就是文本。我主要介绍我们在这方面做的一些比较肤浅的工作。

因为这个分论坛叫网络空间大数据，我先简单的用沈老师的定义，网络大数据是指人、机、物三元世界在网络空间中交互、融合所产生并在互联网上可获得的大数据。我们处理的纬度主要是集中在自然语言的角度，我们关注网络空间当中产生的交流的文本的一些数据。

既然讲到自然语言的处理，大家知道自然语言处理是人工智能发展的非常重要的研究领域。这个可能有点老了，去年CNCC上面沈向洋博士说的一段话，人工智能的突破在自然语言理解，懂语言者得天下。

我在沿用他的一些PPT里面的内容讲一下我们当下自然语言处理的阶段。

大家现在比较熟悉的比如机器学习，我知道现在研究生招生很多同学都有选人工智能专业，说到人工智能专业就知道阿尔法狗，再说说就知道深度学习。比如说我们发现股票的价格和某些影响因素之间的关联关系，如果发现本身存在这样的关联学习，就可以通过机器学习的方法观察到它。

大家看到现在对话也很热，前段时间谷歌大会上谷歌大会做一个所谓的QI的展示，我觉得已经做的非常非常好，谷歌在这一块自然语言处理的工作还是非常扎实的。

当一个机器具有自己意识的时候，有自己情感的时候就非常可怕了，比如拍一下电脑，电脑就觉得很累，就不想给你开机，这是一件非常可怕的事情，就不能控制它了。

我们目前来说，我们的自然语言处理的阶段还停留在所谓的机器的智能。大家可以看一下我是从这个CIRI上拿的一些电话记录，它有一些基本的对话能力了，但相对来说自我意识其不够的完善。

比如说我家女儿也经常问我这个问题，这个到底怎么讲。它有些隐含的知识，我们知道鸡是有两条腿，兔子有四条腿。这样的问题不在于我们这个问题形式化以后，还是在于把一些默认的潜在的知识怎么让机器具有潜在的知识。

比如说我再举几个例子，前段时间网上说的地比较滑，我一把没有把它把住。这个语言的处理是非常多样的，而且也非常复杂的一个现象。

我是这么讲的，王老师讲的我觉得非常大气，我听完他的报告，放之四海皆准的经验都拿过来。我主要是讲具体，假如遇到的文本的大数据怎么处理，这样的一个处理流程大家如果是做自然语言处理都应该清楚。主要对它进行预处理，做数据的梳理，再做知识的发现，就要数据的建模，得到一些数据，数据要做一些关联，做一些应用。这是我们讲的自然语言通用的一个流程。

今天主要讲的三块内容，一个是关系抽取，二是事件抽取，三是情感分析。

第一个就是关系抽取。什么是关系抽取？什么是二元关系，这个PPT是为了引起学生的兴趣，因为这个人是我们早期的密码学的先驱，他做了一个解密的工作。就是明文和秘文之间的关系。我们关系的抽取不是这样的关系抽取，我们找的是什么呢？是这样的关系抽取，比如现在给你一个《红楼梦》，你可以把这人物里面的关系给抽出来吗？我们是从文本里面抽出来的，这个事情是不是很重要？因为我们知道，文本是很多的，而且文本的表示是很复杂的，很多样的，这种关系的信息又是非常的重要。

我下面要做的工作是什么呢？就是药物乡曲作用关系的抽取。比如说有些人服用药物的时候会发现一些不良的反应，他会把这个不良反应的信息在论坛，在一些社交媒体当中描述出来，这样的描述，关系是不是很重要呢？我想肯定是的。因为这样的信息对于药物的企业来说，它知道可能有这样的药物的风险，它可以在药物的里面做风险的提示。其他人是不是也很重要呢？本身这两种药在一起食用有风险，就要把它分开。这样的数据也是广泛的存在于我们的文献，社交媒体的文本当中去。

举个例子。我们要把这样的药物之间的关系给找到，能够明确的告诉他这两种药能不能一起服用，是正面的效果还是负面的效果。这就是我们要做的一个任务。这样的任务是不是很简单呢？现实告诉我们任务不是那么的简单，很当时候我们的语言表示是很复杂的，很多时候表述的东西，比如一句话会描述的很长。我们说这样的任务我们怎么处理呢？这样的关系抽取，当前组合的方法有这样一些方法，比如说基于特征工程，基于核方法，基于深度学习的方法。

这是怎么对它预处理，这是提取一些特征，再用一些所谓的分类器做这样的工作。如果用核方法怎么来做，我用各种各样的核来做，大家知道核方法不是特别的流行了，所以现在用深度学习的方法来做。深度学习的方法，大家可以想象所谓的深度学习，我的理解就是以前的神经网络现在变的结构更深了。

怎么变深了呢？比如有哪些神经网络的方法呢？传统的有CNN的方法，对它做一个铺垫，把这样的一句话转变成类似于图一样的方法，做一个剪辑。基于RN的方法，同样的方法也是通过（英文），通过（英文）来做这样的工作。这是一个比较常用的方法。

我们主要的考虑是什么呢？本身这样的工作，我们知道有些句子非常复杂，有的非常长，经常说我们需要知道的，比如一句话里面我们想知道它有没有描述这样的药物的不良反应的信息，除了要了解这样的不良信息以外，我还想知道它到底是什么样的不良反应信息，除了所谓的（英文），正面的负面的，还有一些具体的反映类型。大家知道深度学习里面有很重要的要求，就是它需要很多的训练数据，训练数据就存在一个不平衡的问题，解决不平衡的问题。针对这样的东西我们提出了所谓的位置敏感的LSTM的方法来做。做了这样的工作以后，最后的上面有两个输出，输出对应两个任务，得到的神经网络我们认为它能够解决我们刚才讲的两个问题，一个是句子比较复杂，一个是两个任务怎么在不平衡的情况下得到比较好的平衡的结果。这个是它的实验结果，具体的实验结果就不讲了。

第二个工作是什么呢？就是事件抽取。我们做的事件抽取可能更加的具体，看一下事件是我们想知道的和每天发生的一些新闻事件，大家可以想象一下具有一些新闻价值的事件，因为新闻事件会有一些主体，有一些关健词，有发生的时间，地点，还有一些人物。这样的信息怎么从文字里面，从文本里面抽出来，我们针对这样的一个事件来做这样的抽取。

事件抽取存在的问题是什么呢？事件抽取早期的时候基于一些金融文本，它有些规范的标记，大家知道标记信息是非常宝贵的。大家可以想象一下，除了这样的标记的信息以外，那些没有被标记的信息怎么办呢？所以说更多的时候在于想，对于这样的大数据的处理，我们更希望有什么样的方法？标注的代价是非常高的。深度学习在哪些领域非常成功呢？在图象方面它取得了非常好的成绩，在自然语言处理方面相对来说稍微滞后一点。

事件抽取因为它需要一定的标注，事件抽取事件的类型不能提前定义好，我们希望能够用一些监督的方法做这样的工作。大家想监督的方法有什么样的好处。我们能不能对我们抽取的事件做一个可视化呢？如果对我们抽取来的事件做一个非常漂亮的可视化，对我们的抽取事件带来非常大的好处。

基于这两个为出发点，我们做了两个工作。5000多个方法是基于所谓的主题模型思想。（英文）它实际上是一个很典型的监督的方法，它是对于这个数据做了一定的假设，你必须对数据的产生做一个鸡舍，认为数据就是按照这种模型产生的，如果说这个数据真的是符合你的所谓的产生式的假设，实际上可以通过无监督的（英文），得到一个很好的数据的展示。

在一个微博里面，在一个新闻标题里面在描述一个事件，什锦有所谓的时间、地点、人物的信息，我认为每个单词可能是时间、地点，或者是关健词的一种，它描述的分布是服从我们所谓的在同一个事件下的分布。

我们就得到了这样的一个模型，是我们后来做了一些实验，可以较好的解决微博里面，或者在新闻里面语言的多样性，又可以正好的解决事件的开放性，这样的问题我们何以得到很好的解决。这是一个早期的工作，这是实验的结果大家可以看一下。

刚才我们讲可视化，可视化不仅可以帮助我们人们来理解，还可以帮助在建模的时候，可以通过一些可视化的条件对它进行优化，这样就使得最后的结果不仅能够产生比较好的可视化的效果，而且可以产生比较好的抽取的效果。我想把这样的事件展示在二纬空间当中，而且能够得到比较准确的事件的表示。

我把微博和事件放再一个二维空间当中去，主题模型比较清楚，某些观察是服从一些分布的，比如说（英文）分布，或者（英文）分布，坐标实际上不是一个分布，是一个二纬的向量，把这个坐标转换为所谓的分布。通过这样的（英文），就可以把二纬的坐标和主题模型结合在一起。

这样的一个坐标，这个模型和之前的模型是非常类似的，实际上是加了一个东西，如果不对这个模型做任何的限定，可视化就会杂乱无章，我们对它做一个假设，做一个限定，比如说在低纬空间当中具备的一个点，在高纬当中具有一个相似星。

这是我们做的一个结果，可视化的结果肯定没有前面袁老师做的放在地图上的展示好，我们这个来说还是从文本当中把事件抓取出来做一个展示。

相对来说这样的展示结果起来比较符合我们的预期的，把一些相似的事件，主题事件聚在一起。

第三个工作，事件把它抽取出来，或者在二纬空间展示出来，这样的要求还是比较低的。我们想知道把事件做一个关联，我想知道昨天发生的事件和今天发生的事件有什么关系，基于前面事件发生的规律，可以做后面事件的预测，这是我们做的一个预测，把每天发生的事件用这个主题模型的方式做一个刻划，把每一个关联关系做一个主题模型关联在一起，关联在一起的好处，大家可以想象一下每天发生一些事件，我们可以把事件看成是一个隐含变量，它的时间地点的分布，这样的分布在每天是变化的，这样的变化我们可以通过线把它穿在一起，故事是怎么发生的，从开始到发展，到高潮到结束的过程。

这个事件线的可视化，大家可以这就是我们说的苹果和三星专利的支撑，这一事件是怎么发酵的，每天都是不太一样的。

第三个工作就是做情感分析。情感分析大家听的也比较多，比如说刚才王老师讲的对于一个产品总得有一个正面和负面的评价，对于一些热门的问题总得有一些评价吧。我们做的这个情感分析也就是类似这样的工作。这是讲的一些应用的场景，我做的这个情感分析是这样的，主要做的是一个舆情的分析，比如说对一些热门的事件做一些评估，对于一些热点事件，它是正面的还是负面的。

比如我们说川普的大选，在社交媒体上肯定有很多人支持他，也有很多人反对他，我可以找到支持反对的人，也可以找到有什么样的关联。我是因为什么样的原因，我们想知道这个关联背后的原因是什么，我们认为它是一个多层次的舆情的分析。比如我知识传播，是因为他个人的魅力，我是因为他的外交魅力，我是因为他的外交政策。这样的信息可以从海量的社交媒体当中挖掘出来，这样的工作对于一些政府的舆情公关非常的有帮助。

问题还是一样的，还是缺少标准的，因为你不知道这个社交媒体当中别人会因为什么样的原因支持他，我们这样的一个工作一定是不能限定一个标准的。这样的一个神经网络基于这样的神经网络的方法，就没有一个可解释性的功能。我们用了一个主题模型方法，我们做的工作基本上都跟主题模型比较相关。

这是别人的一个主题模型的方法，就是JST方法，把情感和单词做了一个关联。我们希望把每一个微博里面隐含的观点，或者隐含的一些情感做一个隐含变量，这样的隐含的变量有一个层次的关系，所以我们叫层次隐狄利克雷的模型。

对于这样的一个工作，我们通常在讲微博的时候，比如在讲知识反对的时候，我们肯定会用到所谓的短语，就引入所谓的主题短语的模型做这样的工作。最后我们得到所谓的HPTM的模型，这样的模型对之前两个模型的综合。

比如说川谱大选有什么样的分支，是因为减税政策支持他的，或者什么其他的原因支持他的，做这样的工作。可以做什么工作呢？可以把这样的社交媒体用户分分类，比如他是支持的还是反对的，更进一步可以支持你是因为什么原因，具体到更支持的，因为某一个原因的某一个细节的东西支持他。所有这样的模型的（英文）对我们舆情是有帮助的。

我想简单的讲一下应用案例。自然语言处理做了几块内容，做舆情分析，案件自动分类，金融事件挖掘。舆情分析刚才已经讲了，怎么把数据挖掘出来做一个分类。案件自动分类也是根据文本进行一个归类，金融事件的挖掘也是应用一些事件的技术，针对金融文本做这样的处理，最后得到一个关心的金融事件。

这是做的一些自媒体分析的系统，这是做的具体流程。这是我的一个研究方向。

大概今天就介绍到这里。谢谢大家。