在线社交媒体分析与挖掘-第二届全球未来网络发展峰会

当前位置：嘉宾致词> > 分论坛六

在线社交媒体分析与挖掘

发布时间：2018.05.14 编辑：共浏览：995次

感谢黄老师的介绍，非常荣幸和大家分享一下我们做的一点工作。

刚才袁老师的报告信息量很大，图的含量很高，我这里图的比例就没有那么大，大部分都是文字。我尽量把我的报告讲的明白一点。

刚才黄老实说叫社会媒体计算，这个题目我当时写的有点大了，做的就是三个任务，今天给大家分享一下。

这个题目研究社交媒体，社交媒体大家都很熟悉了，我们每天花在社交媒体上面的时间都很多，有微博，还有微信，其实社交媒体下面列了几个，微博、微信，还有我们自己玩的社会叫SCIENCE。社交媒体这个概念大家都了解，人人都在发消息。

它和传统的媒体有什么不同呢？第一个就是上面内容的产生方式不一样，以前的媒体就是（英文）的产生是一些中央的节点，产生完了以后再传给大家。而社会媒体是一个社会化的传播方式。在这样的一个平台上，人和人的影响力就扮演着非常重要的作用，会确定哪些信息成为一个眼球经济，可以抓住眼球。在这个过程中还有一个决定传播的群体行为，可能每一次转发都是一个个体行为，也没有太多的规律可言，大部分转发的群体行为会出现一些规律。

讲今天要讲三个简单的东西。在分享之前说一下数据，第一个数据2016年6月1日到30日一个月的数据，有1700万原发的消息，再加上它的转发。另外一个数据就是学术圈自己玩的那个社交平台，一个是美国物理协会自1893年以来，它期刊上发的所有论文都是封闭的。还有WOS杂志，1955年成立的，这几年所有的作者的论文。发现学术的传播和社会信息媒体的传播几乎是一样的。

重点讲第一个和第三个。第一部分讲王浪结构给春天带来比较大的作用，我们会研究一下网络的结构，上面的一些问题，重点就是这个结构怎么做。在社会媒体中个人影响里是怎么样的，第三个是每个消息会活起来，怎么样让它活起来。

第一个叫做网络要学习。如果这个网络做的可视化，节点之间会聚成一个团，连接的要相对紧密一些，网络很大之后很难把图画的情况，可以想像有这样的一个结构特征，这个被称为社区结构。

对这样的研究有来类，第一类是早期做网络划分的，既然网络可以聚成一个一个的团，能不能把网络做切分，使内部连接紧密一点，这样的工作做了40多年了。

大家需要一个更好的节点表示，这个节点就不再是做一个（英文），需要做一个低纬的程序表达，这几年大家做（英文）就多了。

这些（英文）值可以得到一个KV的表达，以后可以在这个基础上做一些任务。

后来大家为什么专门研究这个问题呢？是因为这样的表示满足不了大家后期的很多需要，于是大家就问了这样的问题，为什么我们需要做网络表示？以及什么样的网络表示是什么样的好的表示？我们需要把高纬的，像微博有好几亿节点，但是连接就很稀疏，就是变成低纬的。学了这个空间之后，它就给每一个节点赋予了很多的坐标，赋予了很多的任务。方便下游的任务，而不至于仅仅停留在网络结构怎么样。特别是这几年大家做了深度学习之后，向做一个向量化的表示，接后面的各种算法做更好的任务。

怎么评价网络表示是好的呢？第一个就是这个表示要能够恢复原来的网络结构，要重构原来的数据。第二个解决这个表达有放大能力，能预测将来哪一点有边相连。

一个好的表达有三个要求，一个是分布式表达，第二个是希望是非复制的，解释物理意义的时候不好解释。第三，希望这个表示有它的稀疏性。

主流的方法就是（英文），把原来网络表示的连接语做一个分解，分解成值的表示，分解成一个W一个Z。怎么样达到我们前面的非复的，稀疏的呢？这样的做法做还不错，但是坏处就是网络变化之后，因为只有一个解码过程，Z恢复A的过程，没有编码过程，网络变化之后再来一个新的结点，后来有人提出要用一种编码和解码对称的结果来做会做的更好一点，对称的结果是大家熟悉的（英文）来做这样的东西，但是（英文）早期没有做（英文）约束。

这是一些结果的展示，加了这个对称之后，它是对称的又是非复的，自然而然可以漫谈稀疏的要求。

第一块当你学到表达之后就可以做网络对齐，现在一个人在网络上都有帐号，有一个微信帐号，机油淘宝帐号，微博帐号，怎么知道这几个帐号是同一个人的帐号呢？如果可以把一个人的多个帐号关联成一个人那就好办了，把同一个人的ID关联起来。你这个表示做了（英文），这个网络之间观测到（英文），你可以学习一个信息函数，把一些不知道的关系的人对齐。现在很多公司也在做这样的事情，把它旗下的很多产品，用户下面有一个唯一ID关注一下。还有别的很多应用，最典型的应用就是节点在打标签。

总结一下第一部分，（英文）这几年对网络结构的一个基础的工作，从早期的第一阶段表示到现在高级阶段表示，它的模型早期的比如限定模型到非线性的模型。层次也从原来自浅层，后来变成深度学习的多个影子。仅仅恢复网络结构的方法，到利用网络之间的（英文），还有（英文）来做监督的学习，这样的几个趋势。未来的方向还是看好的研究方向。

面临的挑战，当有新的用户进来信息比较少的时候怎么做？这个是做（英文）的人关注的。怎么评价有没有一个（英文）对各个任务都适合的，我个人觉得不太可能，但也是一个佛像吧。

第二部分就是在网络中如果要做广告投放做什么，我们选择哪些网络结点作为广告投放的对象，使得有效范围最大。

在微博上发一条消息，你希望被很多人看见，你需要埃特哪些人会迅速的被很多人看见呢？你可以埃特一下谢娜她也不理你。这个选择问题要做一个优化。

你怎么知道人和人之间的影响力有多大，对什么有影响，这是一个（英文）的问题了，它比较难，需要同历史上传统轨迹说推断出来人际的影响力，有的就直接定义出来，用结构直接推断影响力。

知道传播影响力之后怎么样通过算法帮你做传播。问题从提出来证明是个疑难问题，而且这个问题提出来的第一篇文章就得了（英文），也是这个领域的一个不好的消息。后来也没有太多的新的工作出来，主要是提升它的计算效率。

一般情况下可以把影响力少的那些人先删掉，微博上三亿用户可以剩下几百万了。这个结果总归不够（英文），大家还是觉得把这个（英文）算法之前更加速一点。这样的算法有点像（英文）一样，时灵时不灵。

我们想做的事情，怎么样把这个速度做上去呢？这个性质就不讲了。我们通过分析这个问题本身，发现碳氢（音）算法之所以上不去，它的精度依赖于（英文）的次数，如果把这个精度降下来，精度就没有保障了，如果要想把精度做上去，就要把模拟次数提高，如果把模拟次数降下来，精度就没有办法保障。我们分析保障并不需要把这个东西估计的很准就可以做到，我们关心的是说两个节点S和T谁大谁小。这样我们发现以前的算法浪费了大部分的时间在估计这两个东西，实际上不用估计准，知道谁大谁小就行了。注意到这个现象以后这个算法可依很快的加速。比如找100个人投票觉得谁高，一投票就知道了。如果比较准要找100个人也很难准。

后来我们也做了进一步的探索，把它推到一个实际应用的场景，用带安全中心的一些系统中来做选择。

最后再给大家介绍一下第三块工作。我们是做（英文），就是传播预测。（英文）一般在社会媒体中有三类数据，第一类只有传播的时刻，比如说一个页面可以记录下来什么时间被访问了，第一次访问发生在T1第二次发生在T2，预测这个页面会被多少人访问。往往在网页，查询的情况下。还有就是微信的场景，会记录下来哪个人在什么时间转发了这个公众号，但是没有记录下来是在哪里看到的。这也是一种场景。还有微博上的场景，不仅记录了每个人在哪里转的，还知道在什么时间转的。

看一下传播的形式，在第一个场景下是讲（英文），有一个论文被引用了多少次，这是一个非常杂乱的轨迹，给我们也带来了很大的难度。还有就是（英文），就是推算微博使用的频次，也是一个很杂乱的东西。

（英文）有四种，输入两种，输出两种。输入有一种就是这个消息只要一发出来立刻预测，还有贯彻一段再遇车。输出就是要么分析回归问题，（英文）预测一下转发的次数会不会超过某一个值，超过500算在国家的检测范围内了，超过就是追责了。

一出来就预测这个事想象一下就不靠谱，就像一个小孩一生出来一样预测他什么死一样。

这个问题非常难，为什么说这个例子呢？看一下难度。第一个就是预测一篇论文被引用多少次。这个是1884年在（英文）期刊创刊的第四年发的论文，这个论文就是关于预测，预测有多成功的文章，他自己本身就很不成功，他发表之后70年没有一次引用，第一次引用是1959年。发现最近这几年一下火起了，这里面当然有我的贡献。如果在它的前几十年预测它，会预测它将来会活下来吗。这种现象被称为睡美人，也不知道哪个引用是她的白马王子。

它的难度体现在这个地方，这一个东西的引用或者这一消息的转发会一阵一阵的，就叫阵发，会对我们的预测带来难点，不管这个问题多难，我先商上去试两把看看到底有多难。

这个问题先不管难不难，一个就是消息的内容特征，是哪些人转的，用户特征，结构特征，实际特征。就可以预测，预测差不多可以有百分之六七十的样子。这个预测有很多种不靠谱，比如当观测五年的时候大家都一样的东西，20年后就差异很大。这个问题告诉我们，这些方法之所以预测不好，原因就是静态特征，没有见过这个消息传播的动态过程。我们就想要（英文）的过程来预测，一个就是消息本身有多吸引人，还有消息转的越多看的人也就越多。

根据转发的速度给出了一个预测公式。对于左侧图中的杂乱的消息，在我们的公式下画一个（英文），它做成一条曲线，意味着可与，大家都一样，然后就是这样的一个过程。在这个基础上我们做了很多扩展，发现微博上转发的时间曲线和（英文）有些区别，可以把函数换掉，也可以把机制改掉，也可以做一些别的，我们做其他的改进，我们发现和（英文）不一样的是出现了很多的多级，这使得原来想试图用一个模型预测准的事情就不可行了。

最后一个就是关于时间不均匀的问题。你不能假设你发这个消息的时候所有粉丝都在线，可能那些人不能看微博，导致了时间不均匀，可能这一小时你的粉丝在线一万人，下一小时就五万人了。后来引进（音）的过程，每一次转发就带来了激励。这几年随着深度学习兴起之后，在建模的数据函数，既然是一个函数要学习，那不是深度学习最擅长的东西吗，把一个一个时间序列拿进来，直接学这个速率函数，就出现了（英文）的建模方法来（英文）函数。这样已经放弃原来试图理解传播过程了，上模型学了，把原来很多因子都变成一个学的过程，这个模型先把节点做（英文）放进来，再把（英文）序列化做建模，把这几块全部放进来学习一下就更好。

总结一下问题，（英文）本身是一个很难的问题，你想预测个消息是不是能转成功非常难，怎么个难法呢？我多数发了一个文章，被邀请在（英文）发一个微信，马上有人评论说可以预测转发多少次吗？我就没有说话。因为一个开放的系统没有办法预测。

自我实现的预测，叫（英文），比如说预测说中国住建委预测一下北京的房价会涨，但是真的涨了，这个一定会自己证明自己是对的，刚才的是自己证明自己是错的。预测问题后面有非常多潜在的商机，所以有很多人关注它。

（英文）是一个开放的问题，欢迎大家一起来做这个事情。感谢我的导师，以及我们组的小陈。我们组的一些工作。