第二届全球未来网络发展峰会

创新·引领·未来

当前位置:嘉宾致词> > 分论坛六

在线社交媒体分析与挖掘

编辑: 共浏览:828次

感谢黄老师的介绍,非常荣幸和大家分享一下我们做的一点工作。

刚才袁老师的报告信息量很大,图的含量很高,我这里图的比例就没有那么大,大部分都是文字。我尽量把我的报告讲的明白一点。

刚才黄老实说叫社会媒体计算,这个题目我当时写的有点大了,做的就是三个任务,今天给大家分享一下。

这个题目研究社交媒体,社交媒体大家都很熟悉了,我们每天花在社交媒体上面的时间都很多,有微博,还有微信,其实社交媒体下面列了几个,微博、微信,还有我们自己玩的社会叫SCIENCE。社交媒体这个概念大家都了解,人人都在发消息。

它和传统的媒体有什么不同呢?第一个就是上面内容的产生方式不一样,以前的媒体就是(英文)的产生是一些中央的节点,产生完了以后再传给大家。而社会媒体是一个社会化的传播方式。在这样的一个平台上,人和人的影响力就扮演着非常重要的作用,会确定哪些信息成为一个眼球经济,可以抓住眼球。在这个过程中还有一个决定传播的群体行为,可能每一次转发都是一个个体行为,也没有太多的规律可言,大部分转发的群体行为会出现一些规律。

讲今天要讲三个简单的东西。在分享之前说一下数据,第一个数据2016年6月1日到30日一个月的数据,有1700万原发的消息,再加上它的转发。另外一个数据就是学术圈自己玩的那个社交平台,一个是美国物理协会自1893年以来,它期刊上发的所有论文都是封闭的。还有WOS杂志,1955年成立的,这几年所有的作者的论文。发现学术的传播和社会信息媒体的传播几乎是一样的。

重点讲第一个和第三个。第一部分讲王浪结构给春天带来比较大的作用,我们会研究一下网络的结构,上面的一些问题,重点就是这个结构怎么做。在社会媒体中个人影响里是怎么样的,第三个是每个消息会活起来,怎么样让它活起来。

第一个叫做网络要学习。如果这个网络做的可视化,节点之间会聚成一个团,连接的要相对紧密一些,网络很大之后很难把图画的情况,可以想像有这样的一个结构特征,这个被称为社区结构。

对这样的研究有来类,第一类是早期做网络划分的,既然网络可以聚成一个一个的团,能不能把网络做切分,使内部连接紧密一点,这样的工作做了40多年了。

大家需要一个更好的节点表示,这个节点就不再是做一个(英文),需要做一个低纬的程序表达,这几年大家做(英文)就多了。

这些(英文)值可以得到一个KV的表达,以后可以在这个基础上做一些任务。

后来大家为什么专门研究这个问题呢?是因为这样的表示满足不了大家后期的很多需要,于是大家就问了这样的问题,为什么我们需要做网络表示?以及什么样的网络表示是什么样的好的表示?我们需要把高纬的,像微博有好几亿节点,但是连接就很稀疏,就是变成低纬的。学了这个空间之后,它就给每一个节点赋予了很多的坐标,赋予了很多的任务。方便下游的任务,而不至于仅仅停留在网络结构怎么样。特别是这几年大家做了深度学习之后,向做一个向量化的表示,接后面的各种算法做更好的任务。

怎么评价网络表示是好的呢?第一个就是这个表示要能够恢复原来的网络结构,要重构原来的数据。第二个解决这个表达有放大能力,能预测将来哪一点有边相连。

一个好的表达有三个要求,一个是分布式表达,第二个是希望是非复制的,解释物理意义的时候不好解释。第三,希望这个表示有它的稀疏性。

主流的方法就是(英文),把原来网络表示的连接语做一个分解,分解成值的表示,分解成一个W一个Z。怎么样达到我们前面的非复的,稀疏的呢?这样的做法做还不错,但是坏处就是网络变化之后,因为只有一个解码过程,Z恢复A的过程,没有编码过程,网络变化之后再来一个新的结点,后来有人提出要用一种编码和解码对称的结果来做会做的更好一点,对称的结果是大家熟悉的(英文)来做这样的东西,但是(英文)早期没有做(英文)约束。

这是一些结果的展示,加了这个对称之后,它是对称的又是非复的,自然而然可以漫谈稀疏的要求。

第一块当你学到表达之后就可以做网络对齐,现在一个人在网络上都有帐号,有一个微信帐号,机油淘宝帐号,微博帐号,怎么知道这几个帐号是同一个人的帐号呢?如果可以把一个人的多个帐号关联成一个人那就好办了,把同一个人的ID关联起来。你这个表示做了(英文),这个网络之间观测到(英文),你可以学习一个信息函数,把一些不知道的关系的人对齐。现在很多公司也在做这样的事情,把它旗下的很多产品,用户下面有一个唯一ID关注一下。还有别的很多应用,最典型的应用就是节点在打标签。

总结一下第一部分,(英文)这几年对网络结构的一个基础的工作,从早期的第一阶段表示到现在高级阶段表示,它的模型早期的比如限定模型到非线性的模型。层次也从原来自浅层,后来变成深度学习的多个影子。仅仅恢复网络结构的方法,到利用网络之间的(英文),还有(英文)来做监督的学习,这样的几个趋势。未来的方向还是看好的研究方向。

面临的挑战,当有新的用户进来信息比较少的时候怎么做?这个是做(英文)的人关注的。怎么评价有没有一个(英文)对各个任务都适合的,我个人觉得不太可能,但也是一个佛像吧。

第二部分就是在网络中如果要做广告投放做什么,我们选择哪些网络结点作为广告投放的对象,使得有效范围最大。

在微博上发一条消息,你希望被很多人看见,你需要埃特哪些人会迅速的被很多人看见呢?你可以埃特一下谢娜她也不理你。这个选择问题要做一个优化。

你怎么知道人和人之间的影响力有多大,对什么有影响,这是一个(英文)的问题了,它比较难,需要同历史上传统轨迹说推断出来人际的影响力,有的就直接定义出来,用结构直接推断影响力。

知道传播影响力之后怎么样通过算法帮你做传播。问题从提出来证明是个疑难问题,而且这个问题提出来的第一篇文章就得了(英文),也是这个领域的一个不好的消息。后来也没有太多的新的工作出来,主要是提升它的计算效率。

一般情况下可以把影响力少的那些人先删掉,微博上三亿用户可以剩下几百万了。这个结果总归不够(英文),大家还是觉得把这个(英文)算法之前更加速一点。这样的算法有点像(英文)一样,时灵时不灵。

我们想做的事情,怎么样把这个速度做上去呢?这个性质就不讲了。我们通过分析这个问题本身,发现碳氢(音)算法之所以上不去,它的精度依赖于(英文)的次数,如果把这个精度降下来,精度就没有保障了,如果要想把精度做上去,就要把模拟次数提高,如果把模拟次数降下来,精度就没有办法保障。我们分析保障并不需要把这个东西估计的很准就可以做到,我们关心的是说两个节点S和T谁大谁小。这样我们发现以前的算法浪费了大部分的时间在估计这两个东西,实际上不用估计准,知道谁大谁小就行了。注意到这个现象以后这个算法可依很快的加速。比如找100个人投票觉得谁高,一投票就知道了。如果比较准要找100个人也很难准。

后来我们也做了进一步的探索,把它推到一个实际应用的场景,用带安全中心的一些系统中来做选择。

最后再给大家介绍一下第三块工作。我们是做(英文),就是传播预测。(英文)一般在社会媒体中有三类数据,第一类只有传播的时刻,比如说一个页面可以记录下来什么时间被访问了,第一次访问发生在T1第二次发生在T2,预测这个页面会被多少人访问。往往在网页,查询的情况下。还有就是微信的场景,会记录下来哪个人在什么时间转发了这个公众号,但是没有记录下来是在哪里看到的。这也是一种场景。还有微博上的场景,不仅记录了每个人在哪里转的,还知道在什么时间转的。

看一下传播的形式,在第一个场景下是讲(英文),有一个论文被引用了多少次,这是一个非常杂乱的轨迹,给我们也带来了很大的难度。还有就是(英文),就是推算微博使用的频次,也是一个很杂乱的东西。

(英文)有四种,输入两种,输出两种。输入有一种就是这个消息只要一发出来立刻预测,还有贯彻一段再遇车。输出就是要么分析回归问题,(英文)预测一下转发的次数会不会超过某一个值,超过500算在国家的检测范围内了,超过就是追责了。

一出来就预测这个事想象一下就不靠谱,就像一个小孩一生出来一样预测他什么死一样。

这个问题非常难,为什么说这个例子呢?看一下难度。第一个就是预测一篇论文被引用多少次。这个是1884年在(英文)期刊创刊的第四年发的论文,这个论文就是关于预测,预测有多成功的文章,他自己本身就很不成功,他发表之后70年没有一次引用,第一次引用是1959年。发现最近这几年一下火起了,这里面当然有我的贡献。如果在它的前几十年预测它,会预测它将来会活下来吗。这种现象被称为睡美人,也不知道哪个引用是她的白马王子。

它的难度体现在这个地方,这一个东西的引用或者这一消息的转发会一阵一阵的,就叫阵发,会对我们的预测带来难点,不管这个问题多难,我先商上去试两把看看到底有多难。

这个问题先不管难不难,一个就是消息的内容特征,是哪些人转的,用户特征,结构特征,实际特征。就可以预测,预测差不多可以有百分之六七十的样子。这个预测有很多种不靠谱,比如当观测五年的时候大家都一样的东西,20年后就差异很大。这个问题告诉我们,这些方法之所以预测不好,原因就是静态特征,没有见过这个消息传播的动态过程。我们就想要(英文)的过程来预测,一个就是消息本身有多吸引人,还有消息转的越多看的人也就越多。

根据转发的速度给出了一个预测公式。对于左侧图中的杂乱的消息,在我们的公式下画一个(英文),它做成一条曲线,意味着可与,大家都一样,然后就是这样的一个过程。在这个基础上我们做了很多扩展,发现微博上转发的时间曲线和(英文)有些区别,可以把函数换掉,也可以把机制改掉,也可以做一些别的,我们做其他的改进,我们发现和(英文)不一样的是出现了很多的多级,这使得原来想试图用一个模型预测准的事情就不可行了。

最后一个就是关于时间不均匀的问题。你不能假设你发这个消息的时候所有粉丝都在线,可能那些人不能看微博,导致了时间不均匀,可能这一小时你的粉丝在线一万人,下一小时就五万人了。后来引进(音)的过程,每一次转发就带来了激励。这几年随着深度学习兴起之后,在建模的数据函数,既然是一个函数要学习,那不是深度学习最擅长的东西吗,把一个一个时间序列拿进来,直接学这个速率函数,就出现了(英文)的建模方法来(英文)函数。这样已经放弃原来试图理解传播过程了,上模型学了,把原来很多因子都变成一个学的过程,这个模型先把节点做(英文)放进来,再把(英文)序列化做建模,把这几块全部放进来学习一下就更好。

总结一下问题,(英文)本身是一个很难的问题,你想预测个消息是不是能转成功非常难,怎么个难法呢?我多数发了一个文章,被邀请在(英文)发一个微信,马上有人评论说可以预测转发多少次吗?我就没有说话。因为一个开放的系统没有办法预测。

自我实现的预测,叫(英文),比如说预测说中国住建委预测一下北京的房价会涨,但是真的涨了,这个一定会自己证明自己是对的,刚才的是自己证明自己是错的。预测问题后面有非常多潜在的商机,所以有很多人关注它。

(英文)是一个开放的问题,欢迎大家一起来做这个事情。感谢我的导师,以及我们组的小陈。我们组的一些工作。