社交网络信息动态重构-第二届全球未来网络发展峰会

当前位置：嘉宾致词> > 分论坛一

社交网络信息动态重构

发布时间：2018.05.12 编辑：共浏览：573次

非常感谢。我现在会跟大家讲一讲，跟刚才之前几位讲者整个主题的内容有一些不一样，因为他们之前讲的更多的是平台、试验台。我今天讲的是跟社交网络有关的，以及我们怎么样去了解社交网络平台上信息传递的过程和流程。我研究这个大概有10-20年的时间，之前是非常重要的，尤其对我们品牌市场推广的公司尤其显得非常重要，它成了一个非常重要的市场推广的工具。而且在过去的几年，我们可以看到并不仅仅是比如说销售或者是市场推广的一些平台，他们会用社交网络。同时有一些人会用社交网络的平台报道假新闻或者来传播意识形态等等的用途。现在整个社交网络变得越来越重要，尤其是过去的3-4年当中更为重要。现在在网络安全，以及在政治等方面，它的应用越来越广。尤其是国与国之间政治的问题，他们都使用我们的社交网络来进行布局。

所以大家可以看到，看一看我们的信息传递，尤其是社交网络上的信息传递。之前您所想到的或者联想到的可能就是相关的一些研究，比如说社交网络信息相关的几块。第一，信息本身兴趣。比如说你的信息是很受欢迎的或者是很多人会很喜欢这样的信息，这样的话就会吸引很多人来关注这个信息。第二，社交网络拓扑。怎么样把一个信息传递给另外一个人，这是其中的一个特性。第三，信息来源会对信息的传递有一些影响。

信息源是非常有名的一个人传递或者是发送的信息，这样的话受欢迎程度自然而然会提高。如果您看到我们在过去几年中，我们就这个话题所做出的研究。我们通过不同的模式，包括我们信息的扩散模式，包括独立信息层叠传播的模式或者是解释模式，包括线性的模型都运用在信息传递的过程当中。我们可以看到，观察我们不同的追随者或者去看这个信息的一个人。

同时，在这个方面我们看到了运用线性的模型。这些线型的模型可以看到把线型相邻的人或者是信息传递给、转发给另外一个使用者。这就是一个模型，其实它就考虑到两个方面，一个是信息拓扑图，另外一个就是信息内在吸引人的程度，这两方面放在一起。同时，我们还有一个（英文）模型，它是一个分支的过程，就相当于我们有一个家谱一样，这个家谱比如说祖父有父亲，父亲有儿子，儿子有孙子等等拓扑图，是传宗接代的方式来建立的一个模型。

在推的当中，我们运用的恰恰是家庭族谱式的模型。我们可以看到一个信息接收者，这个信息接收者他是有很多追随者的，这个追随者当中多少人会去看这个信息、多少人会不看这个信息、多少人会转发这样的信息，我们都会借用这样的模式来进行一定的研究。

其实在十八世纪我们就在研究这样的模型了，这个模型是非常成熟的。同时运用这样模型的时候，我们是有不同的条件，尤其是在信息传播过程当中我们的模型会有这样的条件。

但是模型的问题就是说，把这个模型去和真正数据进行比照的时候，我们发现有一定的差异性。比如说信息的接收者根据这样的模型来计算的信息接收者，其实是要少于真实的信息接收者，对于83%的推文来说多有这样的观察。对于89%的推文来说，最大转发的跳跃其实也是少于我们在模型当中的下限值。我们利用基础的数据模型发现了我们有一样致命的流程，这样的流程应用呢，我们可以提前知道信息传递的可能性数值，如果用（英文）来表示的话，我们可以看到在第几代这样的信息传播就结束了，我们用这样的数据模式来进行计算。这个就是我们对这个模型的验证，不同的信息接收者的数据在传输中，最开始的话可以看到实际的数值和模型是有一定的匹配度。但是随着跳跃值的不断增加，我们会发现这样的数值会发现一定的偏差。

其实所做的这些研究可以很好地去解释，在我们社交网络当中，我们的信息是如何传递、是如何繁殖的。但是我们会看到有一些问题，因为我们在信息传递的过程中并不能透露某一个固定的流程，因为我们的信息传递是有一些变化因素的或者是不确定因素的。还有一个，我们怎么样去确保有一定的信息能够传递到我们要锁定的一系列的受众当中。比如说网络的架构也好，还是我们确定的一个人口分布的状态也好，我们可以根据这个来进行锁定。但是我们如何确保这些信息能够到达是我们要解决的问题。同时还有同样一个信息，大家可能不同的人都会转发，或者是同一个人会转发很多不同的信息，这些都是我们要考虑的一个因素。

我们在做这个研究的时候我们发现很难管理这样的情况，涉及到我们安全问题的时候、涉及到假新闻的时候，我们如何更好地管理这样的网络，这是我们要亟待解决的问题。这样的话，如果我们不解决这样的问题的话，实现最终目标的时候会发现有一定的难度。问题就是说，一群人想传播一定的假新闻，他们就可以能够借机去利用这样的概念。比如说他可以隐藏他的身份，他可以利用网络来锁定一系列的受众，然后再把信息转发出去。真正有一群人如果他们需要把某些信息传递过去的话，他们也可以去利用这样的信息或者是利用这样的模式，而且不同种类的信息可能有不种类的受众。

所以说，我们要锁定或者是我们要弄清楚谁是信息的坐拥者或者发送者，在这样的情况下我们才可以看一看自然的信息传递的导向。比如说一个假新闻，我知道有些人不知道它是假新闻，所以他不知道这个ID是谁发送的文章，他也不知道这是一条推送还是假新闻，在这样的情况下他很有可能不去转发这样的信息，但是还是有一定的比例人群或者受众会转发这样的信息。

我们所做的研究就是将整个问题确定下来，然后从反向思维去解决这样的问题。比如说，我们首先要找到源头，也就是信息的发送者是谁。同时，我们会经常用这样的流程，这样的一个模型。比如说我们可以利用这样的一个模型去定义时间的同步性。还有一个叫做Hawkes的程序，这就是一个点流层，可以看到事件发生之后和他周围相关事件相依赖的程度。我们可以看到在用公式的时候，以及用这样的等式的时候，我们也应用到不同信息传播当中。比如说新的信息传播或者是产生也可以运用到新的功能，这个功能其实就会告诉我们，如果我们把一个信息传递下去的话、传播下去的话，这个信息对以后事情发展的影响。我们可以看到，这个Hawkes的参数，我们可以看到不同的参数代表着比如说信息传播的时间，以及传播的可能性。

所以，我们可以做一些相关的假设。我把相关的假设当中最重要的一个举出来，这个假设就是我们可以知道有一些信息是对哪些人是比较重要的，我们也可以去监测到这个信息的发送者，终端发送者是谁。我们可以用这样的网络或者是网站，也可以用视频等等。所有社交网络上相关最初发送者，我们都可以监测出来。这样的话，我们可以看到在一定的时间内，我们可以看到不同的受众他们转发的数量。他们其实也提供了转发的时间，我们有这样的假设。我们用在线的社交网络交换的信息，这个信息得到使用了，其实并不是所有其他媒体的信息，有的人是通过微信来进行互相的协调，然后用微博来进行信息推广。我们觉得我们就看社交网络，而并不看其他的网络。

还有一个假设，如果你接收信息，在接收信息的时候就有一个成本的问题。维持住这个信息的话，可能就会有一个相关维护的成本。希望更快得到热门的信息，这个是第四个假设了。

还有第五个假设，我们有一个（英文）流程的假设。假定所有的用户行为习惯都是相类似的，这个当然会带来一个最根本的结果。如果A人和B人他们有一个信息，比如说及时地A和B。如果转发，这个A是在B之前先转推的，A先转发，他不可能在B那里得到信息，因为A发信息要比B快，所以A不可能从B那里得到信息，因为他发得很快，这就是一个因果关系的假设。

第二个，从这个假设当中推导出来的就是，这两个转推的距离会告诉你，这种信息B产生信息的可能性是多少。这个其实有可能B的信息是从A那里拿来的，如果B再转推，但是如果A已经转发了，那有可能这个B可能是在受了A的转发之后再转发的。比如有一个人发了一个信息，其实在另外一个人发信息5天之后再发了，他们之间的关联性就比较低了，因为是5天后发了。如果即时发，那他们是互相影响的。

我们有一个信息的流向图，很多的点都可以连在一起，我们就会考虑这样的关联性和概率。如果你，也就是说你的传输要大于0，如果你用这样的概率链接来进行计算的话，就可以得到这样的传播图象。有的时候会有两个共谋者，他们共谋之后开始发出他们的推文，这两个人并不是独自作战的。

信息会有一个拓展，比如说信息A是有这样的图，第二个信息是第三个图，另外一个图是另一个图画，各式各样的图画混在一起就创造了一个新的图画，这个新的图画就是我们平均次序的图画。根据平均次序的信息图画，我们可以找到一个活动者，我们叫做第一个活动者，这个可能就是源头，这个人是第一个开始说话的人。

我们前面也说过了，所有的这些都是和事件之间分布有关的，也就是传播之间的间隙有关。从理论角度来说，我们也知道如果像时间间隔之间的分布，我们如果建模的话，如果很短的间隔的话，我们可能会有一个指数级的分布；如果这个间隔很长的话，我们可能会有一个非常重的分布。这个是一个非常短的话，是一个指数级的。如果时间很长的话，可能会是一个非常重的尾部分布情况。第一部分是一个非常直的一条线，最后面的一部分就是这样的线，这就证明我们的理论假设是有效。如果在短尺寸当中是短的聚焦的话，这是15个小时，这个仅仅是一个小时。我们可以看到分布的过程当中，一个小时是有一些峰值的，这些峰值是每隔60秒钟会有一个峰值，有些人可能会转推你的消息、转发你的消息，这其实是一个非常好的迹象，这说明他们在峰值的时候进行转发、转推。我们就可以发现，这是有可能成为（英文）这部分的人。

第三个问题，我们如何能够来确保，这些人他们是在互相共谋的，他发信息和另外一个发信息是有协同性的。要回答这个问题，我们可以定义一下，叫做我们有一个同步的测量。我们可以看到有两个事件，他们是在一个时间窗口会有一个偶合的情况或者是同时发生。有多少时间，有两个用户他们是在小于这个窗口的时间间隔来进行转发的。他如果小于这个值的话，他们在这个窗口之间转发的话，我们可以计算出这个值，然后看一下这两个人可能是相互有共谋。这是他们转推的时间值。如果所有的一切都是随机的、大家都是独立的，非常短的时间段很难有两个人同时发出同样信息。但是如果时间长的话，这个可能性就更大了。如果一个小时之间，那么在同样的窗口要转发信息的人可能就更多了。如果这个窗口时间更大的话，基本上就会线性的情况。如果窗口很小的话，基本上没有线性的一致性。如果出现这样的同时发，在很短时间同时发，他们肯定是共谋。如果时间很短的话，他们是共谋，没有随机的情况。

第三组人，他们其实可能隐藏自己，但是他们是一个共谋者。这个数据我告诉大家的是，这个数据是来自于（英文），这个告诉我们非常好。看一下谁是活跃分子，活跃分子发出了信息，然后这个活跃分子在什么地方来的，我不会进行政治讨论。我们进行是技术会议，很清楚。第二组的方法让我们能够非常清晰地明白我们的社交网络当中会发生什么。

我的结论，在社交网络当中我们应当有一个新的视角来看一下我们信息的传播，有一个转推的过程，我们有一个微博这样的应用。还有另外一个，在线的博客。还有并不是基于（英文）的系统，我们是不是可以快速地找到这些活动分子，我们能够非常快速地找到这个人，比如说不到30秒钟就能够找到这个活跃分子。其实他发这个信息是用A策略做的，比如说A策略可能是由这个国家来谋划的。我们马上就会到达这一步了，能够非常快地探测到这个策略的执行。然后看一下谁在幕后进行操作，有一些国家也可以拷贝其他国家的策略。在中期我们有一个窗口，这个窗口会展示出我们到底可以做些什么。

这是我的演讲，谢谢你们。