第二届全球未来网络发展峰会
创新·引领·未来
谢谢黄老师的介绍,也感谢会议的邀请。我本人是做数据分析的,我今天来和大家分享一下我们怎么样通过地图的形式去更好的理解在网络空间各种各样的数据。这里面我们也会介绍一些其他统计的方式。
实际上我们在这两天的会议中,包括前面的报告当中,我们都可以看到面临的在网络世界当中产生了无形多的数据,这些数据怎么样利用好,怎么样理解它是一个很重要的任务,也是摆在我们面前的机会。
我们先看看人跟机器的特点,人其实跟机器比起来,虽然机器比我们人的记忆力要好的很多,做事情比我们快很多,但是我们还是可以发信在整个人和机器的比较里面,像一些数据的存储和计算比我们人远远的强大,在决策方面人还是要比机器能力高的多,即使今天有很多讲人工智能,包括前两天新闻讲谷歌怎么样提供让这样的问答非常接近于人的样子,但我们还是可以看到有一些东西,但一些关键的任务,我们在网络上发现一个特殊的攻击,这个时候一定要人来参加才能解决这个问题。我们看怎样把人和机器结合起来来解决这些问题。我们让人能够通过跟这些无形图象去交互,让我们更好的去理解和分析。
从可视化来讲,它是把数据根据它的不同类型,我们把它映射到不同的标的上,这里面我们需要设定各种各样的变量之类,这些是怎么样设计一个具体可视化,今天我们不来谈怎么样研究或者提出一些特殊的可视化方法,我们主要是介绍各种各样的结果,让我们来看一下现在有哪些可视化的东西帮助我们做的情况。
在讲正题之前我先讲一个案例,这个案例让我们看一下机器怎么样跟人结合,通过可视化帮助我们分析疑难的问题。
这里面是一个2017年在国际的可视化的主要会议上,每年有这样的竞赛,这个竞赛的题目往往是跟各种实体空间,也有跟网络空间有关的,去年讲的是在一个保护区,有一些鸟类忽然变少了,我们通过收集获得的数据而找到原因。自然保护区里面有多少车开进去,当我们没有这些完全的车辆轨迹,我们只有它的一些节点,比如他经过大门了,他经过一些检测站。我们主要看一下像这样的交通检测的数据,可以帮助我们做什么。
有大约40个不同的检测站,包含了一年左右的数据,有十几万的检测点。我们作为一个分析家来说怎么样做这件事情。我们直接看数据实际上很困难,我们需要通过一定的可视化分析方法更好的帮助我们理解数据。它酉空间的信息,时间的信息,还有序列的信息。这些信息可以帮助我们很好的去理解在这样的一个事件里面大家各个的活动。
如果我们只是看这些基础数据,我们找出了这么大的车,不同的颜色代表进入了不褪的关卡,仅仅肯这个,我们只知道这些车的行为比较相似,但是它究竟能够代表什么,有什么不可告人的秘密我们可以发现,事实上是很困难的。
我们先从高危的角度来看,把所有的车经过各个检测节点,我们可以看成一个纬度,经过数目的多少就可以看成一个高危数据。做成缩影之后有这样的投影,每个人一下子可以看到,我有十个大的聚类,在此之前我们对这个数据一无所知。
展开我发现每一个据类有几千辆车,都经过完全一样的轨迹,这个主要是指检测站经过的离散的点,中间只有一条路,我们比较确定他们是这么走的,让我们看一下这些路线有什么特点,我们其实都可以看到有这样十个不推的聚类,每一条据类有单独的数据。第一条是从这个边上进入,然后朝北走,到这里绕一下再下来,其实本身是要从东边进来,它从南边出。这个是从南边进来向北走,再从南边出去。大家发现什么问题了?我们都说要时间就是金钱,时间就是胜利,我们要开车经过这个地方,怎么可能是舍近求远绕道呢,我们要看看这中间是有一条路的,他为什么不走过去,其实还有很多个这样的情况,如果仅仅有一两辆车是这样并不奇怪,他迷路了,如果几辆车车都是这样的模式,那它背后一定存在一定的原因。
对照这个规律,通过我们的逻辑,通过我们的常识判断出来,机器来判断就很困难。这个有一个在线的支持。机器如果不告诉它这些,它不会主动做这一块。通过这一块我们有这样的一个发现。
我们看看它为什么要绕路?下面这里其实有一条路,它有限制,一般的外面的车是不能进来,只能是内部的一些车。我们再做一个工作,在这个系统里把这些点选中,看看有哪些车经过。下面这几个部分,包括蓝的点,包括用黄色圈起来的,这些都是经过了刚才那一条下面的受限制的小路。
我们再来看这些车有什么问题。我们发现这些车下面的一部分,这一部分都是内部的车辆,所以经过没有问题,纬度是这个点里面有很多辆车,但是它并不是具有这个权限的。我们再来看看有可疑的东西。这部分车有什么特点?它在空间中是从南边进来,一直朝北,然后再回去,是这样一条路。在时间上我们可以看到,第一个它是半夜三更时段,两点到四五点开车出来,所以半夜三更不睡觉,像程序员我们为了赶日期。
再来看看在不同的天里面什么反应呢?大概每隔一来周就会跑一次,很有规律。这里面我们就发现有么一个很反常的现象,有车辆半夜偷偷从南边的快速开到北边,北边是有一个湖,这就是一个奇怪的现象。像质量空气中化学物质的检测数据,还有一些摇杆数据,这里就不多做解释了。
从摇杆这边发现,这个地方开始各种各样的特殊的化学物质,在摇杆上面有重要反应的,它的升高和车半夜开走的时间是吻合的。
最后根据各种各样的信息我们可以得出结论,有一群人,其实是一个公司,这个公司有排污,一段时间公司开始严管了,这个公司表面上做的很好,但是半夜三更这些车把污染物拉到湖边,倒入湖中,导致鸟类减少。
其实我们讲的主题是讲在网络空间,网络空间里面有底层的各种各样的数据的流转,到最后我会讲一个例子,就是想不通的IT之间的观念。
我们也关心在上面,大家人怎么样在网络空间中进行互动现在已经越来越生活在物理空间和网络空间,有的时候网络空间会很在意,你的朋友圈发了什么,我们把相当多的时间放在了网络空间。这里面我们挑选几个地图的例子作为案例分析的代表。
今天我们来讲的是希望地图的方式更好的表现这样的问题。为什么要用地图?地图是很早之前人类开使用它描绘我们外在的客观世界。像左边的图是世界上大家认为最早的地图,大概公元前五世纪,在巴比伦挖掘的地图。右边是最早的一部城市地图,就是江苏苏州,这是在宋朝。这些地图反映什么呢?反映空间的结构。无论想到南京,我们马上浮现出这个城市的结构,浮现出内部不同的功能。想象一个国家,我们也可以漫谈浮现出这些情况。地图不仅仅是说对外在客观世界的直接描述,像伦敦的地铁实际上不是长这样的,包括在南京、北京、上海各个地铁,从来没有一个城市的地铁修的是这样横平竖直,但是每一个城市的地铁都画成这样,要么是横的,要么是直的,我们可以很快的在里面找到环城的路线,对于地铁来说,通过这样的形式是隔离的,这个形式虽然它和我们的现实世界不同,但是它更直接反映我们的认知。我们也会考虑怎么样在更多的物理空间和网络空间更好的认识它。
比如每天都打车,但是同样的可以把它运作化起来,就构成了另外的可以表示在这一段时间里面这个车的密度,代表了这个城市活跃的程度。
这个图是积累了大概两周的时间,我们看在网络上,花了带有地点,带有GPS的地图,这里面看到跟我们对于中国的这些城市的面积形式是非常密切相关的。这里面不能说它完全代表其他城市,它实际上代表了各个城市建使用社会媒体工具人的活跃程度。对于个体来说它是一个差异非常大的,但是对于一个巨大的群体来说,它的这些变化在一个可以变化的范围。
这里面我们比如找出一个具体这个人到哪里来,到哪里去。我们看第一个比较重要的,对于人群移动行为,我们通过怎样的地图来推进。每个人有他完全的GPS路径,我们是可以跟踪他的行踪。如果说我们不考虑某些公司后台的跟踪,这个信息不会被公开。比如今天在南京开会,一个人发一条消息,告诉他我在南京开会,可能另外一个人到另外一个城市又会发一条。这个移动可不可靠,对于一个个体来说是相当不可靠的,为什么相当不可靠呢?里面有相当多的因素。我刚到南京就发一条,还有我快要走了才发一条,或者说出发前发一条。
他乘坐不同的交通工具,他也有可能是中间经过了南京,但是没有去发。所以对一个人是相当不可靠的。对于大规模的数据来说是个人不可靠,但是对这个群体来说里面有内在的模型。比如去观测北京到成都的往返数据,我们去搜集这个数据,结果我们发现这些人的分路,我们把时间间隔进行划分,结果我们看到并不是杂乱无章,我们看到的非常规律,有好几个峰,这里面我们再来仔细看每个峰,我们发现每个峰对应一些不同的行为,最前面一种是北京到成都的飞机,后面的峰又对应通过比较慢的交通工具。
这里面我们看到一个很有趣的,虽然个体不可靠,但是群体是可靠的。我们坚决不能相信一个人,这个人很有可能是不可靠的。但是群体的行为是可以预测的,大家的行为做出来的从统计意义上看是非常符合一定的规律的。
有了这个之后我们就可以做这样的系统,我们是把在一个区域里面,大家这些规模信息隔起来,我们可以在里面提取出每一个数据,这样就可以分析很多事情。比如可以找整个台湾,使用微波,在台湾究竟是什么样的行程。过年过节的时候大家到台湾旅游的人很多,就可以把主要旅游的路径,从哪些口岸进入的,是走一些什么旅行的路线,具体的景区有什么样的行为,可以把这些提取出来。或者可以在里面看到他去花莲,垦丁啊。这是从他的空间来讲。这个是更偏向于地图本身的。
我们看单微博,发一条微博有成千上万的人去转。我们要介绍一下怎么样把这个虚拟的大家在网络上交互的转化成另外的,网络上信息怎么样流传发展。这个像一个地图的样子,它实际上是我自己在一段时间里发的大约500条微博,把跟我这500条微博所有互动的几千个人搜集起来,根据他们回复的时间,大家转发的内容,我们可以把所有的你再一个虚拟空间的人和你自己,把这个分成不同的城市和省份,不同的省份代表不同的兴趣的区域,在中间我标的颜色比较深的是一些主要的人员,这些人员往往在这个社区里面会起到一个主要的转发的作用,每个人都是自己的网络帝国的国王,推你的首都开始发起一些信息,它的省会或者主要城市会有一些主要的人给你转发,从这些中心城市开始向外扩散,扩散的其他的城市,有点像这样的模式,其实是很有意思的方面。它在不同的纬度上,这些纬度包括转发时间、转发内容,这些都有不同的分布的,就像各个城市不同的天南地北,南方有的吃饭,江浙大家就不吃辣椒一样的,这些在网络空间里面也存在一些不同的现象。这里可以对它进行进一步的分析。我们可以观察社群的行为和他的模式的关系。
这里是选了九个不同的帐号,每个帐号的网络空间是不一样的。我们有几个社群是比较均匀分布的,有几个是大家跟我做一行的,有的是做大数据的,有的跟我是校友。比如这些更可能是一些商业的或者说有一些专门的针对用户对象的宣传的帐号,它的关注的人群就非常非常稳定,有一个非常大的省份。还有分成不同的情绪化。
还有一个,我们也可以拿社会事件去做。我们也是用这样的地图做一个分析。有一些不同的大陆或者岛屿,大陆就是这些信息转发的比较多的,而岛屿就是带来一些比较分散的,大家在那里说一些比较偏离主题的一些话。在这里面有这样的城市,不同的城市有关健词,有这样的一些河流,河流表示这些关健词之间有这样的转发,有关联的关系。把它单一的一个我有一个事件,这里面可能有5000个人发了5000个微博,每个人发的不一样,我们把这5000条的数通过一些算法合并成一个图,这个图再经过一定的分析,最后构建出这样的大陆,有了这样的大陆之后,我们可以把整个朝鲜从最开始到前面有紧张,到现在变成缓和,我们都可以放在上面。不同的内容就会形成不一样的主题。一开始的时候颜色不同,最开始大家讨论的是一些直接的主题,等到后面大家开始又讨论别的内容,到最后大家开始讨论办到局势,甚至连马航事件都会讨论。
我们可以看到这样几个例子,可以通过绘制一些地图,把我们在网络空间虚拟事件变成我们一些更加熟悉,更加容易理解的东西进行讨论。除了这些像社会媒体的内容,我们可以做出来以外,对本身网络连接的关系也值得做分析和探讨。这里面我们讨论一个大规模动态的东西,我们把一个很复杂的动漫图转化成象素的东西,这个和传统地图还是有一些区别的,这里面完全抛弃了传统边的形式,我们只是把每个象素代表一群在网络里面具有一定意义的社区,不同的变化,这里面有时间的变化,自左向右有一些不一样的情况。我们分析全国的域名,以及IP的变化,我们可以抽取两年的数据。我们过滤掉一些小的顺序,我们这里面有几千的时间,我们经过这些过滤之后呈现出一些群落,每个群落代表一些现象。
比如在这里面发现有这样的一些颜色区域,整个地图的领域发生了变化,有了这个之后可以把它进一步展开,展开之后再进行进一步扩展。它对于某一个公司做大规模测试,然后对域名有非常大的变化。
我们非常希望大数据分析专家和大家进一步分享。
这个主页这两天上不了,因为我们学校本身网络有调整,下周大家可以上去。大家可以关注公众号,或者加微信进行交流。我们还是面对非常复杂的数据,我们要考虑怎么样用一些人能够更容易理解的工具,比如用地图的方式分析复杂的现象,让我们能够更好的去传播,也可以让我们理解一些复杂的现象。这两端会越来越多的融合,怎么样有这个方