
第三届未来网络发展大会
网络全球 决胜未来
非常感谢你们邀请我,我是跟大家介绍一下应用层。有一些数据所驱动的一些工作,有些工作是关于互联网的安全,还有网络的安全,我如果有时间我还要跟大家,有的时候你的浏览器每一次你访问你的喜欢的网页的时候,可能会有一些演换,有的时候200K就是20万个网站在全球,可能其中有些会有安全隐患。我并不知道中国网站哪些是合适。
我们先花一些时间来跟大家介绍一下,我们最近研究一些结果。我们在收集一些数据,这些数据我们就是要建立一个数据集,数据集是对于我们互联网当中安全有一些这样的一个纵向的一些洞见。我们在2016-2018年之间,我们都收集了一些数据,是互联网攻击的数据,我们希望能找到危险演进的逻辑,找到一些属性。我想有一些博士、研究生、研究者他们也会对这些数据感兴趣,我们有一个链接等会儿大家都会知道这个链接,我希望把网络安全性数据收集对大家有帮助。
这是看一下我们一些网络一个安全,还有这些攻击一个数据确实是很有冲动,这么多数据这当然也是过去数据储存的情况,现在当然不是这样,现在是像这样张照片一样。不管是在卧室或者是发电厂你的数据都会受到威胁,像这样网络安全真正存在一些事件,像2007-2017年,我们听到了很多网络攻击。比如说对发电机的一些攻击,电网的攻击还有我们像各种地方的攻击,像乌克兰电站攻击,所有这些数据造成损失是非常大的。你们可以看一下这些数据是非常大,像澳大利亚是一年整个网络攻击代价是45亿到140亿美元,在香港整个一年一个网络攻击损失是320亿美元,在全球来说2015年网络攻击是4000亿美元,这个就是给我们星球带来很大的问题。
我要跳过一些内容,我们是建立一个非常大规模一个数据集,我跟大家介绍一下我们如何实现目标。简而言之也是非常简单,你所做的就是先到那些黑名单,尽可能搜集这些黑名单,要搜集的越多越好,然后有一些比如说反病毒或者反这样一个恶意软件这些信息也增加进去,然后到这些平台当中收集,这些数据要反反复复增加,比如说我们会有一个荟萃数据BGP这样的路由器,这样一个数据搜集起来,关键就是我们要更进一步延伸。好,这就是我们所做的工作,我们一开始是从公共黑名单这里搜集起来,这当然是有14个或者15个这样一个公共的一个黑名单员,他们都会提供你在互联网当中比较有威胁的网站。另外我们还有互联网的报告,也看一下像这些公开黑名单资源一些历史,所以我们可能收集很多历史数据,后来我们产生这样一个报告单,比如说2007-2017这样一个报告清单,后来我们建立一个黑名单有很多也参加了这样一个恶性的攻击。如果我们想做的就是我们要拓展它,并不仅仅是在公共里,我们也看一下服务对这种在线的服务我们也进行这样的搜索。有这样64个在线网站病毒分析工具,这些工具都会有这样一个报告,所有这些都会告诉你对恶意供给IP在什么地方,另外还有一个时间,最后你会收集这些额外的IP这些IP也会给到这样的恶意的攻击,所以这些文件都要收集起来,像这样恶意软件或者恶意的攻击,或者还有一些参考还有推荐,所有这些都是有的时候有些开发者也会给你提供一些线索,所以你是所有这些仿病毒的技术你也要搜索一些。这些都是大量的信息,比如说恶意网络攻击的汇报都搜集起来,当然会有一些时间,我们所有的这些都是有价值的,我们通过这个分析之后就了解这些威胁背后的一个逻辑,以及互联网背后的一些问题,与这个不同威胁原因是什么等会儿介绍一下。
我们还做了一些其他工作包含,在针对这些威胁增加一些额外的数据收集来源,我们做的工作就是把路径源进行收集,我们收集了AAS,就是我们IP主机的位置进行场景开发,另外我们还收集国家的一些相关的信息。举个例子,刚刚是举例说明,差不多就是数据收集,我们进行收集之后我们还有一个域,我们通过这个域可以知道产生这些恶意活动的情况,然后我们把这些恶意的行为相关数据进行编码处理,然后登记在某一个地方,帮助我们了解发生的威胁,以及威胁的类型。最后我们的成果就是,我们收集了总计大概要5100多万恶意攻击报告,其中有一些有标签,有一些没有标签。其中有超过64的IP地址,其中我们在收集数据的时候发现一个问题,大概15%的数据都贴了标签。涉及到我们网络上的恶意的一些攻击行为,其中也涉及到我们专用IP和主机,所以这个讲的就是关于这个标签。这个标签流程也是非常重要的,可以帮助我们了解在发生恶意攻击行为的时候这样IP的情况。
大家可以通过这个图表可以看到,我们有(英文)占比是10.37,然后(英文)是64%,关于这个效率方面大家可能对这方面感兴趣,如果好奇想要看相关的内容,了解哪一个效率是最高的,我们需要采取一个非常有效的方法帮助我们更好的设置整个流程。大家可以看到这里有一些数据的显示,这里面关于主机受攻击的收集情况。我们可以看到通过有些报告,我们主机受到的攻击。大家可以看到在恶意攻击当中我们有多少台主机受到了影响,这个所讲的就是我们需要加强主机的专业化,我们需要专用的主机来抵御网络上的攻击行为。除此之外我们还有一个举证图可以部署的,基本上来说我们可以设定这样一个域值,机遇这个域值进行部署。
第二个方面就是通过机器学习的方法,其追有一些机器张贴了标签,可以帮我们对恶意攻击行为进行分类,另外我们这个学习的工具,我们也想拓展到其他的方面,大家可以看到它包含一些特性包括天、月、年,以及这些类型所对应不同数据是什么。大家可以看到这里列出了还有一些国家,哪些国家设定在IP地址受到了攻击,还有通过这样方式我们需要了解我们需要了解AAS,稍候我会给大家展示一些国家具体数据收集,以及恶意攻击情况。
前面也提到关于效率是如何,这个情况我就不在这里介绍了,我们总的来说会把这样的知识进行这样一个拓展,进行评价和验证。我们90%的报告都进行建模。我们构建了这样一个1%的跨度,我们通过这个筛选也发现了一些独一无二的IP地址,也发现了一些独特的现象、特性,大家可以看到这里针对IP的独特特性,其中有一些它的数据是非常高的,是超过60%的一个占比。另外我们IPS占的比例超过80%,其中有些IP地址在过去几年当中也受到了攻击。我们是AWS,这个是AWS所构建的一个体系,我们叫(英文)这是其中一个例子,实际上在有一些恶意攻击情况下,经常性反复性被攻击的对象。我们针对不同的国家,也进行了专项的分析,我们发现不同国家分布情况也是不一样,有一些国家受攻击比例是比较高的,是超过一万份恶意攻击报告的收集。这一方面美国和俄罗斯都做的比较好。
这一页所显示的就是我们叫做ASES系统,就是我们自动化系统我们发现有些是涉及到亚马逊,其中进程是具有侵略性的,还有(英文)这里面都是一些自动的系统。这个图表上都有显示,包括(英文)的一个数据。关于这个数据化的影响我也想跟大家提到一下。这是时间的一个演变过程,这个是基于我们所收集到恶意攻击报告所得来的,这个时间跨度是从2007-2017年,大家可以看到这个容量这个报告容量实际上是处于上升的过程,这个驱动因素是有一些,比较高水平FS还有exploit kit。在2008、2009年有学生跟我反映这个系统是有很好的工具键,关于这个(英文)还有一些恶意攻击活动过程都有在这个图表上显示。2009、2013年这两年是比较特别比较有意思的,这样一个情况实际上有由,大家可以看到在这个跨度上我们处理方式这个效率更高。我们更多接入了移动设备,移动网络,大部分的受害者大部分的IP,根据我们的报告就是在这两年的时候受到了网络攻击的影响,主要是因为我们接入大量移动网络、移动设备。近期大家可以看到,29%在2017年的时候这个(英文)所代表的数据达到了29%这就是我们事实的情况。
我们也按照不同的年份对我们受到攻击情况进行了分类,(英文)实际上在追赶,(英文)实际上也是。我们针对这一方面做了大量的工作,我们也开展了很多的工作,(英文)有一些实际上我们检测系统、探测系统探测不到的,实际上有些垃圾邮件没有纳入到我们黑名单当中,基本上来说我们对这个进行建模,构建一个数据链,构建这样一个流程。我们是可以针对不同量级的威胁构建一个模型,不好意思这个显示的可能不太正常。实际上我们可以测量这样一个高寿命,可以帮助我们了解有一些IP还有一些恶意的域,可以安装一些探测设备来避免病毒的攻击。另一方面对这个密度比较低的地方,我们提高这样一个弹性、灵活性,基本上来说我们可以在受到攻击以后进行快速的恢复。
根据IP我们对它的分布进行了总结,IP从国家的角度来看有一些特定的国家,无论是出于什么原因,可能他们会参加到恶意攻击活动当中。在这个方面我们基础设施就需要构建它一个弹性,保证我们网络的安全,我们也对其中一些信息进行了一些建模,这对我这些方面的看法。实际上我们通过数据的收集也可以发现有一些目标群体,实际上是受到了反复的攻击,比方说美国,平均受攻击时间是少于1.5周的,另外有一些特定群体目标群体是我们发现受到了反复的攻击,这是在美国比较常见的情况。这个对我们来说也是比较担心的,当然这里关于活动频率我要跳过,我们确实要给大家看一看,这个细节我当然也要跳过,我们是对这种恶意的攻击是进行了分析,我们主要把不同的活动进行分组,我们有的时候也有人会有一些硬核的这些。有的时候比如说钓鱼活动或者什么活动,这些都是恶中之恶的,他们会催生其余子图。有些具体的IP它会存在,哪怕你把它子的病毒或者是活动消除,那些顽固不化母的占点还是会存在,还是像僵尸一样存在,这也许是我们对这种调研活动我们要最终连根拔除彻底摧毁,我们就是要找到它的根源知道它的巢穴。
我们要找到母巢穴,把母巢穴这些罪魁祸首全部连跟铲除这是非常重要的。这是关于威胁量级的分析,这我跳过。我再跟大家介绍一下隐含的信任,这些代码或数据集在这里我们都有,是有一个链接的,大家可以其实经过这样一个链接进去看一看,比如说有的时候也会有些移动的活动,我们也在这个领域我们也有所涉及,大家够可以扫二维码用这个链接看一下,我们对这个研究数据集还有代码,还有更多一些洞察。这个也就是说我们是通过这些数据的分析来研究这个具体的一个威胁,
接下去我跟大家说,在网络当中一个或者是暗示性的信任,或者是盲从的信任,在这个方面很多人都发表了论文。有说在我们各个大会当中人们都进行了这方面的研究,这是是BBC.COM,这是大家所喜欢的一个网页,你如果是载入这个网页。当然有的时候,如果我访问这样BBC.COM网页最后确实我们访问这样的数据,是4个不同的国家还有9个网络,我们发出了172个这样的请求是进入4个国家9个外网,仅有14个是来自于BBC.COM域的,有35个是外部域的,有19个我们叫做这种外项型,有的是你比较喜欢的网页,有时候你当然可以说这是一个非常明确的信任,当然除了明确信任之外其他都是涵饰的信任。我们发现在BBC.COM下面会有好几个分支,有一个(英文)还有一个(英文),(英文)下面还有(英文),还有GST.COM,还有(英文),这样一层一级我们对各种不同依赖级都仔细分析,特别是分析这样含蓄性的信任,我们在20个网站当中,其实80%这样的网站都会创造这样一个信任链。80%他们都是会包含这样的一种含蓄的一个信任,比如说这种模糊性或者是那种灰色区域,你真的不知道到底出现什么样的情况。有一些极端的情况当中我们也会找到一些网站,是在20万个当中,有的时候它甚至达到38个层级,各种各样的一个资源一个请求,反反复复等等。所有的这些网站它其实都会从外面,比如说在三级或者是三级以下,他们都会引用外部的资源这种载入。从安全角度来说,有的时候外部进行载入往往会有敏感的信息,比如说(英文)这些脚本或者是有的时候,往往是针对你这种自信方面,有的时候有些含蓄性的这样的信任,可能会值得怀疑。我们要找到到底这些含蓄性的这种信任有多少是恶意的,当然我在这里说的是这个论文当中非常细节的东西,有6%这样一个份额,2.4%其实是比如说请求一些怀疑是可疑(英文)的脚本,我们有时候甚至很有把握的说这是一个恶意这样一个域传来的东西。当然相关这些数据代码在这个ULL,都有大家可以阅读这篇论文。
非常感谢大家的聆听,如果有时间我会接受提问。
主持人:谢谢,我们有时间接受一个提问。
提问:做的非常棒,我在这里有一个问题。就是建立你的一个数据集,这个问题就是并不是有很多这样标签的数据,并不仅仅是我们域的安全。我们的社区如何变的更好,是不是有一些教育可以变得更好?
DaliKaafar:可能有几点我能分享,谋划从一个点你要经历非常痛苦的过程,你要做一些人工的一些处理,比如说你希望要花一些时间,花一些这样的力气,来得到一些比如说方法,比如说这个是真正去做一些,当然有的时候比如说众包的数据并不一定真实,你要自己验证。有的时候机器学习也是一个工具,但并不是最好的工具。我们确实注意到了有的时候从IP的角度在某种威胁参与过程当中,也是非常复杂,有的时候很难捕捉到这样一个标签。这种特性当然你可以知道它有这样特性,但不一定保证它就能威胁你。