去伪存真——从泛空间测绘到落地实践(ISC网络空间测绘论坛演讲内容整理)
屏幕前的各位领导,各位嘉宾,各位同事们,大家好。我是来自北京数字观星科技有限公司的阮建,很荣幸能够参加2020年ISC大会,并且很感谢主办方和我的公司能够给我这个机会,在此和大家分享一个比较有趣的话题。相信关于网络空间测绘技术的发展,各位友商已经进行了非常全面且专业的阐述,在此我就不再赘述这部分的内容了。那么我想先带着大家看一看近几年国内外发生的一些网络安全大事件。
2017年在IT领域爆发了永恒之蓝、永恒王者等系列漏洞,以及WannaCry勒索病毒。2018年在互联网领域发生了许多大量的智能设备被漏洞利用的事件,包括摄像头、智能门锁、智能音箱等,给社会和群众带来了很大的威胁和恐慌。2019年公安部针对各类违法犯罪行为进行了净网2019的专项行动,打击网络黑灰产交易、黑客攻击破坏手段等违法行为。
我们如何有效保证网络空间的安全,实际上是一个巨大的难题,也是我们共同的责任。网络安全战的关键在于能看见,正如一句古话“谋定而后动”,网络空间安全防护也是如此。做好网络安全防护的第一步就是要先做好网络资产梳理和网络空间测绘。
由此我们可以看到,国家也开始越来越重视网络安全问题了。那么虽然国家已经开始重视起网络安全的工作,但是网络空间的淡化也将给我们的工作带来巨大的挑战。因此在这种情况下,网络空间的测绘也将向着泛化测绘去发展。
除了传统的受控资产测绘,还应该增加对于非受控资产的测绘,受控资产指的是能够被企业和组织掌握,并且可以通过一些手段进行管控的资产,比如传统的IP、UIR资产等,非受控资产指的是暴露在网络上,企业和组织难以管控或者掌握不全的资产,比如暗网数据、代码数据、移动资产等。
我们可以看到,目前数字资产的情况是,不仅数量基数很大,而且资产种类很杂,依靠传统的测绘手段是难以全面的掌握数字资产的。所以面对海量资产数据的现状,传统空间测绘在资产测绘方面已经有一点力不从心了。
随着5G的到来,在未来的十年里,我们的生活将会融入越来越多的智能化元素,网络资产的数量也将会有一个质的飞跃。5G时代的来临,也将进一步的推动网络空间泛化发展。目前已有的智能家居、智能驾驶以及未来可能会实现的远程手术,智能生产、智能生活等方方面面的事情,都将对网络空间的安全性有着严格的要求。
面对网络空间泛化发展的情况下,网络空间测绘的内容将不再局限于IT资产,我们测绘的范围也将会变得越来越广,所以我们需要从传统的空间测绘转变为泛空间测绘,那么到底什么是泛空间测绘呢?
我们先来看一下网上对于网络空间测绘的定义:网络空间测绘是对全球互联网空间上的节点分布情况和网络关系进行探测,构建全球互联网图谱的一种方法。那么泛空间测绘,它是指除了对互联网空间上的节点进行测绘外,还进一步对其他互联网上的信息空间进行发掘,并和网络空间相碰撞、结合,从而更精细化的空间测绘方法。
接下来,我想给大家分享一个我们在空间泛化发展下遇到的挑战。
那是一个看似很普通的日子,我们的一个客户突然找到我们,扔给我们三个网站,说,为什么这三个网站你们没有发现?那么在当时迫于甲方爸爸的压力,我们只好乖乖的回去看看这三个网站到底有何来头。
因为当时产品用的主要还是传统的资产发行手段,所以排查了很久都没有发现这三个网站。于是,我们开始尝试别的手段。
我们首先采用了国内外主流的空间测绘引擎进行关键词检索,通过检索我们得到了几千条资产数据,然后我们对这几千条数据开始进行人工加工清洗,最终我们只发现了客户给的网站中的一个网站,最后我们还是通过其他工具查找用户现有的所有营业部的备案信息,以及所有营业部的历史备案信息,我们在此中发现了在历史备案信息中,有客户提供的那几个网站的线索,然后进一步的进行反查,匹配到了开放的端口。然后我们通过访问这个网站发现,这几个网站确实是客户提供的这几个网站。
所以通过这个惨痛的故事,我们发现传统的资产发现手段和空间测绘,能够发现的资产面是非常受限的,我们需要拓展资产测绘的范围。
在刚才的故事中,我也提到了,我们通过用空间测绘引擎进行检索,对几千条数据进行筛选,这无疑会耗费我们大量的人力和物力。然而最后却只发现了一条真实资产,所以说半空间测绘的落地应用,它既能够满足空间泛化发展下资产社会的需要,同时它还能够提升资产数据清洗利用的效率。
接下来我就给大家分享一下,我们是如何在实践中从甲方视角出发,将泛空间测绘实现落地应用的。俗话说巧妇难为无米之炊,在进行泛空间测绘之前,首先肯定是要先有足够多、足够全的资产数据原材料,这张图就是我们通过甲方视角收集到全面的泛空间测绘数据源。在此我们发现,有越来越多的甲方客户,他们不仅关注传统IT资产数据,他们还开始重视起自己的非受控资产,比如像代码、小程序、API和暗网数据等。那么为了让资产测绘的面更广,还进一步的补充了组织架构及备案信息等这些非受控资产。
那么在实际的案例中,我们可以通过这些数据,提取和企业相关的业务特征,从而发现甲方的真实资产。比如发现某某银行开放了某某生活这样一个业务,在拥有全面的测绘数据源后面,对海量的资产数据,我们也需要更完备的数据测绘机制,来对这些数据进行加工和利用。
在数据清洗阶段,我们一般会通过三层清洗方式对数据进行层层的筛选。三层清洗方式它指的是黑数据清洗,白数据识别和灰数据权重匹配。
首先是黑数据清洗,以我们曾经服务的某银行为例,资产测绘出的数据中存在着大量的博彩相关网站,但这些网站其实本身是相对比较容易清洗的,我们可以通过博彩站点的特征,进一步识别这部分资产,从而将这部分资产从测绘结果中分离。那么这些黑数据主要包括黄赌毒、钓鱼网站,SU优化搜索等内容,再将黑数据剔除后,我们可以进一步的去提取测绘结果中的白数据,这部分数据是基本能够确认为真实资产的数据,比如通过域名解析匹配到的网站资产等。那么白数据的匹配方式包含域名匹配,呼应匹配和行业特征匹配等内容。到了最后,也是最困难的部分,就是灰资产匹配。这部分资产它没有明确的黑产特征,也无法和用户资产直接产生关联。
目前我们运用的是权重计算方式来计算是否为真实资产。权重的维度主要包含icon匹配、标题匹配、证书匹配、版权所属,以及APP图标,和APP开发者证书等。即,如果我们发现一个网站从标题到证书到版权声明,以及页面的icon都能够和企业相匹配,那么这个网站是真实资产的概率将会大幅度提高。
通过以上三层智能清洗,我们就能够较为准确的发现用户的真实资产。那么目前,这个准确率能够达到86%左右。同时,我们也将进一步的进行特征挖掘和机械学习,来提高整体判断的准确度,挖掘和识别在整个资产清洗的过程中也是最重要的内容。
俗话说人工智能是块砖,哪里需要哪里搬,我们目前也在尝试着使用一些监督学习的方式来对数据进行进一步的挖掘。一般来说,会首先对全网的海量资产数据从多个维度进行聚类,包括指纹聚类、行业聚类、黑数据聚类和白数据聚类等多种类型。那么聚类的目的是为了判断哪些资产可以进行进一步的挖掘分析,再通过聚类后,我们会对以分类的资产进行多个维度的特征提取,比如行业特征、供应链特征、黑数据特征、白数据特征等内容。那么举个例子,同花顺对于证券行业就是一个行业特征,那最后,我们会将提取到的特征运用到对于非受控数据的清洗上,从正反两方面去训练特征挖掘的能力,从而也会提高我们的清洗能力。
那么接下来我就抛砖引玉,先给大家介绍一下我们目前的泛空间测绘解决方案。
这套解决方案大概由四个部分构成,包括数据采集中心,任务调度中心、数据处理中心和资产管理系统,其中任务调度中心和数据采集中心共同构成了我们的泛测绘中心。泛测绘中心生产出的数据,在经过数据处理中心的清洗模块,特征识别模块和权重计算模块的加工处理后,将会形成我们最终可消费的资产数据,最后再进入我们的资产管理系统,结合业务安全以及运维等多个属性,将资产信息进行统计融合,并进行展示。
同时,资产管理系统还可以提供标准化接口,支持对接第三方系统,从而进行进一步的分析、统计和展示。比如可以对接资产态势感知系统,安全运营平台和soar平台等等。
正如图片中展示的这样,深海之下它是未知的、恐怖的以及危险的。在深海之下也会有非常珍贵的东西。那么泛空间测绘,它的价值就在于它能够去发现那些藏在深海之下的珍贵资产。拿我们现实来说,我们就在深海里得到了非常可贵的能源、石油。那么在网络空间这样的深海资产,它也是存在的。它虽然很难被发现,但它也很有价值。一旦被不法分子发现,那么就极其容易被攻破,从而造成极大的损失和危害。
所以泛空间测绘的意义就在于能够帮助我们去发现那些隐藏在深海之下的珍贵资产。就像前面刚刚提到的,网络深海也是未知的、危险的。泛空间测绘就像一艘潜水艇,它能够潜入漆黑的网络深海,去找寻那些在深海之下的深海资产。
泛空间测绘,它在企业和组织更实际的价值,就是能够帮助我们去掌握海内外那些无备案、无监管的资产,去解决分支机构资产难统计的问题,并且能够做到主动识别以及风险可控。泛空间测绘它还能够帮助我们去智能的分析海量公网资产情报,鉴别对隐蔽的隐藏资产。
在前面讲了很多泛空间测绘的落地以及价值。那么下面我希望能够通过一个例子,加深一下大家对于泛空间测绘落地价值的理解。
我们可以想象一下,在一个风雪交加的夜晚,你饥寒交迫的来到了一家饭店,你对那个老板说你想要去吃饭,但是老板他给你端上了一盘未加工过的山珍海味,你可能会觉得这个老板有毛病,甚至你还会在心里骂他,你给我这个东西,难道要我自己去做吗?但是如果老板就给你端上了一盘非常简单的炒土豆丝,你这个时候你肯定会毫不犹豫的去选择这盘土豆丝,并且想要一碗大米饭,虽然是简简单单的食材,但是它也会令你非常的满足。因为这盘土豆丝对于现在的你来说,比那一盘生的山珍海味更有价值。
所以泛空间测绘它能够实实在在的、一针见血地帮助企业和组织解决所面临的问题,而不是提供一些看起来很有价值的原材料,让你自己去加工,自己去利用。
那么泛空间测绘实践落地的价值就在于能够帮助你去去伪存真,发现那些未知的疑似资产,那么未来的网络空间测绘将会如何发展呢?我们认为,在5G时代即将到来的情况下,网络空间的泛化发展是必然的趋势,那么未来网络空间测绘可能会有以下这三种发展趋势,分别是广泛化、精细化和智能化。接下来我会为大家进行一些阐述。
首先是广泛化,网络空间的泛化发展会带来种类更多,基数更大的资产数据。从开始的事件图我们可以看到,不法分子的攻击面也越来越泛化,所以我们应该也是必须采用泛空间测绘来对网络空间测绘发展的趋势进行一个很好的应对。
接下来是精细化,随着越来越多的行业和机构进行数字化转型,传统的测绘手段并不能很好的适应和面对这种趋势,我们需要采用精细化的手段来满足各行各业的资产测绘需要。那么空间测绘精细化,以我们目前从甲方视角来看,我们认为可能会包含以下几种情况,比如说行业精细化,归属精细化,供应链精细化和时间精细化等。当然这只是我们的一个猜测,它可能会有更多的一个精细化的分类。
最后是智能化,在网络空间泛化发展的形势下,仅仅依靠人工和工具,是很难对这些海量测绘资产数据进行有效的清洗利用的。泛空间测绘的智能化是指对测绘数据进行清洗加工过程的智能化赋能。以我们现在已经实现的例子来进行说明,我们现在已经实现了特征识别的智能化,在这个阶段,我们会对聚类判断、特征挖掘进行智能化赋能,以及通过利用智能化去帮我们建立知识图谱和知识学习等。在泛空间测绘中加入智能化,它能够有效的提升资产准确度和测绘效率。
最后我想说的是,随着网络科技不断的发展,我们现在的知识和技术可能在明天就会过时,就像马其诺防线一样,它在一战时期就是很有效的作用。但是到了二战期间,面临新的攻击手段、攻击设备以及攻击策略,马其诺防线将会形同虚设,所以我们应该保持一个永远前进的心态。
泛空间测绘也是如此,它只是一个阶段的方法论,只是一个阶段的试用物,它是我们探索路程上的一个拐点,而不是终点。那么本次,我的分享就到此结束,感谢大家的收看,谢谢大家。
以上是观星于8月14日上午10点在2020年ISC大会网络空间测绘分论坛的演讲内容,回放地址:https://isc.360.com/2020/detail.html?id=15&vid=107