论网络分析与追溯技术对安全演练的重要性

随着 2021 年安全演练的到来,各行各业又要经历一次安全大考。本文就网络分析和网络追溯技术进行讨论,看看上述技术在安全演练场景中有什么作用。

 

在进行安全演练前,我们必须对自身的网络资产进行盘点,看看我们需要对哪些设备与网络进行防护。下面以中型企业为例,看看中型企业的网络结构。

中型企业的网络结构

 

中型企业的网络一般来说已经具备了一定的规模,从网络结构上来看,具备多个不同属性的分区,接入点也比较多,内部的业务构成也较为复杂,甚至不同区域关键设备的特性也不尽相同,不同区域的安全要求也并不一致。

 

如下图所示:一个中型企业网络中可能包含若干个网络区域,例如常见的互联网接入区、DMZ 区域、互联网服务区、内部服务区、办公业务区、安全运维区、语音视频区、无线接入区等等。

通过对中型企业网络结构的梳理,我们不难看出,即便是一个中型网络,其复杂程度也很高,更不必说大型网络所涉及的内外网交换、不同地域的数据中心等等问题。

 

网络架构的复杂程度,很大程度上决定了安全演练的难度系数。简言之,网络架构越复杂,安全演练难度也随之增加。

 

那么在安全演练中,如果要使用流量分析技术(NTA),我们应该遵循什么原则呢?

 

如何监控安全演练中的网络流量

**
**

在安全演练期间,如果不能对繁杂的网络实现全面覆盖,就应该针对核心门户、关键链路进行重点关注。通过对过往安全演练进行经验总结,以下区域的流量在安全演练中需要重点关注。

 

  • 互联网接入区

 

互联网接入区如同城邦的城门,一座城往往不仅仅有一个门,一个企业的互联网接入区势必也是复杂的,安全演练中有威胁的流量也往往通过这个门进入到企业内网。

 

在以往安全体系的建设中,大量的安全设备,也堆积到了互联网的接入区。那么 NTA 技术还能补充哪些能力呢?笔者认为有两大核心关键能力亟待补充。

 

** 一是真正意义的全流量能力。** 目前很多安全产品都打着全流量的口号在宣传,但并不能实现真正的全流量能力,原因如下:

  • 性能不足:真正的全流量对性能的要求非常高,存储空间要很大,存储后要能分析和溯源,现在的“全流量”安全产品往往口号喊得响,但实现的时候都会打折扣。

  • 必要性不够:很多安全厂商认为没有必要做到真正意义的全流量分析,往往觉得只需要对检测到的安全事件进行存储和溯源就可以了,但在实际安全演练中有威胁的攻击,往往是无法检测到的。

 

** 二是提供全流量的实时分析能力。** 该能力强调全流量和实时性,目前市场上的安全探针中,甚少有安全系统提供全流量实时分析能力,其原因有两点:

  • 性能问题:全流量的实时分析需要同时满足全流量与实时性两大特征,单单做到这两点,对硬件和软件的整体要求就很高,再加上安全检测和防护,实在是难上加难。

  • 全流量实时分析的部分高级应用场景落地难:例如有了实时全流量分析,能够快速、有效的评估互联网暴露面,对于收敛暴露面是一大利器;还例如有了实时全流量分析,能对互联网流量分析的同时对内网流量也进行检测。大量的 APT 攻击都证明,很多渗透行为在内网中发生横移的时候,往往攻击特征并不明显,例如慢速扫描等,但是这类行为的合规性、合理性却非常明显。例如内网主机、服务器主动发起的异常外联等。

 

  • 核心服务区

 

在不同的网络中核心服务器区的架构可能是不同的,根据服务器的属性不同,往往会被划分为不同的区域,例如 Web 服务器区、中间件服务器区、数据库服务器区等。这些区域的部署位置也不尽相同,例如 Web 服务器区往往在 DMZ 区,中间件、数据库、App 服务器等往往在内网。技术实现上也差异化很大,有标准物理服务器、虚拟化、Docker/k8s、云(公有云、私有云、混合云)等等。

 

根据部署区域、部署方式的不同,在采用 NTA 技术进行核心服务器区流量监控的时候,采用的技术手段也是大相径庭。

 

针对传统物理服务器,往往直连物理交换机(接入交换机或核心交换机),物理交换机的 SPAN 技术即成熟又便捷,配合流量采集、流量编排系统,很容易和 IDS、数据库审计等产品进行联动。

虚拟化、Docker/k8s、云的情况就非常不同,它们的共性是没有办法直接通过物理交换机进行 SPAN,因此获取这类服务的流量就变得非常棘手。目前主流的方案是依靠上述平台的能力或者借助第三方插件的能力来实现。但上述手段往往都是通过隧道技术将进出流量导流出来,例如 GRE、vxlan 等等,这就要求传统的安全探针要能够对接上述封装流量。

 

那么要建设真正的实时全流量分析和追溯系统应该怎么做呢?

 

NPMD**** 产品在安全演练中的应用

 

** 性能管理和全流量分析存储是 NPMD 产品的主要应用场景。** 因此,从技术特性上来看,NPMD 产品特别适用于安全演练场景中的全流量分析和回溯。

 

** 首先 NPMD 产品天生具备高性能。** 从市面上能调研到的 NPMD 产品来看,其性能参数往往不掺水,究其原因如下:首先 NPMD 产品在功能设计之初比较纯粹,不包含安全检测能力,讲得更技术点,NPMD 产品没有病毒库、规则库等大量消耗性能的功能;** 其次 NPMD 产品的存储能力远强于传统安全产品,其容量往往可达几十个 TB 级别。** 由于 NPMD 产品的大数据分析技术往往要求海量内存来支撑,因此其存储后的分析能力,远超传统安全产品。

 

在去年某重点交通行业的安全演练行动中,蓝方在传统安全探针全面哑火的情况下,使用天旦 NPM 进行了攻击链的溯源分析,成了蓝方最后的救命稻草。蓝方通过天旦 NPM 海量原始数据存储和分析,找到了红方的攻击证据,在失分的情况下,通过“发现类”和“消除类”规则实现了加分。

同时通过天旦 NPM 实现了暴露面收敛等功能,在安全演练实战中发现了很多问题,譬如发现了多处违规上线系统,将“可能风险”及时消除,避免违规上线系统被红方利用。

 

安全演练中重点要看哪些流量

 

安全演练中理论上应将全部流量进行关注,但往往由于条件所限无法全面落地。因此,按照业务重要性,理应优先考虑互联网出口流量。该区域重点是 Web 服务器区流量,同时要考虑暴露面收敛,收敛的原则是合理收敛,不能因为安全演练而影响正常业务;其次是针对内网核心服务器的流量进行监控,建议设置明确的端口白名单,并对所有服务器的外联流量进行重点审计。

 

除此之外,在安全演练中还需时常注意以下几类非正常的流量:

  1. ** 高危端口的访问流量。** 高危端口其实主要是能够直接提供访问、文件传输、管理设备和管理应用的端口,例如:ftp、snmp、telnet、远程桌面,这类是系统管理及文件传输的默认端口,一般按照合规要求,这些数据不容许从外部网络进行访问,产生了对应的流量就需要非常警惕。

  2. ** 非正常访问端口。** 该端口需要进行长期比较来完成,观测日常访问数据中的流量及端口访问情况,通过日常访问的特征(访问时间、频率、源及目的地址)来发现陌生端口和应用的访问情况。

  3. ** 突发节点的流量。** 对于某一个系统日常流量是恒定的,如果某个时间段该业务的访问量突增,那么极有可能是有扫描工具对该应用进行了外部安全扫描,这个时候应该警惕。

  4. ** 外网异常的长连接。** 根据业务特性来判断,一般业务属于即时性业务,在业务处理完成的时候主业务流程应用会发送 close 关闭连接,如果长时间业务端口发送 keep-alive,那么很可能是在进行远控等工作。

  5. ** 关注 IP 节点的数据窗口。** 该实际操作难度较高,举一个例子:以最新版本 C2 来看,该后门运行后,因为有远程桌面监控功能,所以定期回传的数据包内容均为屏幕截图,因此长期滑动窗口会在最大值。

 

** 验证工作是网络流量分析与追溯中的重要环节。** 由于无法从单次流量中确认该系统是否有足够的风险,因此某些时候需要通过流量回放(tcpreplay)来将不确定的数据包反向回灌到网络中做二次检测或者提取其中的数据包交给第三方安全厂商进行进一步的安全监测,当然也可使用 NPMD 产品通过时间、访问关系来迅速提取该部分流量。

声明:文章来源于运维派。本平台只用于分享和交流不作商业用途,如侵权请及时联系我们删除。