华为手机怎么设置app图标加密,华为手机怎么设置app流量模式

  

  加密流量分类逐渐成为网络负载管理和安全威胁检测中自动识别目标应用、服务和协议的主要方式。现有模型通常使用带有精确标签的大规模会话样本来提取流量的深层可识别特征,如证书链、包长序列和方向序列。然而,在网络环境(如局域网)中,流量包含各种场景,这些方法不具备健壮的通用能力来适应不同场景下的迁移,在小规模标注样本下达到预期效果。   

  

  在文章WWW 20222中,中科院信工所的研究者提出了一种流量表征模型, ET-BERT,有效学习无标注流量中的隐式关系,从而提升不同场景下流量分类的效果.考虑到流量传输的结构特点和消息格式,研究人员借鉴自然语言处理中的大规模预训练架构,使用流量数据报作为令牌序列,捕捉大规模未标记流量中隐含的上下文关系,然后使用小规模标记的特定场景任务进行进一步训练,完成最终的分类任务。   

  

  ET-BERT可应用于多个加密流量场景任务,如新型加密协议TLS 1.3网站和应用分类、加密隧道VPN应用分类、匿名通信Tor应用分类、恶意服务恶意软件服务分类、不平衡加密移动应用分类等。在ISCX-VPN、ISCX-Tor、USTC-TFC、跨平台和cstnet TLS 1.3等公共数据集上的实验结果表明,ET-BERT能有效应用于多场景任务,提高分类效果。该方法对全加密网络时代下,加密流量分类技术的研究和网络空间安全的维护具有重要启发.   

  

  论文链接:https://arxiv.org/abs/2202.06335   

  

  代码:https://github.com/linwhitehat/ET-BERT   

  

  一.背景介绍   

  

  近十年来,随着网络传输协议加密的发展,流量分类的研究工作不断优化,以满足真实场景下流量分类的需求。现有的工作已经意识到,流量和加密的爆炸式增长,已经不能利用专家经验手工构建由明文字段组成的指纹库。   

  

  FlowPrint这种基于明文包中头信息聚类和互相关的方法,优化了对专家经验的依赖,但在TLS 1.3这种有全加密趋势的新加密协议中仍然发挥不了作用。另外两种典型的方法是基于专家经验构造流序列的统计特征,以及使用深度模型学习原始流序列的表示。它们优化了模型对明文的依赖性,但是需要大量的人力成本或者流序列的精确标记。由于加密协议全加密的趋势和隐私保护法律的完善,这不仅是一个工程难题,也是社会管理和法律合规的挑战。因此,现有的典型的三种方法的缺点是显而易见的。   

  

  在自然语言处理和计算机视觉领域,无监督的大规模预训练模型已经被提出,并在相应领域取得了里程碑式的发展。在自然语言处理中,BERT等人提出即使没有标注,单词和句子之间也存在相关性,可以学习和帮助构建这些自然语言的表示,对现有的待解决问题有显著的增益。然而,如何引入加密流量并有效地进一步解决现有的挑战是本文要解决的关键问题。   

  

  Gyehe等人是近年来首次尝试将预训练架构应用于加密流量分类任务的人,但研究人员发现他们的尝试仍有很多需要优化的地方。网络流量本身是没有语义的编码符号序列,但网络传输过程受实际内容(如文本、图片、音频、视频等)的差异影响。)以及前后序列的差异,导致直接把流序列当作“句子”进行钝性迁移的效果并不理想。   

  

  因此,研究人员认为:   

  

  l现有挖掘加密流量特征的模型没有考虑到加密流量具有不同场景下流量的共同特征,在流量表征过程中只关注单一场景;   

  

  l具有预训练架构的现有模型没有探索和利用流量传输行为与区分不同应用之间的关系。   

  

  二。方法介绍   

  

  为了解决这些挑战,研究人员提出了一种基于挖掘流量上下文和传输relationship-ET-BERT(Transformer的加密流量双向编码器表示)的加密流量表示模型。该方法使用掩码突发预测任务(Masked BURST Model)和同源突发预测任务(Same-origin BURST Prediction)来挖掘和表征加密交通消息的隐含关联信息。   

  

  研究人员表明,ET-BERT的关键思想在于从原始流量消息中捕获鲁棒和普遍的相关性,它不仅可以有效地应用于过去和现在的不同网络流量场景,还可以适应完全加密的未来网络流量场景。   

  

  说明:加密流量及其结构   

  

  网络传输中流量的形式是二进制比特流,主要的构造块是数据包和会话流。其中数据包是用于传输的最小完整单元;会话由通信设备两端的完整交互单元组成,交互单元由多个数据包组成;本文将突发结构定义为会话流中的局部结构,它由会话流中单向传输的n个连续数据包组成。   

  

  ET-BERT   

  

  具体来说,这种方法主要分为三个部分:a .预处理   

和编码加密流量为token组成的BURST结构,B.预训练学习加密流量报文的关联关系,C.将预训练模型应用到下游任务中微调。

  

预处理阶段的关键在于将原始的会话流量抽取带有内容传输特性的BURST结构和显著偏置的数据信息。BURST结构是由于不同网络服务的内容在与客户端交互时的内容结构差异产生的带有传输特性的流量结构。相比于直接将完整报文作为模型输入进行表示学习,这种预处理能够更好结合本文使用的预训练任务。

  

预训练阶段的关键在于利用自监督学习任务从大规模无标注的BURST结构化流量报文中捕捉到内容的上下文关系以及流量传输的同源关系。在网络流量中,离散的加密数据包作为基础单元无法体现出不同应用、服务的差异性。为了挖掘流量信息之间的可区分特性,研究者不仅是对符号上下文进行掩码预测学习,同时对BURST结构进行截断成对并预测来源于相同BURST的BURST子对。相比于只学习符号上下文的关系,这两种自监督任务能够兼顾流量的传输关系以及内容关联性,并且更好地为下游场景服务。

  

微调阶段是对带标注的不同场景的流量数据进行两种通用输入结构的处理,包括包级别和流级别。这两种处理也是应用场景中通常使用的模式,在预训练好模型的基础上继续训练较少的轮次以达到最适合特定场景的识别需求。

  

三、实验与分析

  

为了证明提出的ET-BERT框架的有效性,研究者在网络流量分类公开数据集ISCX-VPN,ISCX-Tor,USTC-TFC和Cross-Platform数据集以及自采的CST-NET TLS 1.3数据集上进行了实验。采用准确性指标macro-accuracy,精确度指标macro-precision,召回率指标macro-recall,以及F-measure指标macro-F1 进行评估。

  

1、总体结果

  

研究者将ET-BERT模型和五个场景下的11个代表模型在所有场景任务中进行了比较,包括AppScanner,CUMUL,BIND,K-fp,FlowPrint,DeepFingerprint,FS-Net,GraphDApp,TSCRNN,Deeppacket和PERT。表2和表3中报告了具体的结果。

  

由结果可以看到,尽管在个别场景的数据集下,FS-Net、Deeppacket等传统模型是具有强大性能展现的,但在不同场景下的迁移性不足,而ET-BERT在所有场景下的性能表现波动明显优于对比模型。此外,该研究在测试集上实现了比其他方法更好的结果,这进一步证明了ET-BERT强大的泛化能力。

  

2、消融实验

  

研究者对该研究进行消融实验,以了解ET-BERT中具有和不具有单个模块与处理模式的影响。如表4所示,研究者选择了学术界引用较多的ISCX-VPN数据集作为消融实验数据来源。ET-BERT在没有单一模块的情况下在测试集的性能均有不同程度的下降,这验证了所提出的每个模块对表征加密流量起到了积极作用。

  

3、解释性分析

  

从结果而言,目前为止的数据已经表现了ET-BERT的可靠性能,但是研究者对加密流量在无语义的背景前提下为何能够借助自然语言处理领域的BERT思想展开了一定的探索和解释,这对进一步提高模型在流量场景应用的泛化能力是十分有益的。

  

在密码学体系中,理想的安全密码体制包含两个特性:雪崩效应和完备性(扩散和混淆特性),他们能够保证加密数据的真实随机性,而使得攻击者无法从加密数据中获取任何有利于破译信息的模式。然而,在现实密码系统中,完全随机并未被实现,部署在网站、应用中的不同加密算法存在着不一致的随机性。为了衡量现有常见加密算法的安全强度以及实际流量数据中密码套件的分布,研究者对常见的5类加密套件进行NIST随机性测试评估和密码套件统计。

  

如表5所示,不同密码套件在15种随机性测试项目下展现出的随机性指标差异明显,这种随机性差异会放大部署了不同密码套件的加密流量间的区分性。同时,如图3所示,研究者发现在6种测试场景的数据集中,TLS 1.3部署了随机性较强的加密套件并且分布维度偏单一化。对比分类性能结果,研究者认为密码套件的实际部署不当可能导致加密流量数据更易被识别。

  

4、质量分析

  

(1)小样本场景分类的质量

  

如图4所示,通过压缩训练数据规模和实验测试,研究者表明ET-BERT相比其他典型代表方法在3种不同规模的小样本场景下展现的性能更加稳定,即使在10%的数据规模量级(50左右)下仍保持90%左右的macro-F1结果。

  

(2)结果可视化对比的质量

  

如图5所示,研究者通过分类结果的可视化展示ET-BERT的性能表现出色,在多类别的样本类内距离以及类间距离的边界识别更加清晰,对于流量特征近似的类别也能够保持较低的错检率。

  

四、总结

  

研究者提出了一种面向加密流量分类的流量表征模型ET-BERT,该模型采用基于Transformer网络的预训练-微调设计结构,极大改变了传统流量分类研究中依赖大规模标注流量和大量专家经验知识的问题。ET-BERT具有良好的泛化性,能够适应不同的加密流量场景,包括新型加密协议,在未来全加密网络中应用更加普适和可靠的网络行为分析技术具有较好的启示作用。

  

此外,研究者表示当前工作相比于统计特征构建的方法,在可解释和易理解方面还存在不足,同时还未对数据毒化和场景漂移等不稳定因素干扰展开进一步测试验证。研究者计划在未来的研究工作中尝试解决这些问题并进一步保障在全加密网络中的可靠和可用。

  

作者与团队简介:

  

林鑫杰,中国科学院信息工程研究所(中国科学院大学网络空间安全学院)在读博士研究生,在熊刚老师的网络行为分析与对抗组、于静老师的跨模态智能研究组开展研究,研究方向包括加密流量分析和预训练学习,个人GitHub主页:https://github.com/linwhitehat。

  

中科院信息工程研究所网络行为分析与对抗团队的主要研究领域为网络测量与行为分析、信息对抗理论与技术、网络取证技术、海量数据挖掘与分析等,相关研究工作在USENIX Security、WWW、INFOCOM、Computers & Security、ACSAC、WWWJ、CIKM、计算机学报、RAID、IWQoS等国内外重要会议期刊发表。

  

中科院信息工程研究所跨模态智能研究组的主要研究领域为多模态信息表示、记忆、推理、生成和积累等,应用场景包括跨模态信息检索、视觉问答/对话、图像/视频描述生成、视觉场景图生成等,相关研究工作在CVPR、ICML、AAAI、IJCAI、ACM MM、TIP、TMM等国际重要会议和期刊发表,研究组主页:https://mmlab-iie.github.io/。

相关文章