基于主动学习的入侵行为检测方法、系统、设备及介质与流程

文档序号：37778323发布日期：2024-04-25 11:04阅读：35来源：国知局

本发明属于网络流量的入侵检测研究，具体涉及基于主动学习的入侵行为检测方法、系统、设备及介质。

背景技术：

1、网络安全的重要性日益突出。系统对计算资产的依赖使得它们很容易受到攻击。现有对入侵检测系统的研究大多是基于平稳的网络环境中进行的，也就是假设随着时间的动态变化，网络流量数据自身的统计特征和分布是具有平稳性的，同时训练的入侵检测分类器是静态的，不会考虑随着时间变化到达的连续数据流的特征和分布变化，即没有考虑到在真实网络环境中存在的概念漂移问题。此外，非常准确的入侵检测模型通常使用监督学习来进行模型训练，这需要处理大量带标记的网络流量样本。然而，手动标注网络流量代价高昂，而且由于概念漂移，模型需要经常使用新标注的样本进行迭代更新，以保持持续的高准确度。更重要的是，随着新的安全漏洞和网络攻击的出现，这种入侵检测分类器的检测效果将会不断下降，换句话说，入侵检测分类器一旦过时，就必须对其进行再训练或者重新构建一个新的入侵检测模型，导致了大量的成本和资源消耗，同时也造成了对新攻击类型的响应变慢。另一个问题是更新入侵检测模型时引起的延迟。理想状态下，新的模型应该在接近实时的情况下可用，也就是说，在后续的流量样本到达进行分类之前。在实践中，新模型只有在延迟一段时间后才可用，而在此期间出现的流量样本将使用该模型的前一次迭代。因此，需要一种理想的分类器来快速适应新出现的入侵方法，同时要求尽可能降低模型更新所需时间成本以及对网络流量进行类别标注的人工成本。

技术实现思路

1、针对现有入侵检测技术的不足，本发明提供了基于主动学习的入侵行为检测方法。

2、本发明旨在解决入侵检测系统部署在真实网络环境下对网络流量数据进行入侵检测分析判断时，需要大量带标记的网络流量样本以有监督方式训练检测模型，且没有考虑随着时间变化到达的连续数据流的特征和分布变化，即没有考虑到在真实网络环境中存在的概念漂移问题；本发明目的在于提高入侵检测系统模型对真实网络环境中存在的概念漂移问题的鲁棒性，进一步提高模型的检测效率，降低更新入侵检测模型时引起的延迟问题。

3、本发明中，首先，监听被检测设备网卡，获取流经该网卡的全部网络流量，使用流量特征提取工具对其提取数据特征，得到网络流量数据集。使用数据集训练深度神经网络模型和最近质心分类器，深度神经网络模型作为检测模型，最近质心分类器作为标签估计器。对流量数据进行入侵检测，考虑到在真实网络环境下因概念漂移问题导致的流量特征变化快的特点，在检测模型工作的同时，使用检测模型置信度指标对待测样本进行概念漂移样本和高可信样本的筛选，再通过最近质心分类器作为标签估计器对概念漂移样本进行类别标注，使用smote过采样方法对漂移样本和高可信样本组成的样本集完成类别平衡操作，最后，检测模型对平衡后的样本集进行增量学习，实现入侵检测模型的快速迭代更新，更新后的检测模型代替原模型进行入侵检测工作。

4、本发明还提供了基于主动学习的入侵行为检测系统。

5、术语解释：

6、1、深度神经网络模型(dnn)：是一种多层神经网络，并且将上一层的输出特征作为下一层的输入进行特征学习，通过逐层特征映射后，将现有空间样本的特征映射到另一个特征空间，以此来学习对现有输入具有更好的特征表达。深度神经网络（dnn）的最后一层使用softmax函数通常是为了将网络输出映射到概率分布上，以便进行分类任务的预测。

7、2、概念漂移：是指在模型训练学习中，模型训练的数据分布与模型部署时的数据分布之间的变化。这种变化可能导致模型性能下降，因为模型在不同分布下可能不再适用。为了处理概念漂移，需要及时更新和重新训练模型，或者使用适应性学习方法来适应新的数据分布。

8、3、置信度：模型置信度是指机器学习模型对其预测的信心程度。当模型对某个预测非常自信时，它的置信度较高；当模型对预测不太自信时，它的置信度较低。模型置信度通常表示为概率值，本方法的用到的置信度由检测模型的输出计算得来，后面会详细介绍。

9、4、主动学习：主动学习是一种模型学习策略，其中模型通过选择性地请求标记数据来改进性能。与传统的被动学习不同，主动学习的模型可以自主选择最具信息价值的样本，以便更有效地学习。

10、5、增量学习：增量学习是一种机器学习方法，它允许模型在不重新训练的情况下逐步学习和适应新的数据。在增量学习中，模型可以接收新的数据样本，并使用这些样本来更新模型的参数，以便模型能够适应新的数据分布并进行预测。这种方法对于大规模数据集或实时数据流非常有用，因为它可以减少重新训练的时间和计算资源的消耗。

11、6、最近质心分类器：最近质心分类器是一种基于质心的分类方法。在最近质心分类器中，每个类别都有一个质心向量，用于表示该类别的特征。当要对一个新的样本进行分类时，最近质心分类器计算该样本与每个类别质心的距离，并将其分配给距离最近的类别。

12、7、smote过采样方法：smote（synthetic?minority?over-sampling?technique）是一种常用的过采样方法，用于处理不平衡数据集。在不平衡数据集中，某些类别的样本数量明显少于其他类别，这可能导致机器学习模型对于少数类别的预测性能下降。smote算法通过合成新的少数类样本来平衡数据集，从而提高模型对少数类的识别能力。其基本思想是通过在特征空间中寻找相邻样本，并在这些样本之间进行插值来生成新的合成样本。通过使用smote算法，可以有效地增加少数类样本的数量，从而使得数据集更加平衡，提高了模型对于少数类别的学习能力和泛化能力。

13、本发明的技术方案为：

14、基于主动学习的入侵行为检测方法，包括：

15、（1）获取网络流量数据，进行特征提取，获得网络流量数据集，划分为训练集、测试集；

16、（2）使用训练集对深度神经网络模型(dnn)和标签分类器进行训练学习；

17、（3）检测模型使用主动学习进行样本筛选及检测模型更新，检测模型即训练好的深度神经网络模型；包括：

18、使用检测模型对测试集进行检测，检测的同时利用置信度得到待测样本中的概念漂移样本以及高可信样本；

19、使用标签分类器对概念漂移样本进行类别标注工作，高可信样本直接使用检测模型的预测值作为其类别属性；将完成类别标注的概念漂移样本与高可信样本共同组成主动学习样本集；

20、对主动学习样本集进行样本类别平衡操作，得到类别平衡的样本集；

21、检测模型对类别平衡的样本集进行增量学习，使检测模型快速完成对新样本的学习，实现检测模型迭代更新；

22、（4）使用迭代更新后的检测模型代替旧模型进行入侵行为检测，输出检测结果，检测结果包括正常良性流量、恶意入侵（攻击）流量。

23、根据本发明优选的，在进行入侵检测的同时，获取所有检测模型对流量样本正确分类的置信度；包括：

24、检测模型是一个二分类模型，位于检测模型最后一层的softmax函数即softmax层输出两个表示概率分布的数值，这两个数值之和为1，分别表示待测样本分别为两类样本的可能性；

25、对每个流量样本，softmax函数输出两个数值，计算这两个数值的方差，即代表检测模型对流量样本正确分类的置信度。

26、进一步优选的，softmax函数的数学表达式如下所示：

27、;

28、其中，是softmax函数的输出中第个类别的概率，是检测模型原始输出的第个元素，是检测模型原始输出的第个元素，为总的类别的个数。

29、根据本发明优选的，利用置信度得到待测样本中的概念漂移样本以及高可信样本；包括：

30、以置信度作为评估指标，对所有流量样本进行排序；假设检测模型在一个周期内检测流量样本的数量为k，则在所有流量样本中挑选出置信度最低的k/2个流量样本为低置信样本即概念漂移样本，在所有流量样本中挑选出置信度最高的k/10个流量样本为高可信样本。

31、根据本发明优选的，使用smotee过采样方法对主动学习样本集进行样本类别平衡操作，得到类别平衡的样本集。

32、根据本发明优选的，标签分类器为最近质心分类器（nc）。

33、根据本发明优选的，网络流量数据是指以流量形式为载体的网络传输数据；网络流量数据的获取途径为：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据，获取的网络流量数据以pcap或pcapng格式存储。

34、一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于主动学习的入侵行为检测方法的步骤。

35、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于主动学习的入侵行为检测方法的步骤。

36、一种基于主动学习的入侵系统,包括：

37、系统启动?？?，被配置为：启动入侵检测程序，监听网卡流量，获取网络流量数据；

38、特征获取?？?，被配置为：对网络流量数据进行特征提取。具体实现方式可以采用cicflowmeter工具提取网络流级统计特征；也可针对不同的网络环境，专门定制流量特征提取算法，如：加密流量首字节特征提取算法、负载特征提取算法等；

39、数据预处理?？?，被配置为：划分网络流量数据集为训练集和测试集，使用训练集对检测模型和标签分类器进行训练；

40、入侵检测?？?，被配置为：使用提前训练好的检测模型，对传送的特征数据进行检测，判断是否有入侵行为的发生；同时筛选出每批次数据的概念漂移样本与高可信样本，共同构成主动学习样本集；此外，使用迭代更新后的检测模型进行入侵行为检测，输出检测结果，检测结果包括正常良性流量、恶意入侵（攻击）流量；

41、样本推断?？?，被配置为：使用标签分类器对概念漂移样本进行类别标注工作，高可信样本直接使用检测模型的预测值作为其类别属性；

42、模型迭代更新?？?，被配置为：对主动学习样本集进行样本类别平衡操作，得到类别平衡的样本集；检测模型对类别平衡的样本集进行增量学习，使检测模型快速完成对新样本的学习，实现检测模型迭代更新。

43、本发明的有益效果为：

44、现有的入侵检测系统部署在真实网络环境下对网络流量数据进行入侵检测分析判断时，需要大量带标记的网络流量样本以有监督方式训练检测模型，且没有考虑到真实网络环境中存在的概念漂移问题；与现有的检测模型相比，本发明的有益效果有以下几点：

45、1、本发明提出的基于主动学习的入侵行为检测方法，以半监督的方式对检测模型进行训练，大大降低了前期数据收集以及预处理的工作量。

46、2、本发明提出的基于主动学习的入侵行为检测方法，通过检测模型的置信度作为评估指标筛选出发生概念漂移的低置信样本，能够及时有效的发现发生概念漂移的样本。对于低置信样本使用与深度神经网络模型运作机理不同标签估计器对其进行类别标注，也能有效防止由深度神经网络模型进行类别标注可能带来的自我投毒现象发生。

47、3、本发明提出的基于主动学习的入侵行为检测方法，在增量更新前使用smote过采样方法对流量类别进行平衡操作，保证了更新后检测模型对恶意流量的敏感性。

48、4、本发明提出的基于主动学习的入侵行为检测方法，使用增量学习的方法对由高置信度和低置信度样本组成的样本集完成检测模型的快速迭代更新，保证了检测模型能够快速完成对概念漂移样本的训练学习。有助于检测模型更好地捕捉新的特征和模式，还能够弥补概念漂移带来的数据分布变化。检测模型通过对新样本的学习，保持了对最新恶意流量行为的感知和敏感性，确保检测模型在不断变化的网络环境中保持高效的恶意流量检测性能。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐丽娟,娄国庆,杨淑棉,赵大伟,陈川,宋维钊
技术所有人：山东省计算中心（国家超级计算济南中心）
我是此专利的发明人

上一篇：一种电力控制柜制备系统的制作方法
上一篇：一种基于机器视觉的船舶航行路线优化方法、系统及介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。

基于主动学习的入侵行为检测方法、系统、设备及介质与流程

基于主动学习的入侵行为检测方法、系统、设备及介质与流程