专利 一种基于深度强化学习的漏洞优先级处理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210910757.9 (22)申请日 2022.07.29 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区砚瓦池正街47号 (72)发明人喻波　盛周石　钟求喜　刘润昊　 (74)专利代理机构湖南兆弘专利事务所(普通合伙) 43008 专利代理师周长清 (51)Int.Cl. H04L 9/40(2022.01) (54)发明名称一种基于深度强化学习的漏洞优先级处理方法 (57)摘要本发明公开了一种基于深度强化学习的漏洞优先级处理方法，其包括：数据预处理，用来对漏洞扫描结果进行风险量化和代价量化，生成规范的漏洞实例数据集；所述风险量化的过程中包括漏洞的严重性、威胁、影响、资产重要性四个维度的评分；所述代价量化是根据修复建议进行量化；漏洞优先级方案生成，通过构建一个结构指针网络对漏洞实例进行知识嵌入，并利用深度强化学习引擎训练该网络的模型参数，最终生成最优的漏洞修复方案。本发明具有原理简单、操作简便、适用范围广、处理效果好等优点。权利要求书2页说明书7页附图1页 CN 115396156 A 2022.11.25 CN 115396156 A 1.一种基于深度强化学习的漏洞优先级处理方法，其特征在于，包括：数据预处理，用来对漏洞扫描结果进行风险量化和代价量化，生成规范的漏洞实例数据集；所述风险量化的过程中包括漏洞的严重性、威胁、影响、资产重要性四个维度的评分；所述代价量化是根据修复建议进行量化；漏洞优先级方案生成，通过构建一个结构指针网络对漏洞实例进行知识嵌入，并利用深度强化学习引擎训练该网络的模型参数，最终生成最优的漏洞修复方案。 2.根据权利要求1所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，所述数据预处理的流程包括：步骤S101：原始数据获取；步骤S102：风险量化计算；步骤S103：漏洞代价评估。 3.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，在所述步骤S101中，利用漏洞扫描工具扫描目标环境，探测主机、应用、漏洞信息并进行分类；用 <v,h,a>唯一标识漏洞信息，其含义为主机h中的程序a拥有漏洞v,其中程序包括了操作系统、服务、应用程序。 4.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，在所述步骤S102 中，综合考虑漏洞严重性评分、漏洞威胁、漏洞影响、和目标程序重要性、要素，对每个漏洞风险进行量化，公式为： ri＝qi*( α *Si+β *Ti+γ*Ii) 其中， i是漏洞的索引号，唯一对应一个<v,h,a>， 1≤i≤N， N 为扫描的漏洞实总数； Si为漏洞的严重性评分，从CVSS系统中的基础分baseScore中抽取并进行归一化处理，处理公式为： Si＝baseScore/10； Ii为漏洞的影响评分，从CVSS系统中的基础分impactScore中抽取并进行归一化处理，处理公式为： Ii＝impactScore/10； Ti为漏洞威胁评分，其值通过漏洞利用预测评分系统EPSS计算，利用线性回归技术对漏洞被利用的可能性进行评估，公式为： Ti＝1/(1+e‑LogOdds) LogOdds＝‑θ0+θ1*vend+θ2*tag+θ3*exp+θ4*ref 其中θi为每种信息的回归系数，具体数值由EPSS动态给出； qi为漏洞实例在系统中的重要性评价，取值为0<qi<1，数值越大重要性程度越高； α, β,γ是人工赋予的权重值，根据实际业务需要而定。 5.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，在所述步骤S103中，对每个漏洞需要消耗的漏洞代价ci做评估，以时间或者修复成本的值作为代价。 6.根据权利要求5所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，将漏洞修复代价定义为A,B,C,D4个等级类别，再从对应的类别中随机生成确切修复代价；如果漏洞修补建议措施中包含如 “弱密码”、“默认值密码 ”、“配置更改 ”或“密码更新 ”，则代价为A等级；如果建议中指出漏洞需要版本升级，则代价为B等级；权　利　要　求　书 1/2 页 2 CN 115396156 A 2如果建议中需要进行系统更新，则代价为C等级；若当前漏洞还没有提出任何修复的建议，将其值确定为D等级， D代价远大于其他等级，表示对普通企业来说如果当前漏洞没有任何修复方法。 7.根据权利要求1 ‑6中任意一项所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，所述漏洞优先级方案生成的流程包括：步骤S201：问题形式化处理；步骤S202：构建结构指针网络；步骤S203：采用强化学习的策略梯度算法，如果动作使得最终回报变大，那么增加这个动作出现的概率，反之，减少这个动作出现的概率。 8.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，在所述步骤S201中，将漏洞优先修复方案生成问题定义为：其中， xi取值为0或1， 0表示对该漏洞不进行修补， 1表示修补该漏洞； C为给定的资源约束值，表示企业在此次漏洞修复过程中能承受的最大代价。 9.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，在所述步骤S202中，设计一个结构指针神经网络；输入为数据预处理后的漏洞集VS:{VI1,VI2, VI3,…VIN}VIi＝<ri,ci>和约束资源C，该网络分成两个部分，编码部分和解码部分；在编码部分，首先将漏洞集VS通过d维的嵌入网络进行知识嵌入，得到嵌入向量而后将其输入循环神经网络生成隐藏层输出为同时将约束值C传导至解码部分；在解码部分，应用指针机制和循环神经网络进行解码，依次输出需优先选取的向量即对应需要优先修复的漏洞实例VIi，计算消耗的累计代价值c＝sum(ci)，直到达到最大的资源约束C，生成优先修复的漏洞集PVS，解码结束；其中解码部分的隐藏层输出为 10.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法，其特征在于，在所述步骤S203中，状态指的是漏洞集VS和约束C的向量表示，其代表一个具体场景样例；环境是指大量漏洞实例训练集；动作指的是通过结果指针网络输出的需优先修复漏洞集PVS，奖励值定义为: 其物理意义是被优先修复的漏洞能够降低的累计风险值；进行策略梯度更新；经过反复迭代训练，最终训练出的结构指针网络模型参数会使得输出趋向于获得最大奖励，即得到最优的漏洞修复集合；结构指针网络训练完成后，用户输入扫描的漏洞信息集，即可快速输出最优的漏洞优先修复方案。权　利　要　求　书 2/2 页 3 CN 115396156 A 3

专利 一种基于深度强化学习的漏洞优先级处理方法

专利一种基于深度强化学习的漏洞优先级处理方法