(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210910757.9
(22)申请日 2022.07.29
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区砚瓦池
正街47号
(72)发明人 喻波 盛周石 钟求喜 刘润昊
(74)专利代理 机构 湖南兆弘专利事务所(普通
合伙) 43008
专利代理师 周长清
(51)Int.Cl.
H04L 9/40(2022.01)
(54)发明名称
一种基于深度强化学习的漏洞优先级处理
方法
(57)摘要
本发明公开了一种基于深度强化学习的漏
洞优先级处理方法, 其包括: 数据预处理, 用来对
漏洞扫描结果进行风险量化和代 价量化, 生成规
范的漏洞实例数据集; 所述风险量化的过程中包
括漏洞的严重性、 威胁、 影 响、 资产重要性四个维
度的评分; 所述代价量化是根据修复建议进行量
化; 漏洞优先级方案生成, 通过构建一个结构指
针网络对漏洞实例进行知识嵌入, 并利用深度强
化学习引擎训练该网络的模型参数, 最终生成最
优的漏洞修复方案。 本发明具有原理简单、 操作
简便、 适用范围广、 处 理效果好等优点。
权利要求书2页 说明书7页 附图1页
CN 115396156 A
2022.11.25
CN 115396156 A
1.一种基于深度强化学习的漏洞优先级处 理方法, 其特 征在于, 包括:
数据预处理, 用来对漏洞扫描结果进行风险量化和代价量化, 生成规范的漏洞实例数
据集; 所述风险量化的过程中包括漏洞的严重性、 威胁、 影响、 资产重要性四个维度的评 分;
所述代价 量化是根据修复建议进行量 化;
漏洞优先级方案生成, 通过构建一个结构指针网络对漏洞实例进行知识嵌入, 并利用
深度强化学习引擎训练该网络的模型参数, 最终生成最优的漏洞修复方案 。
2.根据权利要求1所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 所述
数据预处 理的流程包括:
步骤S101: 原 始数据获取;
步骤S102: 风险量 化计算;
步骤S103: 漏洞代价评估。
3.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所
述步骤S101中, 利用漏洞扫描工具扫描目标环 境, 探测主机、 应用、 漏洞信息并进 行分类; 用
<v,h,a>唯一标识漏洞信息, 其含义为主机h中的程序a拥有漏洞v,其中程序包括了操作系
统、 服务、 应用程序。
4.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所
述步骤S102 中, 综合考虑漏洞严重性评分、 漏洞威胁、 漏洞影响、 和目标程序重要性、 要素,
对每个漏洞风险进行量 化, 公式为:
ri=qi*( α *Si+β *Ti+γ*Ii)
其中, i是漏洞的索引号, 唯一对应一个<v,h,a>, 1≤i≤N, N 为扫描的漏洞实总数;
Si为漏洞的严重性评分, 从CVSS系统中的基础分baseScore中抽取并进行归一化处理,
处理公式为: Si=baseScore/10;
Ii为漏洞的影响评分, 从CVSS系统中的基础分impactScore中抽取并进行归一化处理,
处理公式为: Ii=impactScore/10;
Ti为漏洞威胁评分, 其值通过漏洞利用预测评分系统EPSS计算, 利用线 性回归技术对漏
洞被利用的可能性进行评估, 公式为:
Ti=1/(1+e‑LogOdds)
LogOdds=‑θ0+θ1*vend+θ2*tag+θ3*exp+θ4*ref
其中θi为每种信息的回归系数, 具体数值由EPSS动 态给出; qi为漏洞实例在系统中的重
要性评价, 取值为0<qi<1, 数值越大重要性程度越高; α, β,γ是人工赋予的权重值, 根据实
际业务需要而定。
5.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所
述步骤S103中, 对每个漏洞需要消耗的漏洞代价ci做评估, 以时间或者修复成本的值作为
代价。
6.根据权利要求5所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 将漏
洞修复代价定义 为A,B,C,D4个等级类别, 再从对应的类别中随机生成确 切修复代价;
如果漏洞修补建议措施中包含如 “弱密码”、“默认值密码 ”、“配置更改 ”或“密码更新 ”,
则代价为A等级;
如果建议中指出漏洞需要版本 升级, 则代价 为B等级;权 利 要 求 书 1/2 页
2
CN 115396156 A
2如果建议中 需要进行系统更新, 则代价 为C等级;
若当前漏洞还没有提出任何修复的建议, 将其值确定为D等级, D代价远大于其他等级,
表示对普通企业 来说如果当前漏洞没有任何修复方法。
7.根据权利要求1 ‑6中任意一项所述的基于深度强化学习的漏洞优先级处理方法, 其
特征在于, 所述漏洞优先级方案生成的流 程包括:
步骤S201: 问题形式化处 理;
步骤S202: 构建结构 指针网络;
步骤S203: 采用强化学习的策略梯度算法, 如果动作使得最终回报变大, 那么增加这个
动作出现的概 率, 反之, 减少这个动作出现的概 率。
8.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所
述步骤S201中, 将漏洞优先修复方案生成问题定义 为:
其中, xi取值为0或1, 0表示对该漏洞 不进行修补, 1表示修补该漏洞; C为给定的资源约
束值, 表示企业在此次漏洞修复过程中能承受的最大代价。
9.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所
述步骤S202中, 设计一个结构指针神经网络; 输入为数据预处理后的漏洞集VS:{VI1,VI2,
VI3,…VIN}VIi=<ri,ci>和约束资源C, 该网络分成两个部分, 编码部分和解码部分;
在编码部分, 首先将漏洞集VS通过d维的嵌入网络进行知识嵌入, 得到嵌入向量
而后将其输入循环神经网络生成隐藏层输出为
同时
将约束值C传导至解码部分;
在解码部分, 应用指针机制 和循环神经网络进行解码, 依次输出需优先选取的向量
即对应需要优先修复的漏洞实例VIi, 计算消耗的累计代价值c=sum(ci), 直到达到最大的
资源约束C, 生成优先修复的漏洞集PVS, 解码结束; 其中解码部分的隐藏层输出为
10.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在
所述步骤S203中, 状态指的是漏洞集VS和约束C的向量表示, 其代表一个具体场景样例; 环
境是指大量漏洞实例训练集; 动作指的是通过结果指 针网络输出的需优 先修复漏洞集PVS,
奖励值定义 为:
其物理意 义是被优先修复的漏洞能够降低的累计风险值;
进行策略梯度更新; 经过反复迭代训练, 最终训练出的结构指针网络模型参数会使得
输出趋向于获得最大奖励, 即得到最优的漏洞修复集合; 结构指 针网络训练完成后, 用户输
入扫描的漏洞 信息集, 即可 快速输出最优的漏洞优先修复方案 。权 利 要 求 书 2/2 页
3
CN 115396156 A
3
专利 一种基于深度强化学习的漏洞优先级处理方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:00上传分享