安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210910757.9 (22)申请日 2022.07.29 (71)申请人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区砚瓦池 正街47号 (72)发明人 喻波 盛周石 钟求喜 刘润昊  (74)专利代理 机构 湖南兆弘专利事务所(普通 合伙) 43008 专利代理师 周长清 (51)Int.Cl. H04L 9/40(2022.01) (54)发明名称 一种基于深度强化学习的漏洞优先级处理 方法 (57)摘要 本发明公开了一种基于深度强化学习的漏 洞优先级处理方法, 其包括: 数据预处理, 用来对 漏洞扫描结果进行风险量化和代 价量化, 生成规 范的漏洞实例数据集; 所述风险量化的过程中包 括漏洞的严重性、 威胁、 影 响、 资产重要性四个维 度的评分; 所述代价量化是根据修复建议进行量 化; 漏洞优先级方案生成, 通过构建一个结构指 针网络对漏洞实例进行知识嵌入, 并利用深度强 化学习引擎训练该网络的模型参数, 最终生成最 优的漏洞修复方案。 本发明具有原理简单、 操作 简便、 适用范围广、 处 理效果好等优点。 权利要求书2页 说明书7页 附图1页 CN 115396156 A 2022.11.25 CN 115396156 A 1.一种基于深度强化学习的漏洞优先级处 理方法, 其特 征在于, 包括: 数据预处理, 用来对漏洞扫描结果进行风险量化和代价量化, 生成规范的漏洞实例数 据集; 所述风险量化的过程中包括漏洞的严重性、 威胁、 影响、 资产重要性四个维度的评 分; 所述代价 量化是根据修复建议进行量 化; 漏洞优先级方案生成, 通过构建一个结构指针网络对漏洞实例进行知识嵌入, 并利用 深度强化学习引擎训练该网络的模型参数, 最终生成最优的漏洞修复方案 。 2.根据权利要求1所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 所述 数据预处 理的流程包括: 步骤S101: 原 始数据获取; 步骤S102: 风险量 化计算; 步骤S103: 漏洞代价评估。 3.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所 述步骤S101中, 利用漏洞扫描工具扫描目标环 境, 探测主机、 应用、 漏洞信息并进 行分类; 用 <v,h,a>唯一标识漏洞信息, 其含义为主机h中的程序a拥有漏洞v,其中程序包括了操作系 统、 服务、 应用程序。 4.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所 述步骤S102 中, 综合考虑漏洞严重性评分、 漏洞威胁、 漏洞影响、 和目标程序重要性、 要素, 对每个漏洞风险进行量 化, 公式为: ri=qi*( α *Si+β *Ti+γ*Ii) 其中, i是漏洞的索引号, 唯一对应一个<v,h,a>, 1≤i≤N, N 为扫描的漏洞实总数; Si为漏洞的严重性评分, 从CVSS系统中的基础分baseScore中抽取并进行归一化处理, 处理公式为: Si=baseScore/10; Ii为漏洞的影响评分, 从CVSS系统中的基础分impactScore中抽取并进行归一化处理, 处理公式为: Ii=impactScore/10; Ti为漏洞威胁评分, 其值通过漏洞利用预测评分系统EPSS计算, 利用线 性回归技术对漏 洞被利用的可能性进行评估, 公式为: Ti=1/(1+e‑LogOdds) LogOdds=‑θ0+θ1*vend+θ2*tag+θ3*exp+θ4*ref 其中θi为每种信息的回归系数, 具体数值由EPSS动 态给出; qi为漏洞实例在系统中的重 要性评价, 取值为0<qi<1, 数值越大重要性程度越高; α, β,γ是人工赋予的权重值, 根据实 际业务需要而定。 5.根据权利要求2所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所 述步骤S103中, 对每个漏洞需要消耗的漏洞代价ci做评估, 以时间或者修复成本的值作为 代价。 6.根据权利要求5所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 将漏 洞修复代价定义 为A,B,C,D4个等级类别, 再从对应的类别中随机生成确 切修复代价; 如果漏洞修补建议措施中包含如 “弱密码”、“默认值密码 ”、“配置更改 ”或“密码更新 ”, 则代价为A等级; 如果建议中指出漏洞需要版本 升级, 则代价 为B等级;权 利 要 求 书 1/2 页 2 CN 115396156 A 2如果建议中 需要进行系统更新, 则代价 为C等级; 若当前漏洞还没有提出任何修复的建议, 将其值确定为D等级, D代价远大于其他等级, 表示对普通企业 来说如果当前漏洞没有任何修复方法。 7.根据权利要求1 ‑6中任意一项所述的基于深度强化学习的漏洞优先级处理方法, 其 特征在于, 所述漏洞优先级方案生成的流 程包括: 步骤S201: 问题形式化处 理; 步骤S202: 构建结构 指针网络; 步骤S203: 采用强化学习的策略梯度算法, 如果动作使得最终回报变大, 那么增加这个 动作出现的概 率, 反之, 减少这个动作出现的概 率。 8.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所 述步骤S201中, 将漏洞优先修复方案生成问题定义 为: 其中, xi取值为0或1, 0表示对该漏洞 不进行修补, 1表示修补该漏洞; C为给定的资源约 束值, 表示企业在此次漏洞修复过程中能承受的最大代价。 9.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在所 述步骤S202中, 设计一个结构指针神经网络; 输入为数据预处理后的漏洞集VS:{VI1,VI2, VI3,…VIN}VIi=<ri,ci>和约束资源C, 该网络分成两个部分, 编码部分和解码部分; 在编码部分, 首先将漏洞集VS通过d维的嵌入网络进行知识嵌入, 得到嵌入向量 而后将其输入循环神经网络生成隐藏层输出为 同时 将约束值C传导至解码部分; 在解码部分, 应用指针机制 和循环神经网络进行解码, 依次输出需优先选取的向量 即对应需要优先修复的漏洞实例VIi, 计算消耗的累计代价值c=sum(ci), 直到达到最大的 资源约束C, 生成优先修复的漏洞集PVS, 解码结束; 其中解码部分的隐藏层输出为 10.根据权利要求7所述的基于深度强化学习的漏洞优先级处理方法, 其特征在于, 在 所述步骤S203中, 状态指的是漏洞集VS和约束C的向量表示, 其代表一个具体场景样例; 环 境是指大量漏洞实例训练集; 动作指的是通过结果指 针网络输出的需优 先修复漏洞集PVS, 奖励值定义 为: 其物理意 义是被优先修复的漏洞能够降低的累计风险值; 进行策略梯度更新; 经过反复迭代训练, 最终训练出的结构指针网络模型参数会使得 输出趋向于获得最大奖励, 即得到最优的漏洞修复集合; 结构指 针网络训练完成后, 用户输 入扫描的漏洞 信息集, 即可 快速输出最优的漏洞优先修复方案 。权 利 要 求 书 2/2 页 3 CN 115396156 A 3

PDF文档 专利 一种基于深度强化学习的漏洞优先级处理方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的漏洞优先级处理方法 第 1 页 专利 一种基于深度强化学习的漏洞优先级处理方法 第 2 页 专利 一种基于深度强化学习的漏洞优先级处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:28:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。