(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210895518.0
(22)申请日 2022.07.28
(71)申请人 深圳市汇深网信息科技有限公司
地址 518000 广东省深圳市罗湖区莲塘国
威路国威商务大厦6 05
(72)发明人 黄碧银 谢津 刘明东
(74)专利代理 机构 深圳卓正专利代理事务所
(普通合伙) 44388
专利代理师 万正平
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 41/0631(2022.01)
H04L 43/022(2022.01)
(54)发明名称
一种用于应对网页故障、 网页漏洞的监测方
法
(57)摘要
本发明涉及网页安全监测的技术领域, 揭露
了一种用于应对网页故障、 网页漏洞的监测方
法, 所述方法包括: 构建网页漏洞文本特征检测
模型, 将网页数据流输入到模型中, 模型输出网
页漏洞文本特征; 构建网页漏洞检测模型, 输出
网页漏洞文本特征所对应的网页漏洞检测结果;
利用差分采样策略对训练集中的网页漏洞文本
特征进行差分采样, 对网页漏洞检测模型进行优
化训练; 将待检测网页数据流的网页漏洞文本特
征输入到优化后的网页漏洞检测模 型中, 模型输
出待检测网页是否存在网页漏洞的网页漏洞检
测结果。 本发明基于N ‑gram快速提取网页通信数
据中的特征字段, 实现基于网页通信特征字段的
漏洞检测, 基于差分采样提高模型检测的准确
率。
权利要求书4页 说明书14页 附图3页
CN 115314267 A
2022.11.08
CN 115314267 A
1.一种用于应对网页故障、 网页 漏洞的监测方法, 其特 征在于, 所述方法包括:
S1: 分别采集含有漏洞以及不含漏洞的网页构成训练集, 采集训练集中网页的网页数
据流, 构建网页漏洞文本特征检测模型, 将采集到的网页数据流输入到网页漏洞文本特征
检测模型中, 模型输出网页 漏洞文本特 征;
S2: 构建网页漏洞检测模型, 模型以网页漏洞文本特征作为输入, 以网页漏洞检测结果
作为输出;
S3: 利用差分采样策略对训练集中的网页漏洞文本特征进行差分采样, 并对构建的网
页漏洞检测模型进行优化训练, 得到优化后的网页漏洞检测模型, 其中所述差分采样策略
的流程, 包括:
计算训练集
的网页不平衡率
, 其中K表示训练集
中含有漏
洞的网页数量,
表示训练集
中不含有漏洞的网页数量;
分别计算训练集
中训练集0和训练集1中任意两个网页的网页漏洞文本特征的距
离, 其中训练集0表示训练集
中不含有漏洞的网页集合, 训练集1表示训练集
中
含有漏洞的网页集合, 并计算任意网页的网页漏洞文本特征 的局部密度, 所述距离的计算
方法为欧式距离, 任意网页
的网页漏洞文本特征
的局部密度计算公式
为:
其中:
表示网页漏洞文本特征
的局部密度, dis表示距离阈值 ,
表示训练集 i中与网页漏洞文本特征
距离在dis范围内的
网页漏洞文本特 征数量;
对训练集0中的网页按照网页漏洞文本特征局部密度降序进行排列, 对排列后的网页
添加编号
, 若
, 则设置差分采样系数
为2, 否则设置差分采样系
数
为3; 采样编号为1+
s的网页数据作为训练集0的差分采样结果
, 其中
;
对训练集1中的网页按照网页漏洞文本特征局部密度降序进行排列, 对排列后的网页
添加编号
, 若
, 则设置差 分采样系数
为3, 否则设置差 分采样系数
为2; 采样编号为1+
s的网页数据作为训练集1的差分采样结果
, 其中
;
将差分采样结果
以及
作为网页 漏洞检测模型的采样训练集
;
S4: 采集待检测网页 数据并将待检测网页 数据输入到网页漏洞文本特征检测模型中提
取网页漏洞文本特征, 将所提取的网页漏洞文本特征输入到优化后的网页漏洞检测模型
中, 模型输出待检测网页是否存在网页 漏洞, 若存在则产生告警。
2.如权利要求1所述的一种用于应对网页故障、 网页漏洞的监测方法, 其特征在于, 所
述S1步骤中分别采集含有漏洞以及不含漏洞的网页构成训练集, 包括:
分别采集含有漏洞以及不含漏洞的网页构成训练集
, 其中训练集中的网页总数权 利 要 求 书 1/4 页
2
CN 115314267 A
2为
, 包括K个含有漏洞的网页以及
个不含有漏洞的网页;
训练集中网页的存 储格式为:
其中:
表示训练集
中第
个含有漏洞的网页,
表示训练集
中第
个不含漏洞的网页。
3.如权利要求2所述的一种用于应对网页故障、 网页漏洞的监测方法, 其特征在于, 所
述S1步骤中采集网页数据流, 包括:
在服务器中构建虚拟系统, 将所构建的虚拟系统作为沙箱;
将网页在沙箱中运行, 采集沙箱中虚拟系统运行网页所产生的网页数据流; 所述训练
集中第j个网页
的网页数据流 为
,
;
所述网页数据流的采集 步骤为:
S11: 在沙箱中设置监控程序;
S12: 当沙箱中运行网页时启动监控程序;
S13: 监控程序采用Post方式请求网页运行时产生的通信报文数据, 将通信报文数据作
为网页数据流。
4.如权利要求1所述的一种用于应对网页故障、 网页漏洞的监测方法, 其特征在于, 所
述S1步骤中构建网页 漏洞文本特 征检测模型, 包括:
构建网页漏洞文本特征检测模型, 其中所述网页漏洞文本特征检测模型的输入为网页
数据流, 输出为网页数据流所对应网页 漏洞文本特 征;
所述网页 漏洞文本特 征检测模型的检测流 程为:
设置网页数据流的滑动窗口值大小为N, 利用长度为N的滑动窗口对 网页数据流进行滑
动遍历, 将滑动窗口中的数据作为单词字符;
统计每个单词字符在网页数据流中的出现次数, 以及上下文单词字符在网页 数据流中
的出现次数, 则对于连续的单词字符
,
, 单词字符
出现的次数为
,
上下文单词字符出现的次数为
;
计算每个单词字符的频率分布, 则单词字符
的频率分布为:
选取网页数据流中频率分布最大的m个单词字符, 并对所选取的单词字符进行独热编
码, 将编码结果作为网页数据流所对应的网页 漏洞文本特 征。
5.如权利要求4所述的一种用于应对网页故障、 网页漏洞的监测方法, 其特征在于, 所
述S1步骤中将所采集到的网页数据流输入到网页漏洞文本特征检测模型中, 模 型输出网页
漏洞文本特 征, 包括:
将所采集到的网页数据流依次输入到网页漏洞文本特征检测模型中, 模型输出网页漏
洞文本特 征; 则所述训练集
中任意网页
的网页漏洞文本特 征为
。
6.如权利要求1所述的一种用于应对网页故障、 网页漏洞的监测方法, 其特征在于, 所权 利 要 求 书 2/4 页
3
CN 115314267 A
3
专利 一种用于应对网页故障、网页漏洞的监测方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:06上传分享