(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211096648.4
(22)申请日 2022.09.09
(71)申请人 北京亚鸿世纪科技发展 有限公司
地址 100095 北京市海淀区高里掌 路3号院
2号楼2层201-1至201-8号
申请人 江苏省互联网行业管理服 务中心
(72)发明人 林飞 谢小超 成海 王林汝
易永波 古元 毛华阳 华仲峰
(51)Int.Cl.
H04L 9/40(2022.01)
G06N 20/00(2019.01)
G06K 9/62(2022.01)
G06F 21/55(2013.01)
(54)发明名称
一种基于访问日志的高危网站 识别装置
(57)摘要
一种基于访问日志的高危网站识别装置, 涉
及信息技术领域。 本发明由访问日志采集器、 特
征提取器、 模型训练器和高危网站判断模型组
成; 通过对访问日志特征的提取, 由样本训练迭
代训练生 成高危网站判断模型, 达到访问日志输
入高危网站判断模型就可以自动判断网站是否
为高危网站的目的。 本发明在特征提取和模型训
练过程具备独创的计算特点, 本发 明具备节省人
工, 利于推广的特点。
权利要求书4页 说明书8页 附图1页
CN 115484088 A
2022.12.16
CN 115484088 A
1.一种基于访问日志的高危网站识别装置, 其特征在于由访问日志采集器、 特征提取
器、 模型训练器和高危网站判断模型组成;
访问日志采集器负责 收集并存储 网站的访问日志; 访问日志采集器负责 收集并存储样
本网站的访问日志, 样本网站包括已知正常网站和已知高危网站, 在存储访问日志 时标记
为样本正常 网站日志和样本高危网站日志; 访问日志采集器负责收集并存储待判断网站的
访问日志, 标记为待判断网站日志;
特征提取器负责根据样本 高危网站日志提取高危用户, 高危用户添加高危用户标识并
记录其IP地址, 提取高危用户的方法是获取源IP访问样本高危网站的平均每天的个数, 当
源IP访问的高危网站的个数平均每天在0到5区间, 该源IP为低危用户; 当源IP访问的高危
网站的个数平均每天在6到15区间, 该源IP为中危用户; 当源IP访问的高危网站的个数平均
每天在16个以上时, 该源IP为高危用户;
特征提取器负责提取访问日志的特征, 访问日志的特征包括: 网站目的IP归属地、 网站
域名字符占比特征、 网站存活周期的值、 网站高危用户访问特征、 网站所含域名分隔符的个
数特征、 网站长度合规性、 网站的请求参数特征、 网站日志的真实请求地址特征、 网站域名
特征, 即网站域名是否包括域名高危关键字; 域名高危关键字包括: vip、 xyz、 top、 club、
xxx、 sx、 site、 me、 sexy、 pub、 sex、 men、 mx、 fm;
网站目的IP归属地特 征提取方法是用ip识别器识别网站目的IP归属地;
网站域名字符占比特征提取的方法是提取网站中的英文字母和阿拉伯数字个数, 英文
字母大于阿拉伯数字标识为0, 英文字母小于等于阿拉伯数字标识为1;
网站存活周期的值的提取方法是特征提取器从访问日志采集器中存储的历史访问日
志获取网站近6个月第一次发现时间和 最后一次发现时间, 此时间差即为网站的存活周期
值;
网站高危用户访问特征的提取方法是当访问网站的高危用户数量小于1时记为0, 当访
问网站的高危用户数量大于等于1小于3时记 为1, 当访问网站的高危用户数量大于等于3时
记为2;
网站所含域名分隔符的个数特征提取方法是网站域名的域名分隔符超过3个记录为0,
网站域名的域名分隔符小于等于 3个记录为1;
网站长度合规性的提取方法是: 当域名中除字母、 数字、 域名分隔符还含有其他符号,
则记录该域名为不合规; 当域名分隔符连续出现, 则记录该域名不合规; 当域名分隔符出现
在域名的头, 则记录该域名不合规; 当域名分隔符出现在域名的尾, 则记录该域名为不合
规; 当域名的总长度大于63个字符, 则记录该域名为不合规; 除去记录域名不合规的条件
后, 其他情况记录域名为 合规;
网站的请求参数特征的提取方法是: 当网站的请求参数包含违法犯罪相关的关键词时
记录为1, 当网站的请求 参数未包含违法犯罪相关的关键词时记录为0;
网站日志的真实请求地址特征的提取方法是: 当网站的真实请求地址包含高危网站时
记录为1, 当网站的真实请求 地址不包 含高危网站时记录为0;
网站域名特征的提取方式是: 当网站域名包含域名高危关键字时记录为1, 当网站域名
不包含域名高危关键 字时记录为0;
特征提取器提取所有已知的样本正常网站日志和样本高危网站日志中的访问日志的权 利 要 求 书 1/4 页
2
CN 115484088 A
2特征生成训练用特 征集; 特征提取器将训练用特 征集发送给模型训练器;
特征提取器提取待判断网站日志中的访 问日志的特征, 生成待判断网站特征; 特征提
取器将待判断网站特 征发送给高危网站判断模型;
模型训练器由子模型特征数据选择器、 子模型训练器、 子模型训练结合器和模型测试
器组成;
模型训练器收到训练用特征集后生成t个子特征数据选择器, 子特征数据选择器从训
练用特征集随机选择三分之二的数据作为子模型训练的训练数据集, 子特征数据选择器从
子模型训练的训练数据集中随机 选择m个特 征作为本次子模型训练的子集;
定义每一个子特征数据选择器编号为i, i∈{1,2,3...t}, 总共有t个子特征数据选择
器; 已知高危网站个数为err orH, 已知正常网站个数为r ightH, 训练用特征集的特征总数记
录为sumH, sumH=errorH+right H, 子模型训练的训练数据集为trait H, 每个子模型特征数据
选择器选取的特征数记录为ftrait(i) , 子模型训练的子集的特征个数为final m; finalm<
=ftrait(i)<=traitH; fsumh(i)表示随机取训练用特征集三分之二的特征, 即三分之二
sumH个特征; ftrait(i)表 示随机取子模 型训练的训练数据集五分之四的特征, 即五分之四
traitH个特 征;
子模型训练器为每个子模型计算经验熵, 经验熵代表每一个子模型所选择的子模型训
练的训练数据集中数据集中结果的分布情况, 记录为expH (i) ,
; 定义每
一个子模型所选择的子模型训练的训练数据集中正常的网站数为
, 定义每一个
子模型所选择的子模型训练的训练数据集中 高危的网站数为
;
;
;
子模型训练器为每个子模型计算条件经验熵, 条件经验熵代表每一个子模型所选择的
子模型训练的训练数据集中每一个特征在正常网站和高危网站的分布情况; 第j个特征 的
条件熵用conH (i) (j) 表示, i表示第i个子模型, j表示第j个特征属性, k表示每个特征属性
的种类, K表示第j个特征的种类;
表示第j个 特征的种类的比例,
表示第j个特征
中种类k中正常网站和高危网站所占的比例;
;
子模型训练器为每个子模型计算信 息增益, 第 i个子模型中的第j个特征的信 息增益用权 利 要 求 书 2/4 页
3
CN 115484088 A
3
专利 一种基于访问日志的高危网站识别装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:11上传分享