(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111566872.0
(22)申请日 2021.12.20
(71)申请人 北京华云安信息技 术有限公司
地址 100094 北京市海淀区丰豪东路9号2
号楼10层4单 元1001
(72)发明人 王闰婷 白兴伟
(74)专利代理 机构 北京华专卓 海知识产权代理
事务所(普通 合伙) 11664
代理人 王一
(51)Int.Cl.
H04L 9/40(2022.01)
G06F 16/955(2019.01)
G06K 9/62(2022.01)
(54)发明名称
钓鱼网站检测模型的训练方法、 装置、 设备
及存储介质
(57)摘要
本公开的实施例提供了一种钓鱼网站检测
模型的训练方法、 装置、 设备及存储介质。 该方法
包括: 获取网站数据集, 网站数据集包括钓鱼网
站样本集和非钓鱼网站样本集, 钓鱼网站样本集
和非钓鱼网站样本集中的样 本的特征包括URL特
征、 异常操作特征、 脚本特征和域名特征; 对网站
数据集中的样本进行特征预处理; 对 特征预处理
后的样本进行特征提取; 采用特征提取后的样本
对钓鱼网站分类器进行训练, 得到钓鱼网站检测
模型。 以此方式, 可 以采用经过数据加工的样本
来快速训练钓鱼网站分类器, 得到检测能力较强
的钓鱼网站 检测模型, 进而基于该模 型快速精确
地检测待检测网站是否是钓鱼网站, 提高检测效
果。
权利要求书2页 说明书10页 附图3页
CN 114363019 A
2022.04.15
CN 114363019 A
1.一种钓鱼网站检测模型的训练方法, 其特 征在于, 所述方法包括:
获取网站数据集, 其中, 所述网站数据集包括钓鱼网站样本集和非钓鱼网站样本集, 所
述钓鱼网站样本集和所述 非钓鱼网站样本集中的样 本的特征包括URL特征、 异常操作特征、
脚本特征和域名特 征;
对所述网站数据集中的样本进行 特征预处理;
对特征预处理后的样本进行 特征提取;
采用特征提取后的样本对钓鱼网站分类 器进行训练, 得到钓鱼网站检测模型。
2.根据权利要求1所述的方法, 其特 征在于, 所述获取网站数据集, 包括:
分别获取钓鱼网站和 非钓鱼网站的URL并提取所述钓鱼网站和所述非钓鱼网站的URL
特征;
分别爬取 所述钓鱼网站和所述非钓鱼网站的URL对应的网页代码;
根据所述钓鱼网站和所述非钓鱼网站的网页代码, 分别提取所述钓鱼网站和所述非钓
鱼网站的异常操作特 征、 脚本特 征和域名特 征;
分别对所述钓鱼网站和所述非钓鱼网站进行标注, 得到所述钓鱼网站和所述非钓鱼网
站的标签。
3.根据权利要求1所述的方法, 其特征在于, 所述对所述网站数据集中的样本进行特征
预处理, 包括:
对所述网站数据集中的样本对应的特 征列进行 数据清洗;
对数据清洗后的特 征列进行归一 化处理。
4.根据权利要求1所述的方法, 其特征在于, 所述对特征预处理后的样本进行特征提
取, 包括:
计算特征预处理后的样本对应的多个特征列与特征预处理后的样本对应的标签列的
相关系数;
按照相关系数从小到大的顺序对特 征预处理后的样本对应的多个特 征列进行排序;
将排序后的多个特征列划分为M ‑N+1个特征组, 其中, 第i个特征组包括前i+N ‑1个特征
列, i∈[1,M ‑N+1], M表示特 征预处理后的样本对应的特 征列的个数, N≤ M且为正整数;
采用每个特征组中的特征列与所述标签列训练基线模型, 得到每个特征组对应的评估
指标;
保留特征预处理后的样本对应的多个特征列中在评估指标最高的特征组中存在的特
征列。
5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述网站分类器包括SVM和随
机森林;
所述采用特征提取后的样本对钓鱼网站分类器进行训练, 得到钓鱼网站检测模型, 包
括:
将所述特 征提取后的样本按照预设比例划分为训练集和 测试集;
采用训练集中的样本分别对SVM和随机森林进行训练, 得到目标SVM和目标随机森林;
采用测试集中的样本分别 对目标SVM和目标随机森林进行测试, 得到目标SVM和目标随
机森林的评估指标;
选择评估指标最高的一方为钓鱼网站检测模型。权 利 要 求 书 1/2 页
2
CN 114363019 A
26.一种钓鱼网站检测方法, 其特 征在于, 所述方法包括:
获取待检测网站的特 征;
基于钓鱼网站检测模型对所述特征进行检测, 确定所述待检测网站是否为钓鱼网站,
其中, 所述钓鱼网站检测模型基于权利要求1 ‑5中任一项所述的钓鱼网站检测模型的训练
方法得到 。
7.一种钓鱼网站检测模型的训练装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取网站数据集, 其中, 所述网站数据集包括钓鱼网站样本集和非钓鱼
网站样本集, 所述钓鱼 网站样本集和所述 非钓鱼网站样本集中的样本的特征包括URL特征、
异常操作特 征、 脚本特 征和域名特 征;
预处理模块, 用于对所述网站数据集中的样本进行 特征预处理;
提取模块, 用于对特 征预处理后的样本进行 特征提取;
训练模块, 用于采用特征提取后的样本对钓鱼网站分类器进行训练, 得到钓鱼网站检
测模型。
8.一种钓鱼网站检测装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待检测网站的特 征;
检测模块, 用于基于钓鱼网站检测模型对所述特征进行检测, 确定所述待检测网站是
否为钓鱼 网站, 其中, 所述钓鱼 网站检测模型基于权利要求 1‑5中任一项 所述的钓鱼 网站检
测模型的训练方法得到 。
9.一种电子设备, 其特 征在于, 所述设备包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器执行权利要求1 ‑6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 所述计算机指
令用于使计算机执 行权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114363019 A
3
专利 钓鱼网站检测模型的训练方法、装置、设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:36:53上传分享