(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210946321.5
(22)申请日 2022.08.08
(71)申请人 奇安信科技 集团股份有限公司
地址 100088 北京市西城区新 街口外大街
28号102号楼3层3 32号
申请人 奇安信网神信息技 术 (北京) 股份有
限公司
(72)发明人 陈祚松 谭学士 李云龙
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 梁军丽
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 51/08(2022.01)
H04L 51/42(2022.01)G06F 16/35(2019.01)
G06F 40/279(2020.01)
(54)发明名称
钓鱼邮件检测方法、 装置、 电子设备及存储
介质
(57)摘要
本发明实施例提供一种钓鱼邮件检测方法、
装置、 电子设备及存储介质, 涉及网络安全技术
领域, 其中方法包括: 获取预先训练得到的钓鱼
邮件检测模 型、 与企业邮箱业务相关的企业内部
信息、 以及邮件网关日志; 基于企业内部信息以
及邮件网关日志, 确定待检测邮件的邮件特征;
将待检测邮件的邮件特征输入至钓鱼邮件检测
模型, 得到钓鱼邮件检测模型输出的待检测邮件
的邮件类型; 所述钓鱼邮件检测模 型为基于已标
记的历史邮件对应的邮件特征以及所述已标记
的历史邮件的标记值, 进行二分类模型训练得
到。 本发明能够降低钓鱼邮件漏报和误报概率,
提高钓鱼邮件检测的可靠性。
权利要求书3页 说明书18页 附图4页
CN 115473676 A
2022.12.13
CN 115473676 A
1.一种钓鱼邮件检测方法, 其特 征在于, 包括:
获取预先训练得到的钓鱼邮件检测模型、 与企业 邮箱业务相关的企业内部信息、 以及
邮件网关日志;
基于所述企业内部信息以及所述邮件网关日志, 确定待检测邮件的邮件特 征;
将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型, 得到所述钓鱼邮件检测
模型输出 的所述待检测邮件的邮件类型; 所述邮件类型包括钓鱼邮件和非钓鱼邮件; 所述
钓鱼邮件检测模型为基于已标记的历史 邮件对应的邮件特征以及所述已标记的历史 邮件
的标记值, 进行二分类模型训练得到 。
2.根据权利要求1所述的钓鱼邮件检测方法, 其特征在于, 所述邮件特征包括以下至少
一项:
用于区分邮件是否为伪装内部邮件的特征, 包括以下至少一项: 邮件是否包含附件、 邮
件附件类型对应异常等级、 邮件附件名称是否包含中文、 邮件附件名称与内网邮件附件名
相似度、 邮件主题与内网邮件主题相似度、 发件人邮箱域名与内网邮箱 域名相似度、 发件人
邮箱名称与内网邮箱域名相似度、 发件人昵称与内网邮箱昵称相似度及发件人昵称与企业
内部组织相似度;
用于区分邮件中收发人关系是否为正常收发人关系的特征, 包括以下至少一项: 外网
邮箱历史发送邮件数量、 邮件收件人数量、 邮件收件人对应部门数量、 收件人所属部门历史
收到此发件人邮件数量、 收件人历史收到此发件人邮件数量及收件人历史收到发件人是外
部邮箱的数量。
3.根据权利要求2所述的钓鱼邮件检测方法, 其特征在于, 所述基于所述企业内部信 息
以及所述邮件网关日志, 确定待检测邮件的邮件特 征, 包括以下至少一项:
在所述邮件 网关日志中所述待检测邮件对应的附件字段的值为非空 的情况下, 确定所
述待检测邮件包含附件; 在所述待检测邮件对应的附件字段的值为空的情况下, 确定所述
待检测邮件未包 含附件;
基于所述待检测邮件的邮件附件的文件后缀, 以及预置的文件后 缀与异常等级的对应
关系, 确定所述待检测邮件的邮件附件类型对应的异常等级;
在所述待检测邮件的邮件附件名称与预置的正则表达 式匹配的情况下, 确定所述邮件
附件名称包含中文; 所述正则表达式用于匹配邮件附件名称是否包含中文字符; 在所述邮
件附件名称与预置的正则表达式不匹配的情况 下, 确定所述邮件附件名称不包 含中文;
从所述历史日志中提取发件人邮箱为企业内部邮箱的至少一个历史邮件的邮件附件
名称; 对各所述历史 邮件的邮件附件名称进行分词 得到词组集合; 计算各所述词组集合中
每个词语的词 频, 得到词 频集合; 对所述待检测邮件的邮件附件名称进行分词 得到文本词
组; 使用所述文本词组与所述词 频集合进行词 频匹配, 得到所述文本词组中各个词语的词
频; 计算所述文本词组中各个词语的词频的平均值; 对所述平均值进 行归一化处理, 得到所
述邮件附件名称与内网邮件附件名相似度;
从所述历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的邮件主题; 对各所述
历史邮件的邮件主题进行分词, 得到词组集合; 计算各所述词组集合中每个词组中词语的
词频, 得到词频集合; 对所述待检测邮件的邮件主题进行分词, 得到文本词组; 使用所述文
本词组与所述词 频集合进行词 频匹配, 得到所述文本词组中各个词语的词 频; 计算所述文权 利 要 求 书 1/3 页
2
CN 115473676 A
2本词组中各个词语的词 频的平均值; 对所述平均值进行归一化处理, 得到所述邮件主题与
内网邮件主题相似度;
从所述待检测邮件的发件人邮箱中提取发件人邮箱域名; 确定所述发件人邮箱域名与
内网邮箱域名相似度;
从所述待检测邮件的发件人邮箱中提取发件人邮箱名称; 确定所述发件人邮箱名称与
内网邮箱域名相似度;
从所述历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的发件人昵称; 对各所
述历史邮件的发件人昵称进行分词, 得到词组集合; 计算各所述词组集合中每个词组中词
语的词频, 得到词 频集合; 对所述待检测邮件的发件人昵称进行分词, 得到文本词组; 使用
所述文本词组与所述词 频集合进行词 频匹配, 得到所述文本词组中各个词语的词 频; 计算
所述文本词组中各个词语的词 频的平均值; 对所述平均值进行归一化处理, 得到所述发件
人昵称与内网邮箱昵称相似度;
基于企业内部组织信息集合对各内部组织进行分词, 得到词组集合; 计算各所述词组
集合中每个词组中词语的词频, 得到词频集合; 对 所述待检测邮件的发件人昵称进 行分词,
得到文本词组; 使用所述文本词组与所述词 频集合进行词 频匹配, 得到所述文本词组中各
个词语的词 频; 计算所述文本词组中各个词语的词 频的平均值; 对所述平均值进行归一化
处理, 得到所述发件人昵称与企业内部组织相似度;
从所述历史日志中提取发件人邮箱不是企业内部邮箱的历史邮件数量, 得到所述外网
邮箱历史发送邮件数量;
基于所述待检测邮件的收件人邮箱的个数, 确定所述邮件收件人 数量;
从所述待检测邮件的收件人邮箱中提取收件人邮箱名称, 基于所述收件人邮箱名称以
及企业员工与部门映射信息集合, 确定所述收件人邮箱对应部门; 对所述收件人邮箱对应
部门进行去重统计, 得到所述邮件收件人对应部门数量;
从所述待检测邮件的收件人邮箱中提取收件人邮箱名称, 基于所述收件人邮箱名称以
及企业员工与部门映射信息集合, 确定所述收件人邮箱对应部门; 从所述历史日志中统计
所述收件人邮箱对应部门在目标历史时间内, 收到的来自所述待检测邮件的发件人邮箱的
邮件数量;
从所述历史日志中统计所述待检测邮件的收件人邮箱收到的来自所述待检测邮件的
发件人邮箱的邮件数量;
从所述历史日志中统计所述待检测邮件的收件人邮箱收到的发件人邮箱为外部邮箱
的邮件数量。
4.根据权利要求1所述的钓鱼邮件检测方法, 其特征在于, 所述基于所述企业内部信 息
以及所述邮件网关日志, 确定待检测邮件的邮件特 征, 包括:
在待检测邮件包括发件人邮箱名称的情况下, 基于所述待检测邮件的发件人邮箱名称
确定所述待检测邮件的邮箱域名信息;
在所述企业内部信 息包括企业内部邮箱域名集合, 且所述待检测邮件的邮箱域名信 息
与所述企业内部邮箱域名集合不匹配的情况下, 基于所述企业内部信息、 所述邮件网关日
志以及所述待检测邮件的邮件属性信息, 确定所述待检测邮件的邮件特 征。
5.根据权利要求1所述的钓鱼邮件检测方法, 其特征在于, 在所述获取预先训练得到的权 利 要 求 书 2/3 页
3
CN 115473676 A
3
专利 钓鱼邮件检测方法、装置、电子设备及存储介质
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:27:34上传分享