(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211285194.5
(22)申请日 2022.10.20
(71)申请人 中国农业银行股份有限公司
地址 100005 北京市东城区建国门内大街
69号
(72)发明人 潘禹瑶
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 王雨
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/00(2006.01)
(54)发明名称
一种对用 于识别敏感信息的特征进行选择
的方法及装置
(57)摘要
本申请公开一种对用于识别敏感信息的特
征进行选 择的方法及装置, 可以将数据具有的特
征类型进行 组合得到多个组合, 将每个组合看作
一个粒子, 获得一个粒子群, 初始化粒子群并设
置为当前粒子群, 初始化迭代次数为1, 根据粒子
不确定性值从粒子群提取部分粒子, 计算部分粒
子中各粒子的分类准确率, 根据各粒子的分类准
确率和不确定性取值确定各粒子的历史最佳基
础变量和全局历史最佳基础变量, 判断迭代次数
是否小于迭代终止次数, 若是, 则对当前粒子群
进行更新, 迭代次数加1, 返回确定当前粒子群中
每个粒子不确定性取值的步骤, 若否, 基于最后
一次迭代确定的全局历史最佳基础变量确定用
于识别敏感信息的特征类型, 提高了敏感信息的
识别效果。
权利要求书3页 说明书10页 附图8页
CN 115526268 A
2022.12.27
CN 115526268 A
1.一种对用于识别敏感信息的特 征进行选择的方法, 其特 征在于, 所述方法包括:
获得多条待识别的数据;
获得所述多条待识别的数据所 具有的各 特征类型;
将获得的各 特征类型进行组合, 得到多个特 征类型组合;
将每一个特 征类型组合确定为 一个粒子, 获得包括多个粒子的粒子群;
初始化所述粒子群中各粒子的基础变量并将初始化的所述粒子群确定为当前粒子群,
所述基础变量包括: 速度和位置, 将迭代次数初始化 为1;
确定当前 粒子群中每 个粒子的不确定性取值;
根据不确定性取值, 从当前 粒子群中提取部分粒子;
分别计算 提取的各 粒子的分类准确率;
基于提取的各粒子的分类准确率和不确定性取值, 分别确定提取的每一个粒子自身的
粒子历史最佳基础变量;
基于提取的各 粒子的分类准确率和不确定性取值, 确定全局历史最佳基础变量;
判断迭代次数是否小于迭代终止次数, 若是, 则基于本次迭代确定的各粒子历史最佳
基础变量及 全局历史最佳基础变量对当前粒子群的基础变量进行更新, 将所述迭代次数增
大1, 返回执 行所述确定当前 粒子群中每 个粒子的不确定性取值的步骤;
若否, 则基于最后 一次迭代确定的全局历史最佳基础变量确定用于识别敏感信 息的特
征类型。
2.根据权利要求1所述的方法, 其特征在于, 所述确定当前粒子群中每个粒子的不确定
性取值, 包括:
使用归一 化的对称不确定公式:
确定当前粒子群中每个粒子的不确定性取值, 其中, SU为对称不确性, X和Y分别表示一
个特征类型, SU(X,Y)表 示特征类型X和特征类型Y的对称不确性; x为特征类型X的取值, y为
特征类型Y的取值;
I(X; Y)为特征类型X和特征类型Y之间的互信息; H(X)为特征类型X的熵函数, H(Y)为特
征类型Y的熵函数, p(x,y)表示x和y的联合分布律, p(x)表示x的边缘分布律, p(y)表示y的
边缘分布律; q(x)表示特 征类型X的取值为x的概率。
3.根据权利要求1所述的方法, 其特征在于, 所述根据不确定性取值, 从当前粒子群中
提取部分粒子, 包括:
从当前粒子群中提取不确定性取值最 高的N个粒子, 所述N为自然数, 且N=M ×α, 所述M权 利 要 求 书 1/3 页
2
CN 115526268 A
2为当前粒子群中的粒子总数, 所述α 为小于1的预设百分数。
4.根据权利要求1所述的方法, 其特征在于, 所述分别计算提取的各粒子的分类准确
率, 包括:
通过SVM算法计算 提取的各 粒子的分类准确率。
5.根据权利要求1所述的方法, 其特征在于, 所述基于最后 一次迭代确定的全局历史最
佳基础变量确定用于识别敏感信息的特 征类型, 包括:
将最后一次迭代确定的全局历史最佳基础变量对应的粒子所代表的特征类型组合中
的特征类型, 确定为用于识别敏感信息的特 征类型。
6.根据权利要求1所述的方法, 其特 征在于, 还 包括:
基于所述用于识别敏感信 息的特征类型从所述多条待识别的数据中, 提取用于识别敏
感信息的特 征值;
基于所述特 征值, 从所述多条待识别的数据中识别敏感信息 。
7.一种对用于识别敏感信息的特 征进行选择的装置, 其特 征在于, 所述装置包括:
数据获取 单元, 用于获得多条待识别的数据;
特征类型获取 单元; 用于获得 所述多条待识别的数据所 具有的各 特征类型;
组合单元, 用于将获得的各 特征类型进行组合, 得到多个特 征类型组合;
粒子群单元, 用于将每一个特征类型组合确定为一个粒子, 获得包括多个粒子的粒子
群;
初始化单元, 用于初始化所述粒子群中各粒子的基础变量并将初始化的所述粒子群确
定为当前 粒子群, 所述基础变量包括: 速度和位置, 将迭代次数初始化 为1;
取值确定单 元, 用于确定当前 粒子群中每 个粒子的不确定性取值;
粒子提取 单元, 用于根据不确定性取值, 从当前 粒子群中提取部分粒子;
计算单元, 用于分别计算 提取的各 粒子的分类准确率;
历史确定单元, 用于基于提取的各粒子的分类准确率和不确定性取值, 分别确定提取
的每一个粒子自身的粒子历史最佳基础变量;
全局确定单元, 用于基于提取的各粒子的分类准确率和不确定性取值, 确定全局历史
最佳基础变量;
次数确定单元, 用于判断迭代次数是否小于迭代终止次数, 若是, 则触发更新单元; 若
否, 则触发结果确定单 元;
所述更新单元, 用于基于本次迭代确定的各粒子历史最佳基础变量及全局历史最佳基
础变量对当前粒子群的基础变量进行更新, 将所述迭代次数增大1, 触发所述取值确定单
元;
所述结果确定单元, 用于基于最后一 次迭代确定的全局历史最佳基础变量确定用于识
别敏感信息的特 征类型。
8.根据权利要求7所述的装置, 其特征在于, 所述粒子提取单元具体用于: 从当前粒子
群中提取不确定性取值最高的N个粒子, 所述N为自然 数, 且N=M ×α, 所述M为当前粒子群中
的粒子总数, 所述α 为小于1的预设百分数。
9.根据权利要求7 所述的装置, 其特 征在于, 所述计算单 元具体用于:
通过SVM算法计算 提取的各 粒子的分类准确率。权 利 要 求 书 2/3 页
3
CN 115526268 A
3
专利 一种对用于识别敏感信息的特征进行选择的方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:41:53上传分享