(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210427732.3
(22)申请日 2022.04.22
(71)申请人 北京灵汐科技有限公司
地址 100080 北京市海淀区北四环西路67
号8层801
(72)发明人 赵荣臻 吴臻志
(74)专利代理 机构 北京天昊联合知识产权代理
有限公司 1 1112
专利代理师 彭瑞欣 冯建基
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
数据处理方法及装置、 设备、 介质
(57)摘要
本公开提供了一种数据处理方法及装置、 设
备、 介质, 该方法包括: 将待处理数据输入目标神
经网络中处理, 得到待处理数据的处理结果, 目
标神经网络的至少一层卷积层为基于第一注意
力机制的注意力卷积层, 和/或, 目标神经网络的
至少两级卷积层之间基于第二注意力机制进行
特征融合, 第一注意力机制包括针对 特征的局部
区域的自注 意力机制, 第二注 意力机制包括不同
尺度的输出特征之间针对输出特征的局部区域
的注意力机制。 根据本公开的实施例能够获得表
达效果更好的特 征, 从而提高数据处 理效果。
权利要求书4页 说明书18页 附图7页
CN 114781513 A
2022.07.22
CN 114781513 A
1.一种数据处 理方法, 其特 征在于, 包括:
将待处理数据输入目标神经网络中处理, 得到所述待处理数据的处理结果, 所述目标
神经网络的至少一层卷积层为基于第一注意力机制的注意力卷积层, 和/或, 所述目标神经
网络的至少两级卷积层之间基于第二注意力机制进行 特征融合,
其中, 所述第一注意力机制包括针对特征的局部区域的自注意力机制, 所述第二注意
力机制包括 不同尺度的输出 特征之间针对所述输出 特征的局部区域的注意力机制。
2.根据权利要求1所述的方法, 其特征在于, 所述目标神经网络包括注意力卷积层, 所
述将待处 理数据输入目标神经网络中处 理, 得到所述待处 理数据的处 理结果, 包括:
针对任一注意力卷积层, 对所述注意力卷积层的输入数据进行线性变换, 获得与所述
输入数据对应的第一 查询特征、 第一键特 征和第一 值特征;
根据所述第一查询特征、 所述第一键特征和所述第一值特征, 确定与所述第一查询特
征的多个目标特征点对应的第一注意力特征, 其中, 所述第一注意力特征包括与各个所述
目标特征点对应的第一注意力值, 所述第一注意力值为针对与所述目标特征点对应的局部
区域确定的, 与所述目标特征点对应的局部区域是所述第一查询特征中以所述目标特征点
为中心, 并根据预设尺寸确定的区域, 所述预设尺寸小于所述第一查询特征的尺寸, 所述第
一注意力值用于表征 所述局部区域内的各个特 征点与所述目标 特征点之间的关联关系;
根据所述第一注意力特征和所述输入数据, 确定与所述注意力卷积层对应的输出特
征,
其中, 所述输入数据 是所述待处理数据经由所述注意力卷积层之前的网络层处理后的
数据, 所述处 理结果是 所述输出 特征经由所述注意力卷积层之后的网络层处 理后得到的。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述第一查询特征、 所述第一键
特征和所述第一值特征, 确定与所述第一查询特征的多个目标特征点对应的第一注意力特
征, 包括:
针对各个所述目标特征点, 确定所述第 一键特征中与 所述局部区域对应的多个第 一键
特征点, 以及所述第一 值特征中与所述局部区域对应的第一 值特征点;
确定所述目标特征点与各个所述第 一键特征点之间的相似性, 获得与 所述目标特征点
对应的第一相似度特 征;
根据所述第 一相似度 特征与所述第一值特征点, 获得与 所述目标特征点对应的第 一注
意力值;
根据多个所述目标 特征点的第一注意力值, 获得 所述第一注意力特 征。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述第一查询特征、 所述第一键
特征和所述第一值特征, 确定与所述第一查询特征的多个目标特征点对应的第一注意力特
征之前, 还 包括:
从所述第一 查询特征中选取多个特 征点作为所述目标 特征点;
根据所述预设尺寸, 确定与各个目标 特征点对应的局部区域。
5.根据权利要求4所述的方法, 其特征在于, 所述第 一查询特征包括向量和矩阵中的任
意一种;
在所述第一查询特征为向量的情况下, 所述预设尺寸包括预设特征点数量, 且所述预
设特征点数量小于所述第一查询向量的特征点总数量, 所述局部区域是以所述目标特征点权 利 要 求 书 1/4 页
2
CN 114781513 A
2为中心、 特 征点数量 等于所述预设特 征点数量的向量;
在所述第一查询特征为矩阵的情况下, 所述预设尺寸包括预设行数量和预设列数量,
且所述预设行数量小于所述第一查询特征的行总数量, 所述预设列数量小于所述第一查询
特征的列总数量, 所述局部区域是以所述目标特征点为中心、 以所述预设行数量为高度、 所
述预设列数量 为宽度的矩形区域。
6.根据权利要求2所述的方法, 其特征在于, 所述根据所述第一查询特征、 所述第一键
特征和所述第一值特征, 确定与所述第一查询特征的多个目标特征点对应的第一注意力特
征, 包括:
根据所述局部区域的预设尺寸, 设置滑动窗口和步长;
从预设的初始滑动位置开始, 沿所述第一查询特征以所述步长滑动所述滑动 窗口, 并
确定每次滑动 操作中与所述滑动窗口对应的目标特征点, 所述第一键特征中与所述滑动窗
口对应的多个第一键特征点, 以及所述第一值特征中与所述滑动窗口对应的第一值特征
点;
确定所述目标特征点与各个所述第 一键特征点之间的相似性, 获得与 所述目标特征点
对应的第一相似度特 征;
根据所述第 一相似度 特征与所述第一值特征点, 获得与 所述目标特征点对应的第 一注
意力值;
根据多个所述目标 特征点的第一注意力值, 获得 所述第一注意力特 征。
7.根据权利要求3或6所述的方法, 其特征在于, 所述第一查询特征与所述第一键特征
相同;
所述确定所述目标 特征点与各个所述第一键特 征点之间的相似性, 包括:
在获得第i个目标特征点与第j个第一键特征点之间的相似性Sij的情况下, 根据所述
Sij确定第j个第一 查询特征点与第i个目标 特征点之间的相似性Sji;
其中, i和 j均为大于等于1且小于等于M的整数, M为所述第一查询特征或所述第一键特
征中的特 征点的总数量, 且i≥j或i≤j。
8.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一注意力特征和所述输入
数据, 确定与所述注意力卷积层对应的输出 特征, 包括:
对所述第一注意力特征进行线性变换, 获得与 所述输入数据尺寸相同的第 一匹配注意
力特征;
将所述第一匹配注意力特征与所述输入数据进行叠加, 获得与 所述输入数据对应的输
出特征。
9.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一注意力特征和所述输入
数据, 确定与所述注意力卷积层对应的输出 特征, 包括:
根据与所述第一注意力特征中第一注意力值对应的目标特征点在所述输入数据中的
位置信息, 将所述第一注意力值进行重新 排列, 获得第二匹配注意力特 征;
根据所述第 二匹配注意力特征和所述输入数据中与所述目标特征点对应的特征点, 获
得与所述输入数据对应的输出 特征。
10.根据权利要求1所述的方法, 其特征在于, 所述目标神经网络的N级卷积层之间基于
第二注意力机制进行特征融合, 各级卷积层输出 的特征的尺度不同, N为大于或等于2的整权 利 要 求 书 2/4 页
3
CN 114781513 A
3
专利 数据处理方法及装置、设备、介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:39:06上传分享