专利 数据处理方法及装置、设备、介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210427732.3 (22)申请日 2022.04.22 (71)申请人北京灵汐科技有限公司地址 100080 北京市海淀区北四环西路67 号8层801 (72)发明人赵荣臻　吴臻志　 (74)专利代理机构北京天昊联合知识产权代理有限公司 1 1112 专利代理师彭瑞欣　冯建基 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称数据处理方法及装置、设备、介质 (57)摘要本公开提供了一种数据处理方法及装置、设备、介质，该方法包括：将待处理数据输入目标神经网络中处理，得到待处理数据的处理结果，目标神经网络的至少一层卷积层为基于第一注意力机制的注意力卷积层，和/或，目标神经网络的至少两级卷积层之间基于第二注意力机制进行特征融合，第一注意力机制包括针对特征的局部区域的自注意力机制，第二注意力机制包括不同尺度的输出特征之间针对输出特征的局部区域的注意力机制。根据本公开的实施例能够获得表达效果更好的特征，从而提高数据处理效果。权利要求书4页说明书18页附图7页 CN 114781513 A 2022.07.22 CN 114781513 A 1.一种数据处理方法，其特征在于，包括：将待处理数据输入目标神经网络中处理，得到所述待处理数据的处理结果，所述目标神经网络的至少一层卷积层为基于第一注意力机制的注意力卷积层，和/或，所述目标神经网络的至少两级卷积层之间基于第二注意力机制进行特征融合，其中，所述第一注意力机制包括针对特征的局部区域的自注意力机制，所述第二注意力机制包括不同尺度的输出特征之间针对所述输出特征的局部区域的注意力机制。 2.根据权利要求1所述的方法，其特征在于，所述目标神经网络包括注意力卷积层，所述将待处理数据输入目标神经网络中处理，得到所述待处理数据的处理结果，包括：针对任一注意力卷积层，对所述注意力卷积层的输入数据进行线性变换，获得与所述输入数据对应的第一查询特征、第一键特征和第一值特征；根据所述第一查询特征、所述第一键特征和所述第一值特征，确定与所述第一查询特征的多个目标特征点对应的第一注意力特征，其中，所述第一注意力特征包括与各个所述目标特征点对应的第一注意力值，所述第一注意力值为针对与所述目标特征点对应的局部区域确定的，与所述目标特征点对应的局部区域是所述第一查询特征中以所述目标特征点为中心，并根据预设尺寸确定的区域，所述预设尺寸小于所述第一查询特征的尺寸，所述第一注意力值用于表征所述局部区域内的各个特征点与所述目标特征点之间的关联关系；根据所述第一注意力特征和所述输入数据，确定与所述注意力卷积层对应的输出特征，其中，所述输入数据是所述待处理数据经由所述注意力卷积层之前的网络层处理后的数据，所述处理结果是所述输出特征经由所述注意力卷积层之后的网络层处理后得到的。 3.根据权利要求2所述的方法，其特征在于，所述根据所述第一查询特征、所述第一键特征和所述第一值特征，确定与所述第一查询特征的多个目标特征点对应的第一注意力特征，包括：针对各个所述目标特征点，确定所述第一键特征中与所述局部区域对应的多个第一键特征点，以及所述第一值特征中与所述局部区域对应的第一值特征点；确定所述目标特征点与各个所述第一键特征点之间的相似性，获得与所述目标特征点对应的第一相似度特征；根据所述第一相似度特征与所述第一值特征点，获得与所述目标特征点对应的第一注意力值；根据多个所述目标特征点的第一注意力值，获得所述第一注意力特征。 4.根据权利要求3所述的方法，其特征在于，所述根据所述第一查询特征、所述第一键特征和所述第一值特征，确定与所述第一查询特征的多个目标特征点对应的第一注意力特征之前，还包括：从所述第一查询特征中选取多个特征点作为所述目标特征点；根据所述预设尺寸，确定与各个目标特征点对应的局部区域。 5.根据权利要求4所述的方法，其特征在于，所述第一查询特征包括向量和矩阵中的任意一种；在所述第一查询特征为向量的情况下，所述预设尺寸包括预设特征点数量，且所述预设特征点数量小于所述第一查询向量的特征点总数量，所述局部区域是以所述目标特征点权　利　要　求　书 1/4 页 2 CN 114781513 A 2为中心、特征点数量等于所述预设特征点数量的向量；在所述第一查询特征为矩阵的情况下，所述预设尺寸包括预设行数量和预设列数量，且所述预设行数量小于所述第一查询特征的行总数量，所述预设列数量小于所述第一查询特征的列总数量，所述局部区域是以所述目标特征点为中心、以所述预设行数量为高度、所述预设列数量为宽度的矩形区域。 6.根据权利要求2所述的方法，其特征在于，所述根据所述第一查询特征、所述第一键特征和所述第一值特征，确定与所述第一查询特征的多个目标特征点对应的第一注意力特征，包括：根据所述局部区域的预设尺寸，设置滑动窗口和步长；从预设的初始滑动位置开始，沿所述第一查询特征以所述步长滑动所述滑动窗口，并确定每次滑动操作中与所述滑动窗口对应的目标特征点，所述第一键特征中与所述滑动窗口对应的多个第一键特征点，以及所述第一值特征中与所述滑动窗口对应的第一值特征点；确定所述目标特征点与各个所述第一键特征点之间的相似性，获得与所述目标特征点对应的第一相似度特征；根据所述第一相似度特征与所述第一值特征点，获得与所述目标特征点对应的第一注意力值；根据多个所述目标特征点的第一注意力值，获得所述第一注意力特征。 7.根据权利要求3或6所述的方法，其特征在于，所述第一查询特征与所述第一键特征相同；所述确定所述目标特征点与各个所述第一键特征点之间的相似性，包括：在获得第i个目标特征点与第j个第一键特征点之间的相似性Sij的情况下，根据所述 Sij确定第j个第一查询特征点与第i个目标特征点之间的相似性Sji；其中， i和 j均为大于等于1且小于等于M的整数， M为所述第一查询特征或所述第一键特征中的特征点的总数量，且i≥j或i≤j。 8.根据权利要求2所述的方法，其特征在于，所述根据所述第一注意力特征和所述输入数据，确定与所述注意力卷积层对应的输出特征，包括：对所述第一注意力特征进行线性变换，获得与所述输入数据尺寸相同的第一匹配注意力特征；将所述第一匹配注意力特征与所述输入数据进行叠加，获得与所述输入数据对应的输出特征。 9.根据权利要求2所述的方法，其特征在于，所述根据所述第一注意力特征和所述输入数据，确定与所述注意力卷积层对应的输出特征，包括：根据与所述第一注意力特征中第一注意力值对应的目标特征点在所述输入数据中的位置信息，将所述第一注意力值进行重新排列，获得第二匹配注意力特征；根据所述第二匹配注意力特征和所述输入数据中与所述目标特征点对应的特征点，获得与所述输入数据对应的输出特征。 10.根据权利要求1所述的方法，其特征在于，所述目标神经网络的N级卷积层之间基于第二注意力机制进行特征融合，各级卷积层输出的特征的尺度不同， N为大于或等于2的整权　利　要　求　书 2/4 页 3 CN 114781513 A 3

专利 数据处理方法及装置、设备、介质

专利数据处理方法及装置、设备、介质