专利 一种基于模型融合的交替训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210652398.1 (22)申请日 2022.06.08 (71)申请人暨南大学地址 510632 广东省广州市天河区黄埔大道西601号 (72)发明人张冰　庄峻贤　孔锐　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师黄卫萍 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06K 9/62(2022.01) (54)发明名称一种基于模型融合的交替训练方法 (57)摘要本发明公开了一种基于模型融合的交替训练方法，包括下述步骤：模型融合步骤；交替训练方法的初始化；交替训练步骤，该步骤包含多次融合卷积神经网络分类器的交替训练，每次融合卷积神经网络分类器的交替训练包括两个阶段，分别是借助辅助任务学习阶段和融合卷积神经网络整体训练阶段。本发明利用模型融合技术结合现有的动量对比的自监督学习技术的优点，融合卷积神经网络分类器在交替训练时相比现有技术算法增加了训练时的负样本的个数，有效提升了模型的泛化能力。权利要求书3页说明书9页附图2页 CN 115035337 A 2022.09.09 CN 115035337 A 1.一种基于模型融合的交替训练方法，其特征在于，所述交替训练方法包括以下步骤： S1、构建两个结构和参数相同的第一卷积神经分类网络和第二卷积神经分类网络，利用注意力机制对第一卷积神经分类网络和第二卷积神经分类网络进行模型融合得到融合卷积神经网络分类器，在融合过程中保留所述第一卷积神经分类网络的线性分类层，去除所述第二卷积神经分类网络的线性分类层，分别对所述第一卷积神经分类网络和第二卷积神经分类网络增加特征表示线性层； S2、初始化交替训练方法，对交替训练方法中训练参数进行初始化处理； S3、进行多次交替训练每次交替训练包括两个阶段，分别是借助辅助任务学习阶段和融合卷积神经网络整体训练阶段；通过借助辅助任务学习阶段和融合卷积神经网络整体训练阶段对所述融合卷积神经网络分类器进行交替训练，得到交替训练后的融合卷积神经网络分类器。 2.根据权利要求1所述的一种基于模型融合的交替训练方法，其特征在于，所述步骤S1 过程如下：构建两个结构和参数相同的第一卷积神经分类网络和第二卷积神经分类网络，将第一卷积神经分类网络和第二卷积神经分类网络进行模型融合技术得到融合卷积神经网络分类器，以下第一卷积神经分类网络简称M0，第二卷积神经分类网络简称M1，融合卷积神经网络分类器简称EM；对M0和M1结构进行划分， M0和M1结构一般包括卷积层，池化层和线性分类层，除了线性分类层，将M0的结构依次划分为输入卷积层和若干个卷积模块，输入卷积层和卷积模块内包括卷积层和批正则化层，卷积模块的个数定义为Nconv， M1的结构的划分与M0相同；通过模型融合技术对M0和M1的每一个卷积模块的特征图输出利用注意力机制进行融合， EM的第i个卷积模块由M0的第i个卷积模块和M1的第i个卷积模块组成，其中i＝1,2， …, Nconv， EM的第i个卷积模块的输入定义为inpi，输出定义为oupi， EM的第j个卷积模块的输出作为EM的第j+1个卷积模块的输入，其中j＝1,2， …,Nconv‑1，通过以下公式计算 oupi：其中， λ为注意力机制的超参数，和分别为M0的第i个卷积模块的前向传播函数和M1的第i个卷积模块的前向传播函数； EM的线性分类层保留M0的线性分类层，同时去除M1的线性分类层，在EM中，针对M0和M1分别增加一个特征表示线性层R0和R1，同时， M1的输入卷积层参数与M0的输入卷积层参数采取参数共享的形式。 3.根据权利要求2所述的一种基于模型融合的交替训练方法，其特征在于，所述步骤S2 过程如下：初始化EM的交替训练的次数NAl；初始化交替训练中计数器n，令n＝0，每进行一个迭代次数epoch的借助辅助任务学习阶段或每进行一个迭代次数 epoch的融合卷积神经网络整体训练阶段，令n ＝n+1；初始化每次EM的交替训练中借助辅助任务学习阶段的迭代次数epoch为P，融合卷积神经网络整体训练阶段的迭代次数 epoch为T；初始化动态字典Dy，其中y＝0且动态字典每更新一次， y＝y+1， y表示第y次动态更新次权　利　要　求　书 1/3 页 2 CN 115035337 A 2数，动态字典大小为P倍的数据集总体样本个数。 4.根据权利要求1至3任一所述的一种基于模型融合的交替训练方法，其特征在于，所述步骤S3 中，训练采用批次训练方案，批次大小定义为BS，每次训练的输入数据定义为IBS，对IBS进行两种不同的数据增强得到该批次的两个数据增强后的数据和迭代P个 epoch的借助辅助任务学习阶段，迭代T个epoch的融合卷积神经网络整体训练阶段，然后依次循环迭代直至 EM的交替训练的次数达到NAl。 5.根据权利要求4所述的一种基于模型融合的交替训练方法，其特征在于，所述借助辅助任务学习阶段的前向传播过程如下：一个批次内输入为两个数据增强后的数据和输出为分类预测结果 predclassification，正样本特征表示和正样本特征表示该借助辅助任务学习阶段中， M0的参数设置为具有梯度，而M1的参数设置为不具有梯度；将输入到EM中，通过前向传播分别从EM的线性分类层和M0的特征表示线性层R0得到分类预测结果predclassificati on和正样本特征表示其中， fEM(·)为EM的Nconv个卷积模块的前向传播函数，为EM的第Nconv个卷积模块的输出， fEM,Linear(·)为EM的线性分类层的前向传播函数，为M0的特征表示线性层R0 的前向传播函数；将输入到M1中，通过前向传播从M1的特征表示线性层R1得到正样本特征表示其中，为M1的Nconv个卷积模块的前向传播函数，为M1的特征表示线性层R1的前向传播函数。 6.根据权利要求4所述的一种基于模型融合的交替训练方法，其特征在于，所述借助辅助任务学习阶段的反向传播过程如下：通过当前动态字典Dy、正样本特征表示和计算辅助任务的损失函数Lauxiliary，损失函数Lauxiliary为InfoNCE：其中， τ为温度超参数，为动态字典大小， Dy,q为动态字典Dy的第q个负样本特征表示；通过分类预测结果predclassification和标签信息计算分类损失函数Lclassification，损失函数Lclassification为交叉熵损失函数，将辅助任务的损失函数Lauxiliary和分类损失函数 Lclassificati on融合为多任务学习损失函数LMTL：权　利　要　求　书 2/3 页 3 CN 115035337 A 3

专利 一种基于模型融合的交替训练方法

专利一种基于模型融合的交替训练方法