(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210652398.1
(22)申请日 2022.06.08
(71)申请人 暨南大学
地址 510632 广东省广州市天河区黄埔大
道西601号
(72)发明人 张冰 庄峻贤 孔锐
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 黄卫萍
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06K 9/62(2022.01)
(54)发明名称
一种基于模型融合的交替训练方法
(57)摘要
本发明公开了一种基于模型融合的交替训
练方法, 包括下述步骤: 模型融合步骤; 交替训练
方法的初始化; 交替训练步骤, 该步骤包含多次
融合卷积神经网络分类器的交替训练, 每次融合
卷积神经网络分类器的交替训练包括两个阶段,
分别是借助辅助任务学习阶段和 融合卷积神经
网络整体训练阶段。 本发明利用模 型融合技术结
合现有的动量对比的自监督学习技术的优点, 融
合卷积神经网络分类器在交替训练时相比现有
技术算法增加了训练时的负样 本的个数, 有效提
升了模型的泛化能力。
权利要求书3页 说明书9页 附图2页
CN 115035337 A
2022.09.09
CN 115035337 A
1.一种基于模型融合的交替训练方法, 其特 征在于, 所述交替训练方法包括以下步骤:
S1、 构建两个结构和参数相同的第一卷积神经分类网络和第二卷积神经分类网络, 利
用注意力机制对第一卷积神经分类网络和第二卷积神经分类网络进行模型融合得到融合
卷积神经网络分类器, 在融合过程中保留所述第一卷积神经分类网络的线性分类层, 去除
所述第二卷积神经分类网络的线性分类层, 分别对所述第一卷积神经分类网络和 第二卷积
神经分类网络增 加特征表示线性层;
S2、 初始化交替训练方法, 对交替训练方法中训练参数进行初始化处 理;
S3、 进行多次交替训练每次交替训练包括两个阶段, 分别是借助辅助任务学习阶段和
融合卷积神经网络整体训练阶段; 通过借助辅助任务学习阶段和融合卷积神经网络整体训
练阶段对所述融合卷积神经网络分类器进 行交替训练, 得到交替训练后的融合卷积神经网
络分类器。
2.根据权利要求1所述的一种基于模型融合的交替训练方法, 其特征在于, 所述步骤S1
过程如下:
构建两个结构和参数相同的第 一卷积神经分类网络和第 二卷积神经分类网络, 将第 一
卷积神经分类网络和第二卷积神经分类网络进行模型融合技术得到融合卷积神经网络分
类器, 以下第一卷积神经分类网络简称M0, 第二卷积神经分类网络简称M1, 融合卷积神经网
络分类器简称EM;
对M0和M1结构进行划分, M0和M1结构一般包 括卷积层, 池 化层和线 性分类层, 除了线 性分
类层, 将M0的结构依次划分为输入卷积层和若干个卷积模块, 输入卷积层和卷积模块内包
括卷积层和批正则化层, 卷积模块的个数定义 为Nconv, M1的结构的划分与M0相同;
通过模型融合技术对M0和M1的每一个卷积模块的特征图输出利用注意力机制进行融
合, EM的第i个卷积模块由M0的第i个卷积模块和M1的第i个卷积模块组成, 其中i=1,2, …,
Nconv, EM的第i个卷积模块的输入定义为inpi, 输出定义为oupi, EM的第j个卷积模块的输出
作为EM的第j+1个卷积模块的输入, 其中j=1,2, …,Nconv‑1, 通过以下公式计算 oupi:
其中, λ为注意力 机制的超参数,
和
分别为M0的第i个卷积模块的前向传
播函数和M1的第i个卷积模块的前向传播 函数;
EM的线性 分类层保留M0的线性分类层, 同时去除M1的线性分类层, 在EM中, 针对M0和M1分
别增加一个特征表示线性层R0和R1, 同时, M1的输入卷积层 参数与M0的输入卷积层 参数采取
参数共享的形式。
3.根据权利要求2所述的一种基于模型融合的交替训练方法, 其特征在于, 所述步骤S2
过程如下:
初始化EM的交替训练的次数NAl;
初始化交替训练中计数器n, 令n=0, 每进行一个迭代次数epoch的借助辅助任务学习
阶段或每进行一个迭代次数 epoch的融合卷积神经网络整体训练阶段, 令n =n+1;
初始化每次EM的交替训练中借助辅助任务学习阶段的迭代次数epoch为P, 融合卷积神
经网络整体训练阶段的迭代次数 epoch为T;
初始化动态字典Dy, 其中y=0且动态字典每更新一次, y=y+1, y表示第y次动态更新次权 利 要 求 书 1/3 页
2
CN 115035337 A
2数, 动态字典大小
为P倍的数据集总体样本个数。
4.根据权利要求1至3任一所述的一种基于模型融合的交替训练方法, 其特征在于, 所
述步骤S3 中, 训练采用批次训练方案, 批次大小定义为BS, 每次训练 的输入数据定义为IBS,
对IBS进行两种不同的数据增强得到该批次的两个数据增强后的数据
和
迭代P个
epoch的借助辅助任务学习阶段, 迭代T个epoch的融合卷积神经网络整体训练阶段, 然后依
次循环迭代直至 EM的交替训练的次数达 到NAl。
5.根据权利要求4所述的一种基于模型融合的交替训练方法, 其特征在于, 所述借助辅
助任务学习阶段的前向传播过程如下:
一个批次内输入为两个数据增强后的数据
和
输出为分类预测结果
predclassification, 正样本特征表示
和正样本特征表示
该借助辅助任务学习阶段中,
M0的参数设置为具有梯度, 而M1的参数设置为 不具有梯度;
将
输入到EM中, 通过前向传播分别从EM的线性分类层和M0的特征表示线性层R0得到
分类预测结果predclassificati on和正样本特 征表示
其中, fEM(·)为EM的Nconv个卷积模块的前向传播函数,
为EM的第Nconv个卷积模块
的输出, fEM,Linear(·)为EM的线性分类层的前向传播函数,
为M0的特征表示线性层R0
的前向传播 函数;
将
输入到M1中, 通过前向传播从M1的特征表示线性层R1得到正样本特 征表示
其中,
为M1的Nconv个卷积模块的前向传播函数,
为M1的特征表示线性层R1的
前向传播 函数。
6.根据权利要求4所述的一种基于模型融合的交替训练方法, 其特征在于, 所述借助辅
助任务学习阶段的反向传播过程如下:
通过当前动态字典Dy、 正样本特征表示
和
计算辅助任务的损失函数Lauxiliary, 损
失函数Lauxiliary为InfoNCE:
其中, τ为温度超参数,
为动态字典大小, Dy,q为动态字典Dy的第q个负样本特征表
示;
通过分类预测结果predclassification和标签信息计算分类损失函数Lclassification, 损失函
数Lclassification为交叉熵损失函数, 将辅助任务的损失函数Lauxiliary和分类损失函数
Lclassificati on融合为多任务学习损失函数LMTL:权 利 要 求 书 2/3 页
3
CN 115035337 A
3
专利 一种基于模型融合的交替训练方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:45:21上传分享