专利 基于预习机制知识蒸馏的模型压缩方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211206057.8 (22)申请日 2022.09.30 (71)申请人山东大学地址 266237 山东省青岛市即墨滨海路72 号申请人哈尔滨工业大学（深圳）　浙江猫精人工智能科技有限公司 (72)发明人吴建龙　丁沐河　聂礼强　董雪　甘甜　丁宁　姜飞俊　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师张庆骞 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/778(2022.01)G06V 10/82(2022.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称基于预习机制知识蒸馏的模型压缩方法及系统 (57)摘要本发明属于计算机视觉图像分类领域，为了解决识别图像类别的准确性差且不稳定的问题，提供基于预习机制知识蒸馏的模型压缩方法及系统。其中该方法包括获取图像样本并标注其标签，对学生网络进行监督训练；使得学生网络与预先训练好的教师网络进行输出对齐、特征对齐、类别中心对齐以及类别中心对比学习；计算图像样本的难度分数，动态分配不同图像样本的权重；基于监督训练、输出对齐、特征对齐、类别中心对齐及类别中心对比学习的损失函数及不同图像样本的权重，得到总损失函数；根据总损失函数来指导训练学生网络，得到训练完成的学生网络，以作为图像分类模型，用于对输入的图像进行类别分布预测。其提高了图像识别类别的准确性。权利要求书2页说明书9页附图4页 CN 115294407 A 2022.11.04 CN 115294407 A 1.一种基于预习机制知识蒸馏的模型压缩方法，其特征在于，包括：获取图像样本并标注其标签，对学生网络进行监督训练；基于类别对比学习知识蒸馏方法使得学生网络与预先训练好的教师网络进行输出对齐、特征对齐、类别中心对齐以及类别中心对比学习；采用预习机制的学习策略计算图像样本的难度分数，并基于难度分数动态分配不同图像样本的权重；基于监督训练、输出对齐、特征对齐、类别中心对齐及类别中心对比学习的损失函数及不同图像样本的权重，得到总损失函数；根据总损失函数来指导训练学生网络，得到基于教师网络模型压缩训练完成的学生网络，以作为图像分类模型，用于对输入的图像进行类别分布预测。 2.如权利要求1所述的基于预习机制知识蒸馏的模型压缩方法，其特征在于，对学生网络进行监督训练的过程中，基于图像样本和标签，最小化学生网络的预测分布和标签的交叉熵。 3.如权利要求1所述的基于预习机制知识蒸馏的模型压缩方法，其特征在于，在使得学生网络与预先训练好的教师网络进行输出对齐的过程中，最小化教师网络和学生网络输出的KL散度，让两者的输出相似。 4.如权利要求1所述的基于预习机制知识蒸馏的模型压缩方法，其特征在于，在使得学生网络与预先训练好的教师网络进行特征对齐的过程中，将学生网络的特征通过多层感知机对齐教师网络的特征维度，并最小化两者特征的欧几里得距离，让两者的特征相似。 5.如权利要求1所述的基于预习机制知识蒸馏的模型压缩方法，其特征在于，在使得学生网络与预先训练好的教师网络进行类别中心对齐的过程中，最小化教师网络和学生网络的全连接层权重矩阵的欧几里得距离，对齐两者的类别中心。 6.如权利要求1所述的基于预习机制知识蒸馏的模型压缩方法，其特征在于，在采用预习机制的学习策略计算图像样本的难度分数的过程中，当图像样本的难度分数不大于动态阈值时，图像样本权重赋值为1；否则，图像样本权重的赋值的倒数为图像样本的难度分数的平方的e指数。 7.如权利要求6所述的基于预习机制知识蒸馏的模型压缩方法，其特征在于，所述动态阈值为幂指函数，其中，指数为训练次数，底数为1与控制增长率的超参数之和。 8.一种基于预习机制知识蒸馏的模型压缩系统，其特征在于，包括：监督训练模块，其用于获取图像样本并标注其标签，对学生网络进行监督训练；知识蒸馏模块，其用于基于类别对比学习知识蒸馏方法使得学生网络与预先训练好的教师网络进行输出对齐、特征对齐、类别中心对齐以及类别中心对比学习；预习机制学习模块，其用于采用预习机制的学习策略计算图像样本的难度分数，并基于难度分数动态分配不同图像样本的权重；总损失函数确定模块，其用于基于监督训练、输出对齐、特征对齐、类别中心对齐及类别中心对比学习的损失函数及不同图像样本的权重，得到总损失函数；模型压缩模块，其用于根据总损失函数来指导训练学生网络，得到基于教师网络模型压缩训练完成的学生网络，以作为图像分类模型，用于对输入的图像进行类别分布预测。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执权　利　要　求　书 1/2 页 2 CN 115294407 A 2行时实现如权利要求1 ‑7中任一项所述的基于预习机制知识蒸馏的模型压缩方法中的步骤。 10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7中任一项所述的基于预习机制知识蒸馏的模型压缩方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115294407 A 3

专利 基于预习机制知识蒸馏的模型压缩方法及系统

专利基于预习机制知识蒸馏的模型压缩方法及系统