专利 目标识别及模型训练方法、装置、设备、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210435779.4 (22)申请日 2022.04.24 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人郑少胤　 (74)专利代理机构北京励诚知识产权代理有限公司 11647 专利代理师熊金凤 (51)Int.Cl. G06V 30/42(2022.01) G06V 30/18(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/762(2022.01)G06V 10/82(2022.01) G06V 10/77(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称目标识别及模型训练方法、装置、设备、存储介质 (57)摘要本申请实施例提供了一种目标识别及模型训练方法、装置、设备、存储介质，在进行目标识别时，提取待识别网页的网页内容，并对网页内容进行检测，若该网页内容中包括图像，则通过图像识别模型中的特征提取模块，对网页内容中的图像进行多尺度特征提取，得到N个不同尺度的第一特征图，对N个不同尺度的第一特征图进行融合，得到第二特征图；接着，基于该第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果，进而根据该图像识别结果，得到待识别网页的识别结果。即本申请对网页所包括的图像进行目标识别，相比于只对网页的文本进行目标识别，本申请增大了对网页进行目标识别的范围，进而提高了目标识别的可靠性和准确性。权利要求书3页说明书22页附图8页 CN 115131811 A 2022.09.30 CN 115131811 A 1.一种目标识别方法，其特征在于，包括：提取待识别网页的网页内容；对所述网页内容进行检测，若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；对所述N个不同尺度的第一特征图进行融合，得到第二特征图；基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到图像识别结果；根据所述图像识别结果，得到所述待识别网页的识别结果。 2.根据权利要求1所述的方法，其特征在于，所述基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到图像识别结果，包括：基于目标先验框和所述第二特征图，通过所述回归层进行目标物识别，得到所述图像识别结果。 3.根据权利要求2所述的方法，其特征在于，所述目标先验框是根据M个先验框确定的，所述M个先验框是对训练图像数据集中，各训练图像所包括的所述目标物的大小进行聚类得到的， M为大于1的正整数。 4.根据权利要求1所述的方法，其特征在于，所述若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图之前，所述方法还包括：若所述网页内容中包括文本时，则通过文本识别模型，对所述文本进行目标物识别，得到文本识别结果；所述若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图，包括：若所述文本识别结果中不包括所述目标物对应的关键词，且所述网页内容中包括所述图像时，则通过所述特征提取模块，对所述图像进行多尺度特征提取，得到所述N个不同尺度的第一特征图。 5.根据权利要求4所述的方法，其特征在于，所述通过文本识别模型，对所述文本进行目标物识别，得到文本识别结果，包括：在所述目标物对应的词向量表中查询所述文本对应的词向量；将所述文本对应的词向量输入所述文本识别模型，以对所述文本进行目标物识别，得到文本识别结果。 6.根据权利要求5所述的方法，其特征在于，所述目标物对应的词向量表是经过训练文本训练得到的，所述词向量表中包括与所述目标物相关的不同关键词对应的词向量。 7.根据权利要求 4所述的方法，其特征在于，所述方法还包括：若所述文本识别结果中包括所述目标物对应的关键词，则将所述文本识别结果确定为所述待识别网页的识别结果。 8.根据权利要求 4所述的方法，其特征在于，所述方法还包括：若所述网页内容的图像中包括所述目标物，则提取所述图像中的文本内容；将提取的所述文本内容，存储至所述目标物对应的变种词库中。权　利　要　求　书 1/3 页 2 CN 115131811 A 29.根据权利要求1 ‑8任一项所述的方法，其特征在于，所述图像识别模型是经过第一训练图像训练得到的，所述第一训练图像是根据多张第二训练图确定的，所述多张第二训练图像是将获取的目标物图像粘贴在获取的背景图像中得到的。 10.根据权利要求9所述的方法，其特征在于，所述第一训练图像为所述多张第二训练图像中的任一第二训练图像；或者，所述第一训练图像是按照预设的比例，将所述多张第二训练图像中的至少两张第二训练图像进行组合得到的。 11.根据权利要求4 ‑7任一项所述的方法，其特征在于，所述文本识别模型是经过训练文本训练得到的，所述训练文本是根据所述目标物相关的关键词从网页中筛选得到的。 12.根据权利要求11所述的方法，其特征在于，所述文本识别模型是经过剔除后的所述训练文本训练得到的，所述剔除后的所述训练文本是对所述训练文本中的预设停用词进行剔除后得到的文本。 13.一种识别模型训练方法，其特征在于，包括：获取第一训练图像，并通过图像识别模型中的特征提取模块，对所述第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述 N为大于1的正整数；对所述N个不同尺度的第一特征图进行融合，得到第二特征图；基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到所述第一训练图像对应的目标物识别结果；根据所述目标物识别结果，确定所述图像识别模型的损失，并根据所述损失，对所述图像识别模型进行训练。 14.根据权利要求13所述的方法，其特征在于，所述基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到所述第一训练图像对应的目标物识别结果，包括：获取所述第一训练图像对应的目标先验框；基于所述目标先验框和所述第二特征图，通过所述回归层进行目标物识别，得到所述目标物识别结果。 15.根据权利要求13所述的方法，其特征在于，所述目标物识别结果包括预测框、所述预测框对应的置信度和类别判断，所述根据所述目标物识别结果，确定所述图像识别模型的损失，包括：根据所述预测框的中心点和大小，以及所述预测框对应的置信度和类别判断，确定所述图像识别模型的损失。 16.根据权利要求13 ‑15任一项所述的方法，其特征在于，所述方法还包括：获取与所述目标物相关的关键词；根据所述关键词，从网页中筛选训练文本；使用所述训练文本，对文本识别模型进行训练。 17.一种目标识别装置，其特征在于，包括：提取单元，用于提取待识别网页的网页内容；识别单元，用于对所述网页内容进行检测，若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征权　利　要　求　书 2/3 页 3 CN 115131811 A 3

专利 目标识别及模型训练方法、装置、设备、存储介质

专利目标识别及模型训练方法、装置、设备、存储介质