专利 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210517301.6 (22)申请日 2022.05.12 (71)申请人湖南中医药大学地址 410208 湖南省长沙市含浦科教园区湖南中医药大学信息科学与工程学院 (72)发明人辛国江　朱磊　梁昊　王鑫　张杨　刘嵘澂　 (74)专利代理机构北京律谱知识产权代理有限公司 11457 专利代理师黄云铎　孙红颖 (51)Int.Cl. G06T 7/00(2017.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/776(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01) G06V 10/25(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G16H 10/60(2018.01) G16H 30/20(2018.01) G16H 50/20(2018.01) (54)发明名称一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 (57)摘要一种基于改进的Tiny‑YOLO v4自然环境下舌像检测定位方法，包括：收集舌像数据，并制作舌像数据集；构建改进Tiny ‑YOLO v4网络结构，实施与结构相匹配的Tiny ‑YOLO v4目标检测方法；对与结构相匹配的Tiny ‑YOLO v4目标检测方法进行训练，将训练后最佳的权重文件加载至 Tiny‑YOLO v4目标检测方法中得到目标检测网络模型；目标检测网络模型训练完成后进行多组独立数据集测试，在自然环境下快速定位检测舌体的位置并评价模型检测效果。本发明避免传统舌像识别算法的复杂度，利用检测准确率极高的 Tiny‑YOLO v4算法和神经网络在轻量化的 CSPDarknet 53框架上实现，加上协同注意力机制的空间信息特征和通道信息特征相融合，能够快速有效在自然环境下定位检测舌像。权利要求书2页说明书8页附图8页 CN 114998220 A 2022.09.02 CN 114998220 A 1.一种基于改进的Ti ny‑YOLO v4自然环境下舌像检测定位方法，包括 a步骤、收集舌像数据，并制作舌像数据集； b步骤、构建改进Tiny ‑YOLO v4网络结构，在所述改进网络结构基础上实施与结构相匹配的Tiny ‑YOLO v4目标检测方法，所述改进网络结构包括特征提取骨干网络、协同注意力机制模块、特征融合模块和多分类器模块； c步骤、利用a步骤的数据集对所述与结构相匹配的Tiny ‑YOLO v4目标检测方法进行训练，将训练后最佳的权重文件加载至Tiny ‑YOLO v4目标检测方法中得到目标检测网络模型，训练中采用Mosaic数据增强方法对舌像数据集进行扩充，采用K ‑Means聚类方法对舌像尺寸进行分类； d步骤、目标检测网络模型训练完成后进行多组独立数据集测试，在自然环境下快速定位检测舌体的位置并评价模型检测效果。 2.如权利要求1所述的方法，其中所述舌像数据集按下述方法制作：根据需要识别的目标收集自然环境下和标准环境下舌像图片数据，利用标签制作工具将图片数据中的检测目标进行标注，完成之后将数据集按比例随机分为训练集和测试集，所述标签制作工具为 Labelimg标签制作工具。 3.如权利要求2所述的方法，其中所述舌像数据集的格式为VOC格式，其中包括图片数据文件夹、存放xml标签文件的文件夹和保存图片路径的文件，所述标签制作工具Labelimg 将图片数据中的检测目标标记后，会自动生成存放标签的文件，文件中记录标签的具体位置坐标信息和标签名称。 4.如权利要求1所述的方法，其中所述特征提取骨干网络为轻量化的CSPDarknet53网络结构，所述轻量化CSPDarkent53网络结构输出两个大小分别为52＊52， 13＊13的浅层特征图，两个浅层特征图分别输入到所述协同注意力机制模块中，提取空间位置信息和通道权重信息，并通过连接操作将空间位置信息和通道权重信息融合得到中间特征图，然后将中间特征图传输到所述特征融合模块中，经过上采样、卷积和连接操作获取更高维度语义信息特征图，所述多分类器模块基于特征融合模块输出的两个13＊13和26＊26尺度的融合特征进行分类检测，输出最终的目标检测结果。 5.如权利要求4所述的方法，所述轻量化的CSPDarknet53网络结构具体包括：依次连接的第一Darknet卷积层模块、第二Darknet卷积模块、第一Resblock_body模块、第二 Resblock_body模块、第三Resblock_body模块、第三Darknet卷积层模块，所述第一Darknet 卷积层模块包含二维卷积操作、归一化和非线性激活函数，输入的的舌像图片经过第一 Daeknet卷积层之后输出大小为208＊208的特征图，传输到第二Darknet卷积层模块；然后再传入到第一Resblock_bo dy模块输出大小为52＊52的浅层特征图传输到第二Resblock_ body模块；第二Resblock_body模块输出大小为26＊26的浅层特征图有两个走向，一方面传入协同注意力机制模块中，另一方面传入第三Resblock_body模块中；第三Resblock_body 模块输出大小为13＊13的浅层特征图传入第三Darknet卷积层； Resblock_body模块包含一次下采样和多次残差结构的堆叠，避免训练过程中出现梯度消失或梯度爆炸问题，使神经网络层数更多。 6.如权利要求5所述的方法，所述协同注意力机制模块包括协同信息编码模块和协同注意力生成模块，其中协同信息编码模块提取来自第二Resblock_body模块的和第三权　利　要　求　书 1/2 页 2 CN 114998220 A 2Draknet卷积层模块的特征图中标注目标的空间坐标信息和通道权重信息，协同注意力生成模块通过连接操作将提取得到的空间坐标信息和通道权重信息融合在一起形成中间特征图，输出两个大小为13＊13和26＊26的中间特征图传输到特征融合模块中。 7.如权利要求1所述的方法，所述特征融合模块包括，依据数据流向依次连接的第一卷积层、上采样层、连接层和第二卷积层，获得更高维度语义信息的特征图，同时输出两个大小为13＊13， 26＊26的特征图至多分类器模块器中；其中协同注意力机制模块输出的中间特征图输入到第一卷积层，经过卷积输出大小为13＊13的融合特征至多分类器模块中；中间特征图同时经过上采样层后输入连接层，再输入到第二卷积层中，输出大小为26＊26的融合特征至多分类器模块中。 8.如权利要求1所述的方法，所述多分类器模块包括第一分类器、第二分类器，所述第一分类器用于接收所述特征融合模块输出大小为 13＊13的融合特征，所述第二分类器用于接收所述特征融合模块输出大小为26＊26的融合特征。 9.如权利要求1所述的方法， Mosaic数据增强每次会读取四张图片，利用四张图片进行拼接，使拼接后的图片具有丰富的物体检测背景，且在归一化层计算时会一次计算四张图片的数据； K ‑Means聚类方法随机初始化9个聚类中心，再计算各锚框与坐标点与聚类中心锚框交并比距离，接着再分配各锚框到交并比距离最小聚类中心所属类别中，然后根据交并比距离更新聚类中心，判断聚类中心是否改变，如果改变则再重复之前步骤，如果没有改变则输出聚类中心，从而获得获取9种尺寸的锚框，进而得到最合适舌像检测的锚框。 10.如权利要求8所述的方法，对13＊13， 26＊26两个尺度的融合特征分别做检测，将输入图片划分单元格，如果目标的真值框中心位置坐标落在某个单元格区域内，则由这个单元格作为预测目标的单元格，每个单元格产生9个候选框，每个候选框包含置信度和目标所属类别的概率，当目标的类别置信度大于设置好的阈值时，相应单元格产生的9个候选框将会被保留，通过非极大值抑制筛选出最合适的边界框，其中候选框的预测采用逻辑回归的方式： cx、 cv是网格的坐标偏移量； pw、 ph是预设的锚框的边长； bx、 bv、 bw， bh为最终得到边框坐标值； tx、 tv为检测目标的候选框中心位置坐标偏移量，经过σ(x)函数归一化到0和1之间， tw、 th为锚框的尺度缩放，分别与pw、 ph作用后得到候选框的宽和高。权　利　要　求　书 2/2 页 3 CN 114998220 A 3

专利 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

专利一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法