(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210517301.6
(22)申请日 2022.05.12
(71)申请人 湖南中医药大学
地址 410208 湖南省长 沙市含浦科教园区
湖南中医药大学信息科 学与工程学院
(72)发明人 辛国江 朱磊 梁昊 王鑫 张杨
刘嵘澂
(74)专利代理 机构 北京律谱知识产权代理有限
公司 11457
专利代理师 黄云铎 孙红颖
(51)Int.Cl.
G06T 7/00(2017.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)
G06V 10/776(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/40(2022.01)
G06V 10/25(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G16H 10/60(2018.01)
G16H 30/20(2018.01)
G16H 50/20(2018.01)
(54)发明名称
一种基于改进 的Tiny-YOLO v4自然环境下
舌像检测定位方法
(57)摘要
一种基于改进 的Tiny‑YOLO v4自然环境下
舌像检测定位方法, 包括: 收集舌像数据, 并制作
舌像数据集; 构建改进Tiny ‑YOLO v4网络结构,
实施与结构相匹配的Tiny ‑YOLO v4目标检测方
法; 对与结构相匹配的Tiny ‑YOLO v4目标检测方
法进行训练, 将训练后最佳的权重文件加载至
Tiny‑YOLO v4目标检测方法中得到目标检测网
络模型; 目标检测网络模型训练完成后进行多组
独立数据集测试, 在自然环境下快速定位检测舌
体的位置并评价模型检测效果。 本发 明避免传统
舌像识别算法的复杂 度, 利用检测准确率极高的
Tiny‑YOLO v4算法和神经网络在轻量化的
CSPDarknet 53框架上 实现, 加上协同注意力机制
的空间信息特征和通道信息特征相融合, 能够快
速有效在自然环境下定位检测舌像 。
权利要求书2页 说明书8页 附图8页
CN 114998220 A
2022.09.02
CN 114998220 A
1.一种基于改进的Ti ny‑YOLO v4自然环境下舌像 检测定位方法, 包括
a步骤、 收集 舌像数据, 并制作舌像数据集;
b步骤、 构建改进Tiny ‑YOLO v4网络结构, 在所述改进网络结构基础 上实施与结构相匹
配的Tiny ‑YOLO v4目标检测方法, 所述改进网络结构包括特征提取骨干网络、 协同注意力
机制模块、 特 征融合模块和多分类 器模块;
c步骤、 利用a步骤的数据集对所述与结构相匹配的Tiny ‑YOLO v4目标检测方法进行训
练, 将训练后最佳的权重文件加载至Tiny ‑YOLO v4目标检测方法中得到目标检测网络模
型, 训练中采用Mosaic数据增强方法对舌像数据集进行扩充, 采用K ‑Means聚类方法对舌像
尺寸进行分类;
d步骤、 目标检测网络模型训练完成后进行多组独立数据集测试, 在自然环境下快速定
位检测舌体的位置并评价模型检测效果。
2.如权利要求1所述的方法, 其中所述舌像数据集按下述方法制作: 根据需要识别的目
标收集自然环境下和标准环境下舌像图片数据, 利用标签制作工具将图片数据中的检测目
标进行标注, 完成之后将数据集按 比例随机分为训练集和测试集, 所述标签制作工具为
Labelimg标签制作工具。
3.如权利要求2所述的方法, 其中所述舌像数据集的格式为VOC格式, 其中包括图片数
据文件夹、 存放xml标签文件的文件夹和保存图片路径的文件, 所述标签制作工具Labelimg
将图片数据中的检测目标标记后, 会自动生成存放标签的文件, 文件中记录标签的具体位
置坐标信息和标签名称。
4.如权利要求1所述的方法, 其中所述特征提取骨干网络为轻量化的CSPDarknet53网
络结构, 所述轻量化CSPDarkent53网络结构输出两个大小分别为52*52, 13*13的浅层特
征图, 两个浅层特征图分别输入到所述协同注意力机制模块中, 提取空间位置信息和通道
权重信息, 并通过连接操作将空间位置信息和 通道权重信息融合得到中间特征图, 然后将
中间特征图传输到所述特征融合模块中, 经过上采样、 卷积和连接操作获取更高维度语义
信息特征图, 所述多分类器模块基于特征融合模块输出的两个13*13和26*26尺度的融合
特征进行分类 检测, 输出最终的目标检测结果。
5.如权利 要求4所述的方法, 所述轻量化的CSPDarknet53网络结构具体包括: 依次连接
的第一Darknet卷积层模块、 第二Darknet卷积模块、 第一Resblock_body模块、 第二
Resblock_body模块、 第三Resblock_body模块、 第三Darknet卷积层模块, 所述第一Darknet
卷积层模块包含二维卷积操作、 归一化和非线性激活函数, 输入的的舌像图片经过第一
Daeknet卷积层之后输出大小为208*208的特征图, 传输到第二Darknet卷积层模块; 然后
再传入到第一Resblock_bo dy模块输出大小为52*52的浅层特征图传输到第二Resblock_
body模块; 第二Resblock_body模块输出大小为26*26的浅层特征图有两个走向, 一方面传
入协同注意力机制模块中, 另一方面传入第三Resblock_body模块中; 第三Resblock_body
模块输出大小为13*13的浅层特征图传入第三Darknet卷积层; Resblock_body模块包含一
次下采样和多次残差结构的堆叠, 避免训练过程中出现梯度消失或梯度爆炸 问题, 使神经
网络层数 更多。
6.如权利要求5所述的方法, 所述协同注意力机制模块包括协同信息编码模块和协同
注意力生成模块, 其中协同信息编码模块提取来自第二Resblock_body模块的和第三权 利 要 求 书 1/2 页
2
CN 114998220 A
2Draknet卷积层模块的特征图中标注目标的空间坐标信息和通道权重信息, 协同注意力生
成模块通过连接操作将提取得到的空间坐标信息和 通道权重信息融合在一起形成中间特
征图, 输出两个大小为13*13和26*26的中间特 征图传输 到特征融合模块中。
7.如权利要求1所述的方法, 所述特征融合模块包括, 依据 数据流向依次连接的第 一卷
积层、 上采样层、 连接层和第二卷积层, 获得更高维度语义信息的特征图, 同时输出两个大
小为13*13, 26*26的特征图至多分类器模块器中; 其中协同注意力机制 模块输出的中间
特征图输入到第一卷积层, 经过卷积输出大小为13*13的融合特征至多分类器模块中; 中
间特征图同时经过上采样层后输入连接层, 再输入到第二卷积层中, 输出大小为26*26的
融合特征至多分类 器模块中。
8.如权利要求1所述的方法, 所述多分类器模块包括第一分类器、 第二分类器, 所述第
一分类器用于接收所述特征融合模块输出大小为 13*13的融合特征, 所述第二分类器用于
接收所述特 征融合模块输出 大小为26*26的融合特 征。
9.如权利 要求1所述的方法, Mosaic数据增强每次会读取四张图片, 利用四张图片进行
拼接, 使拼接后的图片具有丰富的物体检测背景, 且在归一化层计算时会一次计算四张图
片的数据; K ‑Means聚类方法随机初始化9个聚类中心, 再计算各锚框与坐标点与聚类中心
锚框交并比距离, 接着再分配各锚框到交并比距离最小聚类中心所属类别中, 然后根据 交
并比距离更新聚类中心, 判断聚类中心是否改变, 如果改变则再重复之前步骤, 如果没有改
变则输出聚类中心, 从而获得获取9种尺寸的锚框, 进 而得到最 合适舌像检测的锚框 。
10.如权利 要求8所述的方法, 对13*13, 26*26两个尺度的融合特征分别做检测, 将输
入图片划分单元格, 如果 目标的真值框中心位置坐标落在某个单元格区域内, 则由这个单
元格作为预测目标的单元格, 每个单元格产生9个候选框, 每个候选框包含置信度和目标所
属类别的概率, 当目标的类别置信度大于 设置好的阈值时, 相应单元格产生的9个候选框将
会被保留, 通过非极大值抑制 筛选出最合适的边界框, 其中候选框的预测采用逻辑回归的
方式:
cx、 cv是网格的坐标偏移量; pw、 ph是预设的锚框的边长; bx、 bv、 bw, bh为最终得到边框坐
标值; tx、 tv为检测目标的候选框中心位置坐标偏移量, 经过σ(x)函数归一化到0和1之间,
tw、 th为锚框的尺度缩放, 分别与pw、 ph作用后得到候选 框的宽和高。权 利 要 求 书 2/2 页
3
CN 114998220 A
3
专利 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:45:12上传分享