(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211173171.5
(22)申请日 2022.09.26
(71)申请人 安徽农业大 学
地址 230036 安徽省合肥市长江西路13 0号
(72)发明人 饶元 束雅丽 罗庆 金秀
江朝晖 张武 张筱丹
(74)专利代理 机构 安徽知问律师事务所 34134
专利代理师 代群群
(51)Int.Cl.
G06V 20/68(2022.01)
G06V 10/24(2022.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
A01D 46/30(2006.01)
(54)发明名称
一种基于多模态数据融合的目标检测方法
以及基于目标检测模型的在体果实采摘方法
(57)摘要
本发明公开了一种基于多模态数据融合的
目标检测方法以及基于目标检测模型的在体果
实采摘方法, 属于智能检测技术领域。 一方面目
标检测模型的训练方法中, 利用深度相机获取自
然环境下在体果实的多模态视觉数据, 引入坐标
注意力机制增强特征提取网络对目标物的感知
能力, 结合深度可分离卷积模块减少模型参数量
和推理时间; 另一方面将目标检测模 型应用到机
械臂对果实的识别中, 提出基于果实位置信息和
遮挡状态分类的视觉伺服检测机制, 该机制利用
机械臂在果实采摘过程中具有运动特性的优势,
通过机械臂运动带动相机视角变化, 不断更新相
机视野内所检测到的果实目标, 实现对果实的动
态检测, 克服因光照和果实遮挡造成的漏检, 提
高果实的检出率。
权利要求书3页 说明书13页 附图5页
CN 115376125 A
2022.11.22
CN 115376125 A
1.一种基于多模态数据融合的目标检测方法, 其特 征在于, 包括以下步骤:
S110: 构建基于多模态数据融合的目标检测模型, 所述目标检测模型包括特征提取网
络、 颈部结构和预测层, 在所述特征提取网络中和颈部结构均引入坐标注意力机制增强对
目标物感知能力, 其中所述多模态视觉数据包含RGB图像、 红外图像和深度图像的多模态视
觉数据;
S120: 获取在体目标物的多模态视觉数据作为训练集, 并输入所述目标检测模型进行
训练, 得到训练好的目标检测模型;
S130: 获取待测多模态视觉数据, 所述待测多模态视觉数据包含待采摘的目标物; 将所
述待测多模态视觉数据输入目标检测模型对多模态视觉数据中目标物进 行识别, 输出识别
结果。
2.根据权利要求1中所述的一种基于多模态数据融合的目标检测方法, 其特征在于, 在
所述特征提取网络中和颈部结构均引入坐标注意力机制增强对目标物感知能力包括: 在所
述特征提取网络中嵌入坐标注意力模块, 在所述颈 部结构的末端嵌入坐标注意力模块。
3.根据权利要求2中所述的一种基于多模态数据融合的目标检测方法, 其特征在于, 所
述目标检测模 型采用YOLOv5s模型, 所述YOLOv5s模 型中特征提取网络采用深度可分离卷积
替换CBL模块中的普通卷积形成DPBL模块, 在CSP_1_X模块级联操作后嵌入坐标注意力模
块;
所述颈部结构包括DBPL模块和CSP_2_X模块, CSP_2_X模块由普通卷积和X个Res unit
级联而成, 在所述颈 部结构的末端嵌入坐标注意力模块;
将特征提取网络的Focus模块结构的通道数调整为五通道以实现多模态视觉数据的读
取。
4.根据权利要求1中所述的一种基于多模态数据融合的目标检测方法, 其特征在于, 所
述步骤S120包括:
配置目标检测模型训练关键参数, 所述关键参数包括输入图像的尺寸、 类别数、 训练迭
代次数、 初始学习率、 学习率调整策略和每批处 理的输入图像数量;
采用CIOULoss作为边界框损失函数, 训练至所述目标检测 模型收敛, 保存每个训练迭代
次数训练结束后得到的权重文件, 保存验证效果最好的权重文件, 从而得到训练好的目标
检测模型。
5.一种基于目标检测模型的在体果实采摘方法, 其特 征在于, 包括以下步骤:
S210: 根据权利要求1 ‑4任意一项所述的一种基于多模态数据融合的目标检测方法得
到识别结果, 所述识别结果包括 目标物的多个分类标记和 边界框坐标, 所述分类标记包括
未被遮挡 、 被无影响物遮挡和被有影响物遮挡三类;
S220: 随机选择一个遮挡形式为未被遮挡或被无影响物遮挡的目标物作为采摘对象,
获取所述采摘对象的边界框坐标相对于所述深度相机的第一空间位置坐标; 将所述采摘对
象相对于所述深度相机的空间位置坐标转换为机 械臂基底位置坐标信息;
S230: 获取所述原始机械臂位置信息, 控制机械臂运动到指定的第一空间位置, 用于对
所述采摘对 象进行采摘作业; 根据多组采摘环境图像中目标物的识别结果和定位结果, 结
合对应的机 械臂位置信息计算出机 械臂下一 运动起点;
S240: 重复上述S2 10至S230, 直到机械臂所带深度相机的视野中不存在 可采摘对象, 采权 利 要 求 书 1/3 页
2
CN 115376125 A
2摘作业完成。
6.根据权利要求5 中所述的一种基于目标检测模型的在体果实采摘方法, 其特征在于,
所述步骤S210还 包括:
接收深度相机实时拍摄的采摘环境图像的多模态视觉数据, 所述多模态视觉数据包括
RGB图像、 深度图像和红外图像;
对所述的RGB图像、 深度图像和红外图像进行通道融合, 将图像调整大小设置为预定大
小, 得到多模态图像;
将所述多模态图像输入到所述目标检测模型中, 输出目标物对应的边界框坐标和分类
标记以及对应的置信度;
根据置信度阈值判断, 去 除置信度较小的预测结果, 获取可能包含目标果实的边界框
坐标和类别概 率;
利用非极大值抑制算法去除 同一目标物上的多余 边界框, 得到预测结果。
7.根据权利要求6 中所述的一种基于目标检测模型的在体果实采摘方法, 其特征在于,
所述步骤S230还包括:
采摘作业时, 控制深度相机获取运动路径上多组目标的多模态图像, 并记录获取每组
所述目标的多模态图像的机 械臂位置信息;
所述机械臂运动路径上多组所述目标的多模态图像集 合V表示为下式:
V={v1,v2,v3,…,vn}
将多组所述目标的多模态图像依次输入到所述目标检测模型, 输出与目标物对应的多
个分类标记和边界框坐标; 将未被遮挡、 被无影响物遮挡设定为可采摘对象(PO); 将 被有影
响物遮挡设定为 不可采摘对象(NPO);
计算每组多模态图像中可采摘对象(PO)和不可采摘对象(NPO)的数值, 并通过下式计
算每组多模态图像中目标果实的可采摘率
计算出目标果实可采摘率 最高的一组多模态图像, 计算公式为下式:
将该组多模态图像所对应的机械臂位置信 息作为机械臂下一运动 起点, 在执行下一 次
采摘任务时, 控制机 械臂运动至该运动起 点。
8.一种基于目标检测模型的在体果实采摘系统, 其特 征在于, 包括:
图像处理模块, 其用于根据权利要求1 ‑4任意一项所述的一种基于多模态数据融合的
目标检测方法得到识别结果, 所述识别结果包括 目标物的多个分类标记和边界框坐标, 所
述分类标记包括未被遮挡 、 被无影响物遮挡和被有影响物遮挡三类;
空间坐标转换模块, 其用于获取所述目标物的边界框坐标相对于所述深度相机的第 一
空间位置坐标; 将目标物相对于所述深度相机的空间位置坐标转换为机械臂基底位置坐标
信息;
运动控制模块, 其用于获取所述原始机械臂位置信息, 控制机械臂运动到指定的第一
空间位置, 用于对目标物进行采摘作业; 随机选择一个分类标记为未被遮挡或被无影响物权 利 要 求 书 2/3 页
3
CN 115376125 A
3
专利 一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:33上传分享