(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210328137.4
(22)申请日 2022.03.31
(65)同一申请的已公布的文献号
申请公布号 CN 114419323 A
(43)申请公布日 2022.04.29
(73)专利权人 华东交通大 学
地址 330013 江西省南昌市经济技 术开发
区双港东大街808号
(72)发明人 刘伟 郭永发 余晓霞 刘家伟
张苗辉
(74)专利代理 机构 南昌市平凡知识产权代理事
务所 36122
专利代理师 姚伯川
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113627433 A,2021.1 1.09
CN 111340814 A,2020.0 6.26
CN 112233124 A,2021.01.15
WO 2019137915 A1,2019.07.18
李晓阳 等.结合显著性检测 和图割的RGBD
图像共分割算法. 《系统仿真学报》 .2018,第38卷
(第7期),
Ziqiang Zheng等.I nstance Map Based
Image Synthesis W ith a Den oising
Generative Adversarial netw ork. 《IEEE
ACCESS》 .2018,
审查员 李雯雯
(54)发明名称
基于跨模态学习与领域自适应RGBD图像语
义分割方法
(57)摘要
基于跨模态学习与领域自适应RGBD图像语
义分割方法, 该方法采用RGB和深度图像两种模
态的数据作为输入, 构造基于跨模态的图像语义
分割网络; 该方法采用Jensen ‑Shannon散度使网
络各个分支的语义分割结果尽量一致。 该方法设
计了一套基于对抗生成式的领域自适应方法, 把
语义分割网络作为生成器得到三个语义分割结
果; 并设计了三个判别器, 分别以三个语义分割
结果作为判别器的输入; 生 成器尽量使源领域和
目标领域的语义分割在分布上一致; 判别器目的
是正确区分语义分割结果是来自哪个领域; 生成
器和判别器的目的相悖, 在不断博弈中相互提
高, 最终实现不同领域在输出层面的对齐, 即
RGBD数据跨领域的高精度标注。
权利要求书4页 说明书9页 附图2页
CN 114419323 B
2022.06.24
CN 114419323 B
1.一种基于跨模态学习与领域自适应RGBD图像语义分割方法, 其特征在于, 所述方法
采用RGB图像和深度图像两种不同模态的数据作为输入, 构造基于跨模态的图像语义分割
网络, 图像语义分割算法在源领域上
有监督地训练语义分割网络; 为充分利用两种模态
的数据, 采用JS 散度衡量不同概率分布之间的差异, 使不同模态的输出尽量一致; 所述方法
设计了基于对抗生成式的领域自适应算法, 把语义分割网络作为生成器得到三个语义分割
概率输出; 并设计了三个基于卷积神经网络的判别器, 分别以语义分割网络的三个语义分
割概率输出生成的信息图作为判别器的输入; 所述生成器和判别器的目的相 悖, 二者在不
断博弈过程中相互提高, 最 终在判别器判别能力可靠的情况下仍然无法区分输入样本来自
源领域还是目标领域, 从而实现源领域和目标领域在输出层面的对齐、 实现RGBD数据跨领
域的高精度标注;
所述方法采用两个深度神经网络分别提取256维的RGB图像特征
和256维的深度图
像特征
; 所述RGB图像特 征和深度图像特 征直接融合形成512维的融合特 征
:
其中,
表示特征连接操作;
、
和
为经过卷积、
和上采
样操作后分别得到概率输出
、
和
; 假设图像输入到语义分割网络的高和宽分
别是H和W, 预先定义的语义类别数量是K, 则
、
和
是维度为
的矩阵,
矩阵中的元 素表示模型关于RGBD图像对应空间位置上的像元 预测类别的概 率;
所述图像 语义分割算法在源领域上
有监督地训练语义分割网络:
假设源领域
上的一对带有标签的RGB和深度图像对用
表示, 其中,
表示RGB图像,
表示深度图像,
表示手工标记的真值标签;
则RGBD图像语 义分割模型的输出
、
和
关于样本
的有监督分
割损失可以分别表示 为:
其中, H和W分别表示RGBD图像的高宽和宽度, K表示语义标签种类的数量;
表示
矩阵
在图像空 间位置
关于语义类别C的概率;
表示矩阵
在图像空权 利 要 求 书 1/4 页
2
CN 114419323 B
2间位置
关于语义类别C的概率;
表示矩阵
在图像空间位置
关于语义
类别C的概 率;
表示标签在图像空间位置
关于语义类别C的值;
所述概率输出
和
之间的JS散度损失
表示为:
其中,
表示KL散度衡量, 用来衡量两个概率输出
和
之间的差异程度;
表示矩阵
在图像空间位置
关于语义类别C的概率值;
表示矩
阵
在图像空间位置
关于语义类别C的概率值; H和W分别是RGBD图像的高和宽; K
为预先定义的语义类别数量;
所述概率输出
和
之间的JS散度损失
表示为:
其中, H和W分别是RGBD图像的高和宽; K为语义类别数量;
表示矩阵
在
图像空间位置
关于语义类别C的概率;
表示矩阵
在图像空间位置
关
于语义类别C的概率;
表示KL散度衡量,
和
用
KL散度衡量两个概 率输出
和
之间的差异程度。
2.根据权利要求1所述的基于跨模态学习与领域自适应RGBD图像语义分割方法, 其特
征在于, 所述基于跨模态的图像语义分割网络, 网络输入是RGB图像和深度图像; 在训练阶
段网络的输出是概率输出
、
和
;
、
和
的维度是
; 三个概
率输出本质上是分割网络关于当前跨模态输入样本预测的各语义类别的分布; 在测试阶
段, 网络关于三个概 率输出对应元 素的加权和得到RGBD图像的最终语义分割结果。
3.根据权利要求1所述的基于跨模态学习与领域自适应RGBD图像语义分割方法, 其特
征在于, 所述三个基于卷积神经网络的判别器
、
和
, 具有相同的网络结构卷积神
经网络, 输入的尺寸是
, 输出的值 为0和1; 0和1分别对应目标 领域和源领域;权 利 要 求 书 2/4 页
3
CN 114419323 B
3
专利 基于跨模态学习与领域自适应RGBD图像语义分割方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:38:31上传分享