专利 基于跨模态学习与领域自适应RGBD图像语义分割方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210328137.4 (22)申请日 2022.03.31 (65)同一申请的已公布的文献号申请公布号 CN 114419323 A (43)申请公布日 2022.04.29 (73)专利权人华东交通大学地址 330013 江西省南昌市经济技术开发区双港东大街808号 (72)发明人刘伟　郭永发　余晓霞　刘家伟　张苗辉　 (74)专利代理机构南昌市平凡知识产权代理事务所 36122 专利代理师姚伯川 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113627433 A,2021.1 1.09 CN 111340814 A,2020.0 6.26 CN 112233124 A,2021.01.15 WO 2019137915 A1,2019.07.18 李晓阳等.结合显著性检测和图割的RGBD 图像共分割算法. 《系统仿真学报》 .2018,第38卷 (第7期), Ziqiang Zheng等.I nstance Map Based Image Synthesis W ith a Den oising Generative Adversarial netw ork. 《IEEE ACCESS》 .2018, 审查员李雯雯 (54)发明名称基于跨模态学习与领域自适应RGBD图像语义分割方法 (57)摘要基于跨模态学习与领域自适应RGBD图像语义分割方法，该方法采用RGB和深度图像两种模态的数据作为输入，构造基于跨模态的图像语义分割网络；该方法采用Jensen ‑Shannon散度使网络各个分支的语义分割结果尽量一致。该方法设计了一套基于对抗生成式的领域自适应方法，把语义分割网络作为生成器得到三个语义分割结果；并设计了三个判别器，分别以三个语义分割结果作为判别器的输入；生成器尽量使源领域和目标领域的语义分割在分布上一致；判别器目的是正确区分语义分割结果是来自哪个领域；生成器和判别器的目的相悖，在不断博弈中相互提高，最终实现不同领域在输出层面的对齐，即 RGBD数据跨领域的高精度标注。权利要求书4页说明书9页附图2页 CN 114419323 B 2022.06.24 CN 114419323 B 1.一种基于跨模态学习与领域自适应RGBD图像语义分割方法，其特征在于，所述方法采用RGB图像和深度图像两种不同模态的数据作为输入，构造基于跨模态的图像语义分割网络，图像语义分割算法在源领域上有监督地训练语义分割网络；为充分利用两种模态的数据，采用JS 散度衡量不同概率分布之间的差异，使不同模态的输出尽量一致；所述方法设计了基于对抗生成式的领域自适应算法，把语义分割网络作为生成器得到三个语义分割概率输出；并设计了三个基于卷积神经网络的判别器，分别以语义分割网络的三个语义分割概率输出生成的信息图作为判别器的输入；所述生成器和判别器的目的相悖，二者在不断博弈过程中相互提高，最终在判别器判别能力可靠的情况下仍然无法区分输入样本来自源领域还是目标领域，从而实现源领域和目标领域在输出层面的对齐、实现RGBD数据跨领域的高精度标注；所述方法采用两个深度神经网络分别提取256维的RGB图像特征和256维的深度图像特征；所述RGB图像特征和深度图像特征直接融合形成512维的融合特征：其中，表示特征连接操作；、和为经过卷积、和上采样操作后分别得到概率输出、和；假设图像输入到语义分割网络的高和宽分别是H和W，预先定义的语义类别数量是K，则、和是维度为的矩阵，矩阵中的元素表示模型关于RGBD图像对应空间位置上的像元预测类别的概率；所述图像语义分割算法在源领域上有监督地训练语义分割网络：假设源领域上的一对带有标签的RGB和深度图像对用表示，其中，表示RGB图像，表示深度图像，表示手工标记的真值标签；则RGBD图像语义分割模型的输出、和关于样本的有监督分割损失可以分别表示为：其中， H和W分别表示RGBD图像的高宽和宽度， K表示语义标签种类的数量；表示矩阵在图像空间位置关于语义类别C的概率；表示矩阵在图像空权　利　要　求　书 1/4 页 2 CN 114419323 B 2间位置关于语义类别C的概率；表示矩阵在图像空间位置关于语义类别C的概率；表示标签在图像空间位置关于语义类别C的值；所述概率输出和之间的JS散度损失表示为：其中，表示KL散度衡量，用来衡量两个概率输出和之间的差异程度；表示矩阵在图像空间位置关于语义类别C的概率值；表示矩阵在图像空间位置关于语义类别C的概率值； H和W分别是RGBD图像的高和宽； K 为预先定义的语义类别数量；所述概率输出和之间的JS散度损失表示为：其中， H和W分别是RGBD图像的高和宽； K为语义类别数量；表示矩阵在图像空间位置关于语义类别C的概率；表示矩阵在图像空间位置关于语义类别C的概率；表示KL散度衡量，和用 KL散度衡量两个概率输出和之间的差异程度。 2.根据权利要求1所述的基于跨模态学习与领域自适应RGBD图像语义分割方法，其特征在于，所述基于跨模态的图像语义分割网络，网络输入是RGB图像和深度图像；在训练阶段网络的输出是概率输出、和；、和的维度是；三个概率输出本质上是分割网络关于当前跨模态输入样本预测的各语义类别的分布；在测试阶段，网络关于三个概率输出对应元素的加权和得到RGBD图像的最终语义分割结果。 3.根据权利要求1所述的基于跨模态学习与领域自适应RGBD图像语义分割方法，其特征在于，所述三个基于卷积神经网络的判别器、和，具有相同的网络结构卷积神经网络，输入的尺寸是，输出的值为0和1； 0和1分别对应目标领域和源领域；权　利　要　求　书 2/4 页 3 CN 114419323 B 3

专利 基于跨模态学习与领域自适应RGBD图像语义分割方法

专利基于跨模态学习与领域自适应RGBD图像语义分割方法