专利 基于生成对抗模型的图像多属性联合编辑方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211162789.1 (22)申请日 2022.09.23 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人吴斯　魏希文　徐震　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称基于生成对抗模型的图像多属性联合编辑方法 (57)摘要本发明公开了一种基于生成对抗模型的图像多属性联合编辑方法，该方法包含两个可学习的组件：一个内容感知语义方向预测器，用于学习和推断一组语义方向，这些语义方向与输入图像相对应且与预设的语义属性相关联；一个语义方向融合网络用于非线性地融合与目标属性相关的语义方向，最终产生一个可以用于编辑多属性的语义方向。在此基础之上，通过施加基于属性感知特征的一致性正则化，进一步保证了编辑图像在不相关属性的保存，使得本发明在目标属性操控的准确性和不相关属性的保持能力都优于现有的方法。权利要求书3页说明书6页附图1页 CN 115546537 A 2022.12.30 CN 115546537 A 1.基于生成对抗模型的图像多属性联合编辑方法，其特征在于，包括以下步骤： S1、从输入图像数据集X中随机采样图像x，利用预训练的编码器E将x反演回生成对抗模型的生成器G的潜在空间，得到图像x 对应的潜在编码w； S2、将步骤S1得到的潜在编码w输入到内容感知语义方向预测器P中，利用P得到一组语义方向其中为第K个语义方向，这些语义方向与预设属性和输入图像相关联； S3、通过人为设置或者利用参考图片得到目标属性y，将图像潜在编码w、目标属性y以及从步骤S2中得到的语义方向一起输入到语义方向融合网络M中，由M产生一个最终的语义方向用来同时操控多属性； S4、用潜在编码w加上从步骤S3得到的语义方向得到最终的潜在编码w'，将最终的潜在编码w'输入到预训练的生成对抗模型的生成器G中，得到最终编辑完成的图片xy； S5、重复步骤S2 ‑S4，达到预先设定的迭代次数后完成训练，输出训练好的内容感知语义方向预测器P和语义方向融合网络M，利用训练好的内容感知语义方向预测器P和语义方向融合网络 M与预训练的生成对抗模型的生成器G配合，输出编辑完成的图片即可。 2.根据权利要求1所述的基于生成对抗模型的图像多属性联合编辑方法，其特征在于：在步骤S1中，需要将图像数据集X中的所有图像进行预处理，即利用预训练的编码器E把输入图像x∈{X}反演回生成对抗模型的生成器G的潜在空间，得到一组与输入图像x对应的潜在编码w＝E(x),w∈W+，其中W+表示生成对抗模型的生成器G的潜在空间。 3.根据权利要求2所述的基于生成对抗模型的图像多属性联合编辑方法，其特征在于：在步骤S2中，先预设N个属性，将从步骤S1获得的图像潜在编码w输入到内容感知语义方向预测器P中，内容感知语义方向预测器P根据预设的属性和潜在编码产生一组语义方向其中，为第K个语义方向且与预设的第K个属性相关联，并且这一组语义方向以潜在编码w为条件，即内容感知语义方向预测器P预测得到的语义方向会随输入图像的变化而变化。 4.根据权利要求3所述的基于生成对抗模型的图像多属性联合编辑方法，其特征在于：在步骤S3中，对于图像目标属性的编辑，目标属性能够由用户或参考图像指定，给定参考图像xref，使用预训练的属性分类器R推断参考图像以及输入图像预设属性的概率分布，并通过计算参考图像和输入图像在预设属性的概率分布的差值来得到目标属性，目标属性的定义如下： y＝Δ(Bi nary(R(x) )， Binary(R(xref))) 式中，二进制函数Binary( ·)用于确定基于属性分类器预测条件的图像所拥有的预设属性的概率，而函数Δ( ·,·)用于得到输入图像与参考图像在预设属性上的差异，对于输入图像x， y∈{0,1}N表示期望属性变化的标签；然后训练语义方向融合网络M产生一个能够用于操控多属性的语义方向并且也以潜在编码w为条件，语义方向的公式定义如下：权　利　要　求　书 1/3 页 2 CN 115546537 A 2其中，所述语义方向融合网络M为一个可学习的语义方向融合网络，能够条件非线性地融合多个语义方向。 5.根据权利要求4所述的基于生成对抗模型的图像多属性联合编辑方法，其特征在于：在步骤S4中，用潜在编码w加上从步骤S3得到的语义方向得到最终的潜在编码w'，将最终的潜在编码w'输入到预训练的生成对抗模型的生成器G中，合成最终的编辑图像xy，定义如下：式中， σ 是控制操控强度的一个加权因子；语义方向融合网络M与内容感知语义方向预测器P合作，确保操控语义的正确性，也就是指合成图像xy应包含y指定的语义属性；为了保证操控语义的正确性，在内容感知语义方向预测器P和语义方向融合网络M的训练过程中加入了预训练的属性分类器R来提供指导；并引入了新的评估损失Ltrgt来保证操控语义的正确性，评估损失Ltrgt定义如下：式中，表示数学期望， R( ·)表示图像预设属性的预测概率；除了编辑目标属性外，语义转换的过程不应该影响输入图像除目标属性外的其它属性；用fR表示属性分类器R的隐藏层特征，计算图像属性感知表示如下：式中，表示原始图像x的属性感知特征， ⊙表示Hadamard积， γ(i)表示与第i个属性对应的softmax权重， fR(x)表示利用属性分类器R得到的图像x的隐藏层特征； γ(i)能够提取与属性i相关的信息，因为它预测了属性i在图像中的出现概率，通过以这种方式调制 fR，所得到的捕获了与属性i相关联的信息；为了保证无关属性保持不变，进行了语义一致性正则化，相应的损失Lpres表示如下：式中，表示编辑完成的图像xy的属性感知特征， y(i)表示期望的属性变化标签y 的第i个元素， 1{·}是一个指示函数，如果输入为真则返回1，否则返回0；为了在优化过程中保持搜索效率，进一步加入了一个正则化项Lregl，定义如下：式中， θ表示一个阈值，用来防止修改后的潜在编码偏离原始潜在编码。 6.根据权利要求5所述的基于生成对抗模型的图像多属性联合编辑方法，其特征在于：在步骤S5中，对于需要训练的内容感知语义方向预测器P和语义方向融合网络M，它们的总体优化目标函数表述为：式中，权重因子α和β 来实现相应正则项之间的平衡；依照上述目标函数对内容感知语权　利　要　求　书 2/3 页 3 CN 115546537 A 3

专利 基于生成对抗模型的图像多属性联合编辑方法

专利基于生成对抗模型的图像多属性联合编辑方法