(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211018319.8
(22)申请日 2022.08.24
(71)申请人 中南大学
地址 410000 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 赵荣昌 唐晟
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 董崇东
(51)Int.Cl.
G16H 15/00(2018.01)
G06N 3/04(2006.01)
G06F 40/126(2020.01)
G06F 40/30(2020.01)
G06T 7/00(2017.01)G06V 10/44(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于跨模态融合的医学报告生成模型的训
练方法
(57)摘要
本发明实施例中提供了一种基于跨模态融
合的医学报告生成模型的训练方法, 属于数据处
理技术领域, 具体包括: 得到第一图像特征; 关联
细粒度异常区域, 得到第二图像特征, 以及, 提取
粗粒度疾病语义信息, 得到第三图像特征; 将第
二图像特征和第三图像特征输入交叉注意力模
块建模多尺度关联, 得到第四图像特征; 将第四
图像特征和t ‑1轮的第一文本特征输入文本生成
模块, 得到模态不变性特征; 根据模态不变性特
征得到第t轮医学文本预测结果, 直到完成文本
序列每一轮的预测, 并结合源图像对应的文本标
签计算文本生成损失; 根据文本生成损失迭代训
练得到训练好的医学报告生 成模型。 通过本发明
的方案, 实现跨模态识别, 且提高了模型识别精
度和鲁棒 性。
权利要求书2页 说明书12页 附图3页
CN 115171838 A
2022.10.11
CN 115171838 A
1.一种基于跨模态融合的医学报告生成模型的训练方法, 应用于医学报告生成模型,
医学报告生成模型包括卷积神经网络模块、 自注 意力模块、 全局特征提取模块、 交叉注意力
模块和文本生成模块, 其特 征在于, 所述方法包括:
步骤1, 将源图像输入到卷积神经网络模块, 得到第一图像特 征;
步骤2, 将第一图像特征输入自注意力模块关联细粒度异常区域, 得到第二图像特征,
以及, 将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息, 得到第三图像特
征;
步骤3, 将第 二图像特征和第 三图像特征输入交叉注意力模块建模多尺度关联, 得到第
四图像特 征;
步骤4, 将第四图像特征和t ‑1轮的第一文本特征输入文本生成模块, 得到模态不变性
特征;
步骤5, 根据模态不变性特征得到第t轮医学文本预测结果, 直到完成文本序列每一轮
的预测, 并结合源图像对应的文本标签 计算文本生成损失;
步骤6, 根据文本生成损失重复步骤1至步骤6, 迭代训练卷积神经网络模块、 自注意力
模块、 全局特征提取模块、 交叉注意力模块和文本生成模块直到达到预设条件, 得到训练好
的医学报告生成模型。
2.根据权利要求1所述的方法, 其特 征在于,所述 步骤1之前, 所述方法还 包括:
从原始数据集中获取胸腔X光图像, 并将全部胸腔X光图像缩放至预设尺寸和通道数;
对全部胸腔X光图像每个通道分别减去原始数据集中各个通道的均值, 进行归一化, 并
进行随机 裁剪和随机反转, 得到源图像。
3.根据权利要求2所述的方法, 其特 征在于,所述 步骤1具体包括:
步骤1.1, 卷积神经网络模块 提取源图像的局部特 征, 得到源图像的病灶区域表示;
步骤1.2, 将病灶区域表示拉平为序列形式并添加Transformer中的位置编码, 形成第
一图像特 征。
4.根据权利要求3所述的方法, 其特 征在于,所述第一图像特 征的表达式为
I0={v1,v2,...,vN}+Epos, I0∈RN×d,Epos∈RN×d,{v1,v2,...,vN}∈R1×d
其中, vi∈R1×d,i=1,2,....,N分别表示第i个异常区域特征, Epos表示Transformer中
代表位置信息的编码向量, N表示异常区域特 征数量, d表示异常区域特 征的维度。
5.根据权利要求4所述的方法, 其特征在于,所述步骤2中将第一图像特征输入自注意
力模块关联细粒度异常区域, 得到第二图像特 征的步骤, 包括:
自注意力模块建模第 一图像特征中不同异常区域特征之间的长距离依赖, 自注意力层
对病灶区域相互关联 得到第二图像特 征。
6.根据权利要求5所述的方法, 其特征在于,所述步骤2中将第一图像特征输入全局特
征提取模块 提取粗粒度疾病语义信息, 得到第三图像特 征的步骤, 包括:
对第一图像特 征中图像块的特 征维度进行压缩得到全局语义表示;
将全局语义表示还原成与原维度相同的多个疾病嵌入向量, 每一个嵌入向量表示与 该
疾病相关的全局语义信息;
将全部疾病嵌入向量的集 合作为第三图像特 征。
7.根据权利要求6所述的方法, 其特 征在于,所述 步骤3具体包括:权 利 要 求 书 1/2 页
2
CN 115171838 A
2将第三图像特征输入交叉注意力模块变换为键向量和值向量, 将第 二图像特征输入交
叉注意力模块变换为查询向量进 行交叉注意力计算, 得到第四图像特征, 其中, 交叉注意力
模块的网络结构表示 为
代表将第二图像特征转换为交叉注 意力中查询向量的转换矩阵,
代表将第
三图像特征转换为交叉注意力中键向量和值向量的转换矩阵,
表示交叉注意力层的带权
注意力表示, Ie∈RN×d为交叉注意力层中前馈神经网络 输出的第四图像特 征。
8.根据权利要求7 所述的方法, 其特 征在于,所述 步骤3之后, 所述方法还 包括:
根据第四图像特 征和源图像的多分类标签 计算疾病一 致性损失;
根据疾病一致性损失更新卷积神经网络模块、 自注意力模块和交叉注意力模块的参
数。
9.根据权利要求8所述的方法, 其特 征在于,所述 步骤4具体包括:
步骤4.1, 利用跨模态的注意力向量编码方式对第四图像特征和t ‑1轮的第一文本特征
进行编码, 将其编码为融合的查询向量、 键向量和值向量;
步骤4.2, 根据融合的查询向量、 键向量计算 跨模态注意力得分矩阵;
步骤4.3, 根据跨模态 注意力得分矩阵和融合的值向量计算得到模态不变性特 征。
10.根据权利要求9所述的方法, 其特征在于,所述医学报告生成模型还包括自回归迭
代模块, 所述 步骤6之后, 所述方法还 包括:
将待预测图像输入训练好的医学报告生成模型, 得到其对应的第四图像特 征;
将第t‑1轮预测的自回归结果作为当前第t轮预测的第一文本特征, 并结合第四图像特
征预测第t轮的预测单词, 直到识别结束符, 将全部预测的单词按序列输出, 得到预测医学
报告。权 利 要 求 书 2/2 页
3
CN 115171838 A
3
专利 基于跨模态融合的医学报告生成模型的训练方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:30上传分享