安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211018319.8 (22)申请日 2022.08.24 (71)申请人 中南大学 地址 410000 湖南省长 沙市岳麓区麓山 南 路932号 (72)发明人 赵荣昌 唐晟  (74)专利代理 机构 长沙轩荣专利代理有限公司 43235 专利代理师 董崇东 (51)Int.Cl. G16H 15/00(2018.01) G06N 3/04(2006.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06T 7/00(2017.01)G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于跨模态融合的医学报告生成模型的训 练方法 (57)摘要 本发明实施例中提供了一种基于跨模态融 合的医学报告生成模型的训练方法, 属于数据处 理技术领域, 具体包括: 得到第一图像特征; 关联 细粒度异常区域, 得到第二图像特征, 以及, 提取 粗粒度疾病语义信息, 得到第三图像特征; 将第 二图像特征和第三图像特征输入交叉注意力模 块建模多尺度关联, 得到第四图像特征; 将第四 图像特征和t ‑1轮的第一文本特征输入文本生成 模块, 得到模态不变性特征; 根据模态不变性特 征得到第t轮医学文本预测结果, 直到完成文本 序列每一轮的预测, 并结合源图像对应的文本标 签计算文本生成损失; 根据文本生成损失迭代训 练得到训练好的医学报告生 成模型。 通过本发明 的方案, 实现跨模态识别, 且提高了模型识别精 度和鲁棒 性。 权利要求书2页 说明书12页 附图3页 CN 115171838 A 2022.10.11 CN 115171838 A 1.一种基于跨模态融合的医学报告生成模型的训练方法, 应用于医学报告生成模型, 医学报告生成模型包括卷积神经网络模块、 自注 意力模块、 全局特征提取模块、 交叉注意力 模块和文本生成模块, 其特 征在于, 所述方法包括: 步骤1, 将源图像输入到卷积神经网络模块, 得到第一图像特 征; 步骤2, 将第一图像特征输入自注意力模块关联细粒度异常区域, 得到第二图像特征, 以及, 将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息, 得到第三图像特 征; 步骤3, 将第 二图像特征和第 三图像特征输入交叉注意力模块建模多尺度关联, 得到第 四图像特 征; 步骤4, 将第四图像特征和t ‑1轮的第一文本特征输入文本生成模块, 得到模态不变性 特征; 步骤5, 根据模态不变性特征得到第t轮医学文本预测结果, 直到完成文本序列每一轮 的预测, 并结合源图像对应的文本标签 计算文本生成损失; 步骤6, 根据文本生成损失重复步骤1至步骤6, 迭代训练卷积神经网络模块、 自注意力 模块、 全局特征提取模块、 交叉注意力模块和文本生成模块直到达到预设条件, 得到训练好 的医学报告生成模型。 2.根据权利要求1所述的方法, 其特 征在于,所述 步骤1之前, 所述方法还 包括: 从原始数据集中获取胸腔X光图像, 并将全部胸腔X光图像缩放至预设尺寸和通道数; 对全部胸腔X光图像每个通道分别减去原始数据集中各个通道的均值, 进行归一化, 并 进行随机 裁剪和随机反转, 得到源图像。 3.根据权利要求2所述的方法, 其特 征在于,所述 步骤1具体包括: 步骤1.1, 卷积神经网络模块 提取源图像的局部特 征, 得到源图像的病灶区域表示; 步骤1.2, 将病灶区域表示拉平为序列形式并添加Transformer中的位置编码, 形成第 一图像特 征。 4.根据权利要求3所述的方法, 其特 征在于,所述第一图像特 征的表达式为 I0={v1,v2,...,vN}+Epos, I0∈RN×d,Epos∈RN×d,{v1,v2,...,vN}∈R1×d 其中, vi∈R1×d,i=1,2,....,N分别表示第i个异常区域特征, Epos表示Transformer中 代表位置信息的编码向量, N表示异常区域特 征数量, d表示异常区域特 征的维度。 5.根据权利要求4所述的方法, 其特征在于,所述步骤2中将第一图像特征输入自注意 力模块关联细粒度异常区域, 得到第二图像特 征的步骤, 包括: 自注意力模块建模第 一图像特征中不同异常区域特征之间的长距离依赖, 自注意力层 对病灶区域相互关联 得到第二图像特 征。 6.根据权利要求5所述的方法, 其特征在于,所述步骤2中将第一图像特征输入全局特 征提取模块 提取粗粒度疾病语义信息, 得到第三图像特 征的步骤, 包括: 对第一图像特 征中图像块的特 征维度进行压缩得到全局语义表示; 将全局语义表示还原成与原维度相同的多个疾病嵌入向量, 每一个嵌入向量表示与 该 疾病相关的全局语义信息; 将全部疾病嵌入向量的集 合作为第三图像特 征。 7.根据权利要求6所述的方法, 其特 征在于,所述 步骤3具体包括:权 利 要 求 书 1/2 页 2 CN 115171838 A 2将第三图像特征输入交叉注意力模块变换为键向量和值向量, 将第 二图像特征输入交 叉注意力模块变换为查询向量进 行交叉注意力计算, 得到第四图像特征, 其中, 交叉注意力 模块的网络结构表示 为 代表将第二图像特征转换为交叉注 意力中查询向量的转换矩阵, 代表将第 三图像特征转换为交叉注意力中键向量和值向量的转换矩阵, 表示交叉注意力层的带权 注意力表示, Ie∈RN×d为交叉注意力层中前馈神经网络 输出的第四图像特 征。 8.根据权利要求7 所述的方法, 其特 征在于,所述 步骤3之后, 所述方法还 包括: 根据第四图像特 征和源图像的多分类标签 计算疾病一 致性损失; 根据疾病一致性损失更新卷积神经网络模块、 自注意力模块和交叉注意力模块的参 数。 9.根据权利要求8所述的方法, 其特 征在于,所述 步骤4具体包括: 步骤4.1, 利用跨模态的注意力向量编码方式对第四图像特征和t ‑1轮的第一文本特征 进行编码, 将其编码为融合的查询向量、 键向量和值向量; 步骤4.2, 根据融合的查询向量、 键向量计算 跨模态注意力得分矩阵; 步骤4.3, 根据跨模态 注意力得分矩阵和融合的值向量计算得到模态不变性特 征。 10.根据权利要求9所述的方法, 其特征在于,所述医学报告生成模型还包括自回归迭 代模块, 所述 步骤6之后, 所述方法还 包括: 将待预测图像输入训练好的医学报告生成模型, 得到其对应的第四图像特 征; 将第t‑1轮预测的自回归结果作为当前第t轮预测的第一文本特征, 并结合第四图像特 征预测第t轮的预测单词, 直到识别结束符, 将全部预测的单词按序列输出, 得到预测医学 报告。权 利 要 求 书 2/2 页 3 CN 115171838 A 3

PDF文档 专利 基于跨模态融合的医学报告生成模型的训练方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨模态融合的医学报告生成模型的训练方法 第 1 页 专利 基于跨模态融合的医学报告生成模型的训练方法 第 2 页 专利 基于跨模态融合的医学报告生成模型的训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。