安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210880013.7 (22)申请日 2022.07.25 (71)申请人 大连海洋大学 地址 116023 辽宁省大连市沙河口区黑石 礁街2-52 (72)发明人 于红 胥婧雯 张鹏 谷立帅  李海清 郑国伟 殷雷明  (74)专利代理 机构 大连星河彩舟专利代理事务 所(普通合伙) 2126 3 专利代理师 刘斌 杨阳 (51)Int.Cl. G06V 20/05(2022.01) G06V 40/10(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/03(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01) (54)发明名称 一种声音与视觉多级融合的鱼类行为识别 方法 (57)摘要 一种声音与视觉多级融合的鱼类行为识别 方法, 属于机器学习领域, 解决依靠单一模态特 征识别鱼类行为往往难以得到较好的效果的问 题, 要点是所述跳跃连接融合网络包括若干融合 阶段网络, 对应阶段的融合阶段网络将对应阶段 的视觉特征提取阶段网络和声音特征提取阶段 网络的输 出特征图融合得到融合特征图, 效果是 充分挖掘模态关联信息, 使各模态潜在表示交互 信息最大化。 权利要求书3页 说明书10页 附图3页 CN 115170942 A 2022.10.11 CN 115170942 A 1.一种声音与视觉多级融合的鱼类行为识别方法, 其特征在于, 应用于声音与视觉多 级融合的鱼类行为识别网络模型, 所述网络模型包括视觉特征提取网络、 声音特征提取网 络、 跳跃连接融合网络、 注意力机制网络、 全连接层和softmax层; 所述方法包括: 所述视觉特征提取网络响应于鱼类行为的图像对鱼类行为的视觉特征提取, 所述视觉 特征提取网络包括若干 视觉特征提取阶段网络; 所述声音特征提取网络响应于鱼类行为的声音对鱼类行为的声音特征提取, 所述声音 特征提取网络包括若干声 音特征提取阶段网络; 所述跳跃连接 融合网络包括若干 融合阶段网络, 对应阶段的融合阶段网络将对应阶段 的视觉特征提取阶段网络和声 音特征提取阶段网络的输出 特征图融合得到融合特 征图; 所述注意力机制网络通过学习特征权重, 获取每个融合特征图的重要程度, 根据所述 重要程度对每一个特征通道赋予一个权重, 通过归一化函数输出融合特征图的权重 向量, 并将所述权重 向量与对应融合特征图进行乘法操作, 得到具有权重信息的融合特征图, 并 对其进行平均池化, 再送入 全连接层; 所述全连接层的全连接之间使用激活函数对送入全连接层的融合特征图进行非线性 处理, 再对融合特 征图进行降维处 理, 整合融合特 征图的信息; 所述softmax层用于根据全连接层整合的融合特征图的信息进行鱼类行为的识别分类 操作。 2.根据权利要求1所述的声 音与视觉多级融合的鱼类行为识别方法, 其特 征在于, 视觉特征提取网络包括Resnet50网络, 视觉特征提取网络的Resnet50网络包括: 视觉 特征提取阶段网络RGBstage1, 视觉特征提取阶段网络RGBstage2, 视觉特征提取阶段网络 RGBstage3, 视觉特征提取阶段网络RGBsta ge4, 视觉特征提取阶段网络RGBsta ge5; 声音特征提取网络包括Resnet50网络, 声音特征提取网络的的Resnet50网络包括: 声 音特征提取阶段网络Soundstage1, 声音特征提取阶段网络Soun dstage2, 声音特征提取阶 段网络Soundstage3, 声音特征提取阶段网络Soundstage4, 声音特征提取阶段网络 Soundsta ge5; 跳跃连接融合网络包括融合 阶段网络Skip ‑Concat1, 融合阶段网络Skip ‑Concat2, 融 合阶段网络Sk ip‑Concat3, 融合阶段网络Sk ip‑Concat4, 融合阶段网络Sk ip‑Concat5。 3.根据权利要求2所述的声音与视觉多级融合的鱼类行为识别方法, 其特征在于, 鱼类 行为的声 音信号经 过MFCC变换, 使用MFC C系数表示鱼类行为声 音特征。 4.根据权利要求3所述的声音与视觉多级融合的鱼类行为识别方法, 其特征在于, 所述 跳跃连接融合网络的融合阶段网络Skip ‑Concat, 由Up ‑sample、 Concat、 1*1卷积、 Down ‑ sample、 element ‑wiseadd组成; 所述Up ‑sample, 用于统一不同模态的特征图尺度, 得到尺 度相同的声音与视觉特征图; 所述Concat, 用于对不同维度特征进行融合; 所述1 ×1卷积, 用于将融合得到N +M维特征进 行卷积, 用于特征跨通道的交互和信息整合, 获取不同层级模 态间的交互信息; 所述Down ‑sample, 用于统一不同阶段的融合特征; 所述element ‑ wiseadd, 用于实现多尺度的特 征融合, 融合多个阶段信息特 征; 其中: 所述Concat基于如 下方式实现: 设有N维鱼类行为视觉特征, M维鱼类行为声音特 征, N维视 觉特征与M维声 音特征进行拼接操作, 融合成N+M维的特 征, 如公式(1) ‑(3)所示:权 利 要 求 书 1/3 页 2 CN 115170942 A 2N=[x1,x2,x3,...,xn]    (1) M=[y1,y2,y3,...,yn]    (2) N+M=[x1,x2,x3,...,xn,y1,y2,y3,...,yn]    (3) x表示鱼类行为视 觉特征样本, y表示鱼类行为声 音特征样本, n表示第n个特 征样本。 5.根据权利要求 4所述的声 音与视觉多级融合的鱼类行为识别方法, 其特 征在于, 鱼类行为的图像由视觉特征提取阶段网络RGBstage1对视觉特征提取, 视觉特征提取 阶段网络RGBstage1输出特征图RGBstage1, 鱼类行为的声音由声音特征提取阶段网络 Soundstage1对声音特征提取, 声音特征提取阶段网络Soundstage1输出特征图 Soundstage1, 所述特征图RGBstage1和所述特征图Soundstage1由融合阶段网络Skip ‑ Concat1融合, 得到融合特 征图concat1; 鱼类行为图像的特征图RGBstage1由视觉特征提取阶段网络RGBstage2对视觉特征提 取, 视觉特征提取阶段网络RGBstage2输出特征图RGBstage2, 鱼类行为声音的特征图 Soundstage1由声音特征提取阶段网络Soundstage2对声音特征提取, 声音特征提取阶段网 络Soundstage2 输出特征图Sou ndstage2, 所述特征图RGBstage2和所述特征图Sou ndstage2 由融合阶段网络Skip ‑Concat2融合, 得到融合特征图concat2, 将所述融合特征图concat1 和融合特 征图concat2进行元素相加操作, 使其融合成一张融合特 征图concat12。 鱼类行为图像的特征图RGBstage2由视觉特征提取阶段网络RGBstage3对视觉特征提 取, 视觉特征提取阶段网络RGBstage3输出特征图RGBstage3, 鱼类行为声音的特征图 Soundstage2由声音特征提取阶段网络Soundstage3对声音特征提取, 声音特征提取阶段网 络Soundstage3输 出特征图Sou ndstage3, 所述特征图RGBstage3和所述特征图Sou ndstage3 由融合阶段网络Skip ‑Concat3融合, 得到融合特征图concat3, 将所述融合特征图concat12 和融合特 征图concat3进行 元素相加操作, 使其融合成一张融合特 征图concat123; 鱼类行为图像的特征图RGBstage3由视觉特征提取阶段网络RGBstage4对视觉特征提 取, 视觉特征提取阶段网络RGBstage4输出特征图RGBstage4, 鱼类行为声音的特征图 Soundstage3由声音特征提取阶段网络Soundstage4对声音特征提取, 声音特征提取阶段网 络Soundstage4输 出特征图Sou ndstage4, 所述特征图RGBstage4和所述特征图Sou ndstage4 由融合阶段网络Skip ‑Concat4融合, 得到融合特征图concat4, 将所述融合特征图 concat123和融合特征图concat4进行元素相加操作, 使其融合成一张融合特征图 concat1234; 鱼类行为图像的特征图RGBstage4由视觉特征提取阶段网络RGBstage5对视觉特征提 取, 视觉特征提取阶段网络RGBstage5输出特征图RGBstage5, 鱼类行为声音的特征图 Soundstage4由声音特征提取阶段网络Soundstage5对声音特征提取, 声音特征提取阶段网 络Soundstage5输 出特征图Sou ndstage5, 所述特征图RGBstage5和所述特征图Sou ndstage5 由融合阶段网络Skip ‑Concat5融合, 得到融合特征图concat5, 将所述融合特征图 concat123

.PDF文档 专利 一种声音与视觉多级融合的鱼类行为识别方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种声音与视觉多级融合的鱼类行为识别方法 第 1 页 专利 一种声音与视觉多级融合的鱼类行为识别方法 第 2 页 专利 一种声音与视觉多级融合的鱼类行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:11:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。