安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210496197.7 (22)申请日 2022.05.09 (65)同一申请的已公布的文献号 申请公布号 CN 114581749 A (43)申请公布日 2022.06.03 (73)专利权人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 毛云青 王国梁 齐韬 陈思瑶  葛俊  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 董超 (51)Int.Cl. G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111640424 A,2020.09.08 CN 10209849 2 A,2011.06.15CN 109509484 A,2019.0 3.22 CN 112866586 A,2021.0 5.28 CN 103854014 A,2014.0 6.11 CN 10934 4781 A,2019.02.15 CN 113255556 A,2021.08.13 US 20170 61966 A1,2017.0 3.02 US 2021134312 A1,2021.0 5.06 CN 112287893 A,2021.01.2 9 CN 10820 0483 A,2018.0 6.22 CN 110647804 A,2020.01.0 3 CN 112328830 A,2021.02.0 5 缪裕青 等.一种多 任务学习的跨模态视频 情感分析方法. 《计算机 工程与应用》 .202 2, George Sterpu et al.Should we hard- code the recur rence co ncept or learn it instead ? Expl oring the Transformer architecture for Audi o-Visual Spe ech Recognition. 《arXiv》 .2020, Congcong Hou et al.End-to- End Bloody Video Recogn ition by Audi o-Visual F eature Fusion. 《PRCV 2018》 .2018, (续) 审查员 张露 (54)发明名称 视听特征融合的目标行为识别方法、 装置及 应用 (57)摘要 本申请提出了一种视听特征融合的目标行 为识别方法、 装置及应用, 涉及智能安防的技术 领域, 其中, 所述方法将视觉信息和听觉信息输 入指定的算法网络, 经过两个分支的不同特征提 取网络, 提取了视觉特征和听觉特征, 并经过了 LSTM网络计算得到时序上特征; 并通过自编码网 络构建共享语义子空间, 消除视觉和听觉特征的 语义偏差, 最后融合视觉特征和听觉特征, 基于 融合特征能够识别出目标行为。 通过本申请能够 提高异常行为识别的准确率。 [转续页] 权利要求书3页 说明书11页 附图4页 CN 114581749 B 2022.07.26 CN 114581749 B (56)对比文件 George Sterpu et al.A ttention-based Audio-Visual Fusi on for Robust Automatic Speech Recogn ition. 《arXiv》 .2019,董永峰 等.基 于多头注意力机制的模型层 融合维度情感识别方法. 《信号处 理》 .2021,第37 卷(第5期),2/2 页 2[接上页] CN 114581749 B1.一种视听特 征融合的目标 行为识别方法, 其特 征在于, 包括以下步骤: 获取预设时长的待识别音视频 段; 采集所述待识别音视频 段中的视 觉输入信息及听觉 输入信息; 将所述视觉输入信 息及所述 听觉输入信 息一同输入目标行为模型中, 其中所述目标行 为模型包括双分支通道的特 征提取网络、 自编码网络及全连接层识别模块; 根据所述特征提取网络分别从所述视觉输入信息、 所述听觉输入信息中提取特征, 得 到视觉特征、 听觉特 征; 由所述自编码网络的编码器将所述视觉特征、 所述听觉特征映射到同一子空间, 得到 听觉特征对应的听觉映射特征, 视觉特征对应的视觉映射特征; 根据所述自编码网络的解 码器将所有所述视觉映射特征及所有 所述听觉映射特征映射到多模空间中, 每个模态得到 其他模态空间的视觉补偿特征作为视觉共享特征, 以及得到其他模态的听觉补偿特征, 作 为听觉共享特征; 拼接所述视觉共享特征、 所述听觉共享特征、 所述视觉特征及所述听觉特 征, 得到融合特 征; 其中自编码网络包括编码器及解码器, 其中, 编码器包括依次连接的第 一全连接层、 第 二全连接层以及编码器层; 将视觉特征及听觉特征共同输入编码器中, 并依 次经过第一个 全连接层、 第二个全连接层以及编码 器层输出, 得到听觉特征对应的听觉映射特征, 视觉特 征对应的视 觉映射特 征; 其中, 解码器包括两条支路, 每条支路有两个全连接层组成; 一条支路以听觉映射特征 作为输入, 由两个全连接层将所有听觉映射特征映射到多模空间中, 得到听觉映射特征对 应的视觉补偿特征, 另一支路以视觉映射特征作为输入, 由两个全连接层将所有视觉映射 特征映射到多模空间中, 得到 视觉映射特 征对应的听觉补偿特 征; 将所述融合特 征输入所述全连接层识别模块进行识别, 得到目标 行为。 2.根据权利要求1所述的视听特征融合的目标行为识别方法, 其特征在于, 对输入所述 自编码网络的所述视觉特征和所述听觉特征采用语义映射标签进行标记, 其中, 语义映射 标签表征为描述相同语义内容的所述视 觉输入信息和所述听觉 输入信息的标记标签; 当输入自编码网络的视觉特征或听觉特征存在语义映射标签时, 损失函数为 听觉平均 误差值和视 觉平均误差值的代数和; 当输入自编码网络的视觉特征或听觉特征不存在语义映射标签时, 损 失函数为1与听 觉平均误差值和视 觉平均误差值的代数和的差值; 听觉平均误差值表征为所有听觉特征与 所有听觉共享特征的绝对差值的平均值, 视觉 平均误差值表征为所有视 觉特征与所有视 觉共享特 征的绝对差值的平均值; 其中, 损失函数由下列公式得到: yautocoder为损失函数, N为特征数量, faudio为听觉特征, f ’audio为听觉共享特征, fvisual为 视觉特征, f ’visual为视觉共享特征, Lcorr=1表示存在语 义映射标签, Lcorr=‑1表示不存在语义 映射标签。权 利 要 求 书 1/3 页 2 CN 114581749 B 3

.PDF文档 专利 视听特征融合的目标行为识别方法、装置及应用

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视听特征融合的目标行为识别方法、装置及应用 第 1 页 专利 视听特征融合的目标行为识别方法、装置及应用 第 2 页 专利 视听特征融合的目标行为识别方法、装置及应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:40:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。