安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210960093.7 (22)申请日 2022.08.11 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号南京理工大 学 (72)发明人 李泽超 潘礼勇 (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 韩雪梅 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 40/70(2022.01) G06K 9/62(2022.01)G06V 10/764(2022.01) G06N 3/04(2006.01) G10L 25/18(2013.01) G10L 25/45(2013.01) (54)发明名称 一种基于多模态融合的动作识别方法及系 统 (57)摘要 本发明公开了一种基于多模态融合的动作 识别方法及系统。 该方法包括: 从动作视频中提 取视觉模态数据和听觉模态数据; 对视觉模态数 据和听觉模态数据进行预处理, 得到视觉模态浅 层Token序列和听觉模态 浅层Token序列; 将视觉 模态浅层Token序列输入至视觉特征提取网络 中, 得到视觉模态深度T oken序列; 将听觉模态 浅 层Token序列输入至听觉特征提取网络中, 得到 听觉模态深度T oken序列; 将视觉模态深度T oken 序列和听觉模态深度Token序列合并, 得到合并 后的Token序列; 将合并后的Token序列输入至 特 征融合网络, 得到融合交互后的Token序列; 将融 合交互后的Token序列输入至全连接层, 得到动 作分类结果。 本发明相比于 现有的方法识别准确 率更高, 而 且计算消耗更低。 权利要求书2页 说明书7页 附图2页 CN 115205979 A 2022.10.18 CN 115205979 A 1.一种基于多模态融合的动作识别方法, 其特 征在于, 包括: 从动作视频中提取视 觉模态数据和听觉模态数据; 对所述视觉模态数据和所述听觉模态数据进行预处理, 得到视觉模态浅层Token序列 和听觉模态浅层To ken序列; 将所述视觉模态浅层Token序列输入至视觉特征提取网络中, 得到视觉模态深度Token 序列; 将所述听觉模态浅层Token序列输入至听觉特征提取网络中, 得到听觉模态深度Token 序列; 将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并, 得到合并后的 Token序列; 将所述合并后的To ken序列输入至特 征融合网络, 得到融合交 互后的To ken序列; 将所述融合交 互后的To ken序列输入至全连接层, 得到动作分类结果。 2.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 从动作视频中 提取视觉模态数据和听觉模态数据, 具体包括: 将所述动作视频划分为多个部分; 从每个部分中随机提取1帧RGB图像, 得到 视觉模态数据; 从每个部分中提取设定 长度的音频; 从所述音频中提取设定频率维度的频谱图, 得到听觉模态数据。 3.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 对所述视觉模 态数据和所述听觉模态数据进行 预处理, 具体包括: 将所述视觉模态数据和所述 听觉模态数据均划分为多个图像块, 得到视觉模态图像块 和听觉模态图像块; 将每个视觉模态图像块和每个听觉模态图像块拉平成为一维向量, 得到视觉模态 Token和听觉模态To ken; 对所述视觉模态Token和所述听觉模态Token进行一次线性变化, 得到视觉模态初始 Token序列和听觉模态初始To ken序列; 将可学习的变量作为位置信息分别添加到所述视觉模态初始Token序列和所述听觉模 态初始To ken序列中, 得到 视觉模态浅层To ken序列和听觉模态浅层To ken序列。 4.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 在将所述视觉 模态浅层 Token序列输入至视觉特征提取网络中, 以及将所述听觉模态浅层Token序列输入 至听觉特 征提取网络中之前, 还 包括; 分别在所述视觉模态浅层Token序列以及所述听觉模态浅层Token序列前设置一个分 类向量, 并将所述分类向量进行移动。 5.根据权利要求4所述的基于多模态融合的动作识别方法, 其特征在于, 将所述合并后 的Token序列输入至特 征融合网络, 得到融合交 互后的To ken序列, 具体包括: 将所述视觉模态深度Token序列中的分类向量进行合并以及将所述视觉模态深度 Token序列中分类向量以外的部分进行合并, 得到合并后的视 觉模态深度To ken序列; 将所述听觉模态深度Token序列中的分类向量进行合并以及将所述听觉模态深度 Token序列中分类向量以外的部分进行合并, 得到合并后的听觉模态深度To ken序列;权 利 要 求 书 1/2 页 2 CN 115205979 A 2将所述合并后的视觉模态深度Token序列以及 所述合并后的听觉模态深度Token序列, 进行合并得到合并后的To ken序列。 6.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 所述特征融合 网络中包括To ken选择模块。 7.一种基于多模态融合的动作识别系统, 其特 征在于, 包括: 模态数据提取模块, 用于从动作视频中提取视 觉模态数据和听觉模态数据; 预处理模块, 用于对所述视觉模态数据和所述听觉模态数据进行预处理, 得到视觉模 态浅层To ken序列和听觉模态浅层To ken序列; 第一输入模块, 用于将所述视觉模态浅层Token序列输入至视觉特征提取网络中, 得到 视觉模态深度To ken序列; 第二输入模块, 用于将所述听觉模态浅层Token序列输入至听觉特征提取网络中, 得到 听觉模态深度To ken序列; 合并模块, 用于将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并, 得到合并后的To ken序列; 第三输入模块, 用于将所述合并后的Token序列输入至特征融合网络, 得到融合交互后 的Token序列; 第四输入模块, 用于将所述融合交互后的Token序列输入至全连接层, 得到动作分类结 果。 8.根据权利要求7所述的基于多模态融合的动作识别系统, 其特征在于, 模态数据提取 模块, 具体包括: 第一划分单 元, 用于将所述动作视频划分为多个部分; 第一提取单元, 用于从每 个部分中随机提取1帧RGB图像, 得到 视觉模态数据; 第二提取单元, 用于从每 个部分中提取设定 长度的音频; 第三提取单元, 用于从所述音频中提取设定频率维度的频谱图, 得到听觉模态数据。 9.根据权利要求7所述的基于多模态融合的动作识别系统, 其特征在于, 预处理模块, 具体包括: 第二划分单元, 用于将所述视觉模态数据和所述听觉模态数据均划分为多个图像块, 得到视觉模态图像块和听觉模态图像块; 拉平单元, 用于将每个视觉模态图像块和每个听觉模态图像块拉平成为一维向量, 得 到视觉模态To ken和听觉模态To ken; 线性变化单元, 用于对所述视觉模态Token和所述听觉模态Token进行一次线性变化, 得到视觉模态初始To ken序列和听觉模态初始To ken序列; 添加单元, 用于将可学习的变量作为位置信息分别添加到所述视觉模态初始Token序 列和所述听觉模态初始Token序列中, 得到视觉模态浅层Token序列和听觉模态浅层Token 序列。 10.根据权利要求7所述的基于多模态融合的动作识别系统, 其特征在于, 所述特征融 合网络中包括To ken选择模块。权 利 要 求 书 2/2 页 3 CN 115205979 A 3
专利 一种基于多模态融合的动作识别方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 10:10:38
上传分享
举报
下载
原文档
(550.8 KB)
分享
友情链接
YD-T 3956-2021 电信网和互联网数据安全评估规范.pdf
GB-T 10802-2006 通用软质聚醚型聚氨酯泡沫塑料.pdf
GM-T 0003.4-2012 SM2椭圆曲线公钥密码算法第4部分:公钥加密算法.pdf
GB-T 41392-2022 数字化车间可靠性通用要求.pdf
SN-T 3005-2011 有机化学品中碳、氢、氮、硫含量的元素分析仪测定方法.pdf
GB-T 42014-2022 信息安全技术 网上购物服务数据安全要求.pdf
DB11-T 1211-2023 中央空调系统运行节能监测 北京市.pdf
GB-T 25030-2010 建筑物清洗维护质量要求.pdf
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
GB 7260.1-2008 不间断电源第1-1部分 一般规定和安全要求.pdf
GB-T 41904-2022 信息技术 自动化基础设施管理 AIM 系统 要求、数据交换及应用.pdf
DB11-T 1344-2016 信息安全等级保护检查规范 北京市.pdf
T-CASME 665—2023 乡村居住建筑节能设计规范.pdf
T-ZYLM 0003—2023 昌吉玉米种子 制种玉米种子加工技术规程.pdf
GB-T 31454-2015 公路收费车道图像抓拍与处理.pdf
GB-T 2679.1-2020 纸 透明度的测定 漫反射法.pdf
等保二级-安全技术-网络安全.doc
T-CASME 668—2023 CD3-CD4-CD8-CD16+CD56-CD19-CD45检测试剂盒 流式细胞仪法-6色.pdf
JY-T 1004-2012 教育管理信息 普通中小学校管理信息.pdf
360 新一代XDR-面向未来的数字安全防御架构.pdf
交流群
-->
1
/
3
12
评价文档
赞助2元 点击下载(550.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。