(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211071524.0
(22)申请日 2022.09.02
(71)申请人 华为技术有限公司
地址 518129 广东省深圳市龙岗区坂田华
为总部办公楼
(72)发明人 裴仁静 李炜棉 许松岑
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
专利代理师 王仲凯
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/40(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06V 20/40(2022.01)
(54)发明名称
一种数据处 理方法及相关 设备
(57)摘要
本申请公开了一种数据处理方法。 可以应用
于时序建模场景。 该方法包括: 获取多个数据; 将
多个数据中的每个数据拆分为N个数据块, N为大
于1的正整数; 确定至少一个数据块在多个数据
中的观察方向; 基于观察方向确定多个数据中的
数据块序列, 数据块序列用于表 示多个数据在时
序上的特征。 通过确定至少一个数据块在多个数
据中的观 察方向, 并基于该观 察方向确定多个数
据中的数据块序列, 以实现该数据块序列可以表
示多个数据在时序上的特征。 尤其是对于多个数
据是多帧图像的场景下, 可以动态确定观察视
角, 进而使得基于该数据块序列获取的特征更能
表示多个数据在时序上的特点, 从而提升计算机
视觉任务的准确性。
权利要求书3页 说明书14页 附图10页
CN 115512104 A
2022.12.23
CN 115512104 A
1.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取多个数据;
将所述多个数据中的每 个数据拆分为 N个数据块, N 为大于1的正整数;
确定至少一个数据块在所述多个数据中的观察方向;
基于所述观察方向确定所述多个数据中的数据块序列, 所述数据块序列用于表示所述
多个数据在时序上的特 征。
2.根据权利要求1所述的方法, 其特征在于, 所述确定至少一个数据块在所述多个数据
中的观察方向, 包括:
以所述多个训练数据作为模型的输入, 在训练所述模型的过程中, 通过调整初始观察
方向使得损失函数的值小于阈值以得到所述观察方向, 所述初始观察方向用于确定所述模
型的输出, 所述损失函数用于表示所述输出与所述多个训练数据的标签之间的差异。
3.根据权利要求1所述的方法, 其特征在于, 所述确定至少一个数据块在所述多个数据
中的观察方向, 包括:
基于训练好的模型与 所述至少一个数据块在所述多个数据中的位置信 息, 确定所述观
察方向。
4.根据权利要求1至3中任一项所述的方法, 其特征在于, 所述观察方向由所述至少一
个数据块在三维坐标系中的第一角度与第二角度 表示, 所述三维坐标系的中心 点与所述多
个数据相关, 所述 三维坐标系为(W,H,T), W表示数据宽度, H表示数据高度, T为时刻。
5.根据权利要求4所述的方法, 其特征在于, 所述基于所述观察方向确定所述多个数据
中的数据块序列, 包括:
确定所述观察方向在所述三维坐标系上的第 一偏置与第 二偏置, 所述第 一偏置为所述
观察方向在W ‑T平面上不同时刻的偏 置, 所述第二偏 置为所述观 察方向在H ‑W平面上不同时
刻的偏置;
基于所述第一偏置与所述第二偏置确定所述数据块序列。
6.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述多个数据为多帧图像数
据或频谱图。
7.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取第一数据与第二数据, 所述第一数据与所述第二数据为 不同模态的数据;
获取所述第一数据的第一时序特 征与第一空间特 征;
获取所述第二数据的第二时序特 征与第二空间特 征;
融合所述第一时序特 征与所述第二时序特 征, 以得到目标时序特 征;
融合所述第一空间特征与所述第二空间特征, 以得到目标空间特征, 所述目标时序特
征与所述目标空间特 征用于实现计算机 视觉任务。
8.根据权利要求7所述的方法, 其特征在于, 所述第 一数据与 所述第二数据为模态数据
中的任意两种, 所述模态数据包括: 视 觉数据、 音频 数据、 文本数据。
9.根据权利要求7或8所述的方法, 其特征在于, 所述获取所述第一数据的第一时序特
征与第一空间特 征, 包括:
基于视觉分解方法分解所述第一数据以得到所述第一时序特 征与所述第一空间特 征。
10.根据权利要求7至9中任一项所述的方法, 其特征在于, 所述获取所述第 二数据的第权 利 要 求 书 1/3 页
2
CN 115512104 A
2二时序特 征与第二空间特 征, 包括:
基于音频分解方法分解所述第 二数据以得到所述第 二时序特征与所述第 二空间特征,
所述音频分解方法包括以下至少一项: 门Gate, 卷积神经网络 。
11.根据权利要求10所述的方法, 其特征在于, 所述第 一时序特征包括观察方向确定的
数据块序列, 所述数据块序列用于表示所述第一数据在时序上的特 征。
12.一种数据处 理设备, 其特 征在于, 所述数据处 理设备包括:
获取单元, 用于获取多个数据;
拆分单元, 用于将所述多个数据中的每 个数据拆分为 N个数据块, N 为大于1的正整数;
确定单元, 用于确定 至少一个数据块在所述多个数据中的观察方向;
所述确定单元, 还用于基于所述观察方向确定所述多个数据中的数据块序列, 所述数
据块序列用于表示所述多个数据在时序上的特 征。
13.根据权利要求12所述的数据处理设备, 其特征在于, 所述确定单元, 具体用于以所
述多个训练数据作为模型 的输入, 在训练所述模型 的过程中, 通过调整初始观察方向使得
损失函数的值小于阈值以得到所述观察方向, 所述初始观察方向用于确定所述模型的输
出, 所述损失函数用于表示所述输出与所述多个数据的标签之间的差异。
14.根据权利要求12所述的数据处理设备, 其特征在于, 所述确定单元, 具体用于基于
训练好的模型与所述至少一个数据块在所述多个数据中的位置信息, 确定所述观察方向。
15.根据权利要求12至14中任一项所述的数据处理设备, 其特征在于, 所述观察方向由
所述至少一个数据块在三 维坐标系中的第一角度与第二角度 表示, 所述三维坐标系的中心
点与所述多个数据相关, 所述三维坐标系 为(W,H,T), W表示数据宽度, H表示数据高度, T为
时刻。
16.根据权利要求15所述的数据处理设备, 其特征在于, 所述确定单元, 具体用于确定
所述观察方向在所述三 维坐标系上的第一偏置与第二偏置, 所述第一偏置为所述观察方向
在W‑T平面上不同时刻 的偏置, 所述第二偏置为所述观察方向在H ‑W平面上不同时刻的偏
置;
所述确定单 元, 具体用于基于所述第一偏置与所述第二偏置确定所述数据块序列。
17.根据权利要求12至16中任一项所述的数据处理设备, 其特征在于, 所述多个数据为
多帧图像数据或频谱图。
18.一种数据处 理设备, 其特 征在于, 所述数据处 理设备包括:
获取单元, 用于获取第一数据与第二数据, 所述第一数据与所述第二数据为不同模态
的数据;
所述获取 单元, 还用于获取 所述第一数据的第一时序特 征与第一空间特 征;
所述获取 单元, 还用于获取 所述第二数据的第二时序特 征与第二空间特 征;
融合单元, 用于融合所述第一时序特 征与所述第二时序特 征, 以得到目标时序特 征;
所述融合单元, 还用于融合所述第一空间特征与所述第二空间特征, 以得到目标空间
特征, 所述目标时序特 征与所述目标空间特 征用于实现计算机 视觉任务。
19.根据权利要求18所述的数据处理设备, 其特征在于, 所述第 一数据与所述第 二数据
为模态数据中的任意两种, 所述模态数据包括: 视 觉数据、 音频 数据、 文本数据。
20.根据权利要求18或19所述的数据处理设备, 其特征在于, 所述获取单元, 具体用于权 利 要 求 书 2/3 页
3
CN 115512104 A
3
专利 一种数据处理方法及相关设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:12:13上传分享