安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210649733.2 (22)申请日 2022.06.10 (71)申请人 南通大学 地址 226000 江苏省南 通市啬园路9号 (72)发明人 王晗 陈怡霖 刘佳丽 徐少杰  杜若琳 季钰姣  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师 许洁 (51)Int.Cl. G06V 20/59(2022.01) G06V 40/20(2022.01) G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于多模态短时特征的唇部状态识别 方法 (57)摘要 本发明公开了一种基于多模态短时特征的 唇部状态识别方法, 包括如下步骤: 步骤1) 利用 人脸检测和特征点匹配技术, 获取人脸及其主要 特征点坐标; 步骤2) 利用相邻两帧唇部特征点坐 标作输入, 构建 “唇部特征点短时特征提取网络 模块”; 步骤3) 利用相邻两帧唇部图像作为输入, 构建“唇部外观短时特征提取网络模块 ”; 步骤4) 将步骤2) 和步骤3) 的输出作为多模态输入, 构建 “唇部状态识别网络模块 ”; 步骤5) 按照步骤2) 至 步骤4) 将各模块连接, 构建 “多模态特征唇部状 态识别网络 ”; 步骤6) 训练 “多模态特征唇部状态 识别网络 ”, 对待测图像序列进行唇部状态判定。 本发明可利用短时特 征序列准确预测唇部 状态。 权利要求书2页 说明书7页 附图6页 CN 114913511 A 2022.08.16 CN 114913511 A 1.一种基于多模态短时特 征的唇部状态 识别方法, 其特 征在于: 包括如下步骤: 步骤1).利用人脸检测 和特征点匹配技 术, 获取人脸及其主 要特征点坐标; 步骤2).利用相邻两帧唇部特征点坐标作输入, 构建 “唇部特征点短时特征提取网络模 块”; 步骤3).利用相邻两帧唇部图像作为输入, 构建 “唇部外观短时特 征提取网络模块 ”; 步骤4).将步骤2)和步骤3)的输出作为多模态输入, 构建 “唇部状态 识别网络模块 ”; 步骤5).按照步骤2)至步骤4)将各模块连接, 构建 “多模态特 征唇部状态 识别网络 ”; 步骤6).训练 “多模态特 征唇部状态 识别网络 ”, 对待测图像序列进行 唇部状态判定 。 2.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法, 其特征在于: 所述 的步骤2)为: 2.1面向t ‑1、 t、 t+1帧图像中的唇部特征点建立极坐标系, 求取唇部特征点的极坐标集 合, 具体过程如下: 以经过上唇部外轮廓中心 特征点P52和下唇部外轮廓中心 特征点P58的直线Liny方向, 确 定为唇部特征点纵向坐 标轴方向; 以经过左半唇部外轮廓中心特征点P49和右半唇部外轮廓 中心特征点P55的直线Linx方向, 确定为唇部特征点横向坐标轴方向; 求解横向坐标轴Linx 与纵向坐标轴Liny的交点P00, 以P00确定为原点, 以Linx方向作为正方 向建立唇部特征点极 坐标系; 在极坐标下, 面向t ‑1、 t、 t+1帧图像, 求取每帧图像中的20个唇部特征点的极坐标 集合Qi( θi, ρi),i∈[1,20]; 其中, θi为第i个特 征点的相位角, ρi为第i个特 征点的幅值; 2.2面向t ‑1、 t、 t+1帧图像, 利用唇部特征点极坐标集合, 提取 “静态特征 ”, 具体过程如 下: 首先, 将极坐标系按照相位0 ‑90度, 90‑180度, 180 ‑270度, 270 ‑360度分为四个象限; 分 别统计外唇轮廓、 内唇轮廓在每个象限内的特征点Qi( θi, ρi),i∈[1,20]的 “相位‑幅值”直 方图, 直方图的横轴将相位0 ‑360度分为8个bin区间, 即0 ‑45, 45‑90, 90‑135, 135‑180, 180‑ 235, 235‑270, 270‑315, 315‑360, 纵轴是特征点的幅值; 然后, 将外唇特征点直方图、 内唇特 征点直方图共八个象限内直方图连接起 来, 构建唇部特 征点“静态特征”; 2.3面向(t ‑1、 t), (t、 t+1)两个连续帧图像, 提取动态特征矢量, 利用动态特征矢量, 提 取“动态特征”, 具体过程如下: 首先, 按照式(1)依 次求取相邻两帧20个唇部特征点的动态特征矢量(Δθi,Δρi),i∈ [1,20]; 其中, (xi(t),yi(t))为t帧图像第i个唇部特征点的坐标; (xi(t‑1),yi(t‑1))为t‑1 帧图像第i个唇部特 征点的坐标; 然后, 将极坐标系按照相位0 ‑90度, 90‑180度, 180 ‑270度, 270 ‑360度分为四个象限; 分 别统计外唇轮廓、 内唇轮廓在每个象限内的特征动态矢量(Δθi,Δρi),i∈[1,20]的 “相位‑ 幅值”直方图; 直方 图的横轴将相位0 ‑360度分为8个bin区间, 即0 ‑45度, 45‑90度, 90‑135 度, 135‑180度, 180 ‑235度, 235 ‑270度, 270 ‑315度, 315 ‑360度, 纵轴是落在每个bin区间内 的动态矢量对应的幅值之和; 然后, 将外唇轮廓、 内唇轮廓共八个象限内的动态矢量直方图权 利 要 求 书 1/2 页 2 CN 114913511 A 2连接起来, 构建唇部特 征动态矢量 “动态特征”; 2.4利用LSTM构建唇部特 征点短时特 征网络模块, 具体过程如下: 首先, 将t ‑1帧的“静态特征 ”、 t帧的“静态特征 ”和(t‑1、 t)帧的“动态特征 ”连接成一个 特征向量 将 作为LSTM区块 的状态输入, 将t帧的 “静态特征 ”、 t+1帧的“静态特征 ” 和(t、 t+1)帧的 “动态特征 ”连接成一个特征向量 将 作为LSTM区块 的状态输入; 然 后, 将LSTM区块 的状态输出 作为LSTM区块 的节点输入, LSTM区块 的状态输出为 最后, 将LSTM区块 的输出 和LSTM区块 的输出 连接在一起作为 “唇部特征点 短时特征提取网络模块 ”的输出 3.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法, 其特征在于: 所述 的步骤3)为: 3.1将t、 t +1帧的唇部图像作 为输入, 利用 “外观特征提取网络 ”两帧图像的唇部外观特 征 “外观特征提取网络 ”采用LeNet ‑5的网络结构: 包含1个32 ×32的输入层、 1个 28×28的卷积层(6个5 ×5的卷积核)、 1个2 ×2的平均池化层、 1个10 ×10的卷积层(16个5 × 5的卷积核)、 1个2 ×2的平均池化层、 1个120个神经元的全连接层、 1个84个神经元的全 连接 层和一个输出层; 3.2将 作为LSTM区块 的状态输入, 将 作为LSTM区块 的状态输入; 然后, 将 LSTM区块 的状态输出 作为LSTM区块 的状态输入, LSTM区块 的状态输出为 最 后, 将LSTM区块 的输出 和LSTM区块 的输出 连接在一起作为 “唇部外观短时特征 提取网络模块 ”的输出 4.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法, 其特征在于: 所述 的步骤4)为: “唇部状态 识别网络 ”采用基于LSTM ‑MLP的联合网络 框架构成, 具体网络结构如下: 将“唇部特征点短时特征提取网络模块 ”的状态输出 和“唇部外观短时特征提取网 络模块”的状态输出 连接起来作为 “多模态特征唇部状态识别网络 ”LSTM区块LR的状态 输入 然后, LSTM区块LR的输出 与“唇部特征点短时特征提取网络模块 ” 的输出 连接起来, 作为 “特征点注意力模型 ”的输入 STM区块LR的输 出 与“唇部外观短时特征提取网络模块 ”的输出 连接起来, 作为 “外观注意力模型 ” 的输入 最后, 将“外观注意力模型 ”的输出 和“特征点注意力模型 ”的 输出 作为MLP的输入, MLP输出t+1时刻唇部状态预测结果; MLP为三层结构, 输入层两个 神经元, 分别为 和 隐含层2个神经 元, 输出层1个神经 元。权 利 要 求 书 2/2 页 3 CN 114913511 A 3

.PDF文档 专利 一种基于多模态短时特征的唇部状态识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态短时特征的唇部状态识别方法 第 1 页 专利 一种基于多模态短时特征的唇部状态识别方法 第 2 页 专利 一种基于多模态短时特征的唇部状态识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:45:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。