(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210649733.2
(22)申请日 2022.06.10
(71)申请人 南通大学
地址 226000 江苏省南 通市啬园路9号
(72)发明人 王晗 陈怡霖 刘佳丽 徐少杰
杜若琳 季钰姣
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 许洁
(51)Int.Cl.
G06V 20/59(2022.01)
G06V 40/20(2022.01)
G06V 40/16(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于多模态短时特征的唇部状态识别
方法
(57)摘要
本发明公开了一种基于多模态短时特征的
唇部状态识别方法, 包括如下步骤: 步骤1) 利用
人脸检测和特征点匹配技术, 获取人脸及其主要
特征点坐标; 步骤2) 利用相邻两帧唇部特征点坐
标作输入, 构建 “唇部特征点短时特征提取网络
模块”; 步骤3) 利用相邻两帧唇部图像作为输入,
构建“唇部外观短时特征提取网络模块 ”; 步骤4)
将步骤2) 和步骤3) 的输出作为多模态输入, 构建
“唇部状态识别网络模块 ”; 步骤5) 按照步骤2) 至
步骤4) 将各模块连接, 构建 “多模态特征唇部状
态识别网络 ”; 步骤6) 训练 “多模态特征唇部状态
识别网络 ”, 对待测图像序列进行唇部状态判定。
本发明可利用短时特 征序列准确预测唇部 状态。
权利要求书2页 说明书7页 附图6页
CN 114913511 A
2022.08.16
CN 114913511 A
1.一种基于多模态短时特 征的唇部状态 识别方法, 其特 征在于: 包括如下步骤:
步骤1).利用人脸检测 和特征点匹配技 术, 获取人脸及其主 要特征点坐标;
步骤2).利用相邻两帧唇部特征点坐标作输入, 构建 “唇部特征点短时特征提取网络模
块”;
步骤3).利用相邻两帧唇部图像作为输入, 构建 “唇部外观短时特 征提取网络模块 ”;
步骤4).将步骤2)和步骤3)的输出作为多模态输入, 构建 “唇部状态 识别网络模块 ”;
步骤5).按照步骤2)至步骤4)将各模块连接, 构建 “多模态特 征唇部状态 识别网络 ”;
步骤6).训练 “多模态特 征唇部状态 识别网络 ”, 对待测图像序列进行 唇部状态判定 。
2.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法, 其特征在于: 所述
的步骤2)为:
2.1面向t ‑1、 t、 t+1帧图像中的唇部特征点建立极坐标系, 求取唇部特征点的极坐标集
合, 具体过程如下:
以经过上唇部外轮廓中心 特征点P52和下唇部外轮廓中心 特征点P58的直线Liny方向, 确
定为唇部特征点纵向坐 标轴方向; 以经过左半唇部外轮廓中心特征点P49和右半唇部外轮廓
中心特征点P55的直线Linx方向, 确定为唇部特征点横向坐标轴方向; 求解横向坐标轴Linx
与纵向坐标轴Liny的交点P00, 以P00确定为原点, 以Linx方向作为正方 向建立唇部特征点极
坐标系; 在极坐标下, 面向t ‑1、 t、 t+1帧图像, 求取每帧图像中的20个唇部特征点的极坐标
集合Qi( θi, ρi),i∈[1,20]; 其中, θi为第i个特 征点的相位角, ρi为第i个特 征点的幅值;
2.2面向t ‑1、 t、 t+1帧图像, 利用唇部特征点极坐标集合, 提取 “静态特征 ”, 具体过程如
下:
首先, 将极坐标系按照相位0 ‑90度, 90‑180度, 180 ‑270度, 270 ‑360度分为四个象限; 分
别统计外唇轮廓、 内唇轮廓在每个象限内的特征点Qi( θi, ρi),i∈[1,20]的 “相位‑幅值”直
方图, 直方图的横轴将相位0 ‑360度分为8个bin区间, 即0 ‑45, 45‑90, 90‑135, 135‑180, 180‑
235, 235‑270, 270‑315, 315‑360, 纵轴是特征点的幅值; 然后, 将外唇特征点直方图、 内唇特
征点直方图共八个象限内直方图连接起 来, 构建唇部特 征点“静态特征”;
2.3面向(t ‑1、 t), (t、 t+1)两个连续帧图像, 提取动态特征矢量, 利用动态特征矢量, 提
取“动态特征”, 具体过程如下:
首先, 按照式(1)依 次求取相邻两帧20个唇部特征点的动态特征矢量(Δθi,Δρi),i∈
[1,20]; 其中, (xi(t),yi(t))为t帧图像第i个唇部特征点的坐标; (xi(t‑1),yi(t‑1))为t‑1
帧图像第i个唇部特 征点的坐标;
然后, 将极坐标系按照相位0 ‑90度, 90‑180度, 180 ‑270度, 270 ‑360度分为四个象限; 分
别统计外唇轮廓、 内唇轮廓在每个象限内的特征动态矢量(Δθi,Δρi),i∈[1,20]的 “相位‑
幅值”直方图; 直方 图的横轴将相位0 ‑360度分为8个bin区间, 即0 ‑45度, 45‑90度, 90‑135
度, 135‑180度, 180 ‑235度, 235 ‑270度, 270 ‑315度, 315 ‑360度, 纵轴是落在每个bin区间内
的动态矢量对应的幅值之和; 然后, 将外唇轮廓、 内唇轮廓共八个象限内的动态矢量直方图权 利 要 求 书 1/2 页
2
CN 114913511 A
2连接起来, 构建唇部特 征动态矢量 “动态特征”;
2.4利用LSTM构建唇部特 征点短时特 征网络模块, 具体过程如下:
首先, 将t ‑1帧的“静态特征 ”、 t帧的“静态特征 ”和(t‑1、 t)帧的“动态特征 ”连接成一个
特征向量
将
作为LSTM区块
的状态输入, 将t帧的 “静态特征 ”、 t+1帧的“静态特征 ”
和(t、 t+1)帧的 “动态特征 ”连接成一个特征向量
将
作为LSTM区块
的状态输入; 然
后, 将LSTM区块
的状态输出
作为LSTM区块
的节点输入, LSTM区块
的状态输出为
最后, 将LSTM区块
的输出
和LSTM区块
的输出
连接在一起作为 “唇部特征点
短时特征提取网络模块 ”的输出
3.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法, 其特征在于: 所述
的步骤3)为:
3.1将t、 t +1帧的唇部图像作 为输入, 利用 “外观特征提取网络 ”两帧图像的唇部外观特
征
“外观特征提取网络 ”采用LeNet ‑5的网络结构: 包含1个32 ×32的输入层、 1个
28×28的卷积层(6个5 ×5的卷积核)、 1个2 ×2的平均池化层、 1个10 ×10的卷积层(16个5 ×
5的卷积核)、 1个2 ×2的平均池化层、 1个120个神经元的全连接层、 1个84个神经元的全 连接
层和一个输出层;
3.2将
作为LSTM区块
的状态输入, 将
作为LSTM区块
的状态输入; 然后, 将
LSTM区块
的状态输出
作为LSTM区块
的状态输入, LSTM区块
的状态输出为
最
后, 将LSTM区块
的输出
和LSTM区块
的输出
连接在一起作为 “唇部外观短时特征
提取网络模块 ”的输出
4.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法, 其特征在于: 所述
的步骤4)为:
“唇部状态 识别网络 ”采用基于LSTM ‑MLP的联合网络 框架构成, 具体网络结构如下:
将“唇部特征点短时特征提取网络模块 ”的状态输出
和“唇部外观短时特征提取网
络模块”的状态输出
连接起来作为 “多模态特征唇部状态识别网络 ”LSTM区块LR的状态
输入
然后, LSTM区块LR的输出
与“唇部特征点短时特征提取网络模块 ”
的输出
连接起来, 作为 “特征点注意力模型 ”的输入
STM区块LR的输
出
与“唇部外观短时特征提取网络模块 ”的输出
连接起来, 作为 “外观注意力模型 ”
的输入
最后, 将“外观注意力模型 ”的输出
和“特征点注意力模型 ”的
输出
作为MLP的输入, MLP输出t+1时刻唇部状态预测结果; MLP为三层结构, 输入层两个
神经元, 分别为
和
隐含层2个神经 元, 输出层1个神经 元。权 利 要 求 书 2/2 页
3
CN 114913511 A
3
专利 一种基于多模态短时特征的唇部状态识别方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:45:00上传分享