专利 一种基于多模态短时特征的唇部状态识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210649733.2 (22)申请日 2022.06.10 (71)申请人南通大学地址 226000 江苏省南通市啬园路9号 (72)发明人王晗　陈怡霖　刘佳丽　徐少杰　杜若琳　季钰姣　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师许洁 (51)Int.Cl. G06V 20/59(2022.01) G06V 40/20(2022.01) G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于多模态短时特征的唇部状态识别方法 (57)摘要本发明公开了一种基于多模态短时特征的唇部状态识别方法，包括如下步骤：步骤1）利用人脸检测和特征点匹配技术，获取人脸及其主要特征点坐标；步骤2）利用相邻两帧唇部特征点坐标作输入，构建 “唇部特征点短时特征提取网络模块”；步骤3）利用相邻两帧唇部图像作为输入，构建“唇部外观短时特征提取网络模块 ”；步骤4）将步骤2）和步骤3）的输出作为多模态输入，构建 “唇部状态识别网络模块 ”；步骤5）按照步骤2）至步骤4）将各模块连接，构建 “多模态特征唇部状态识别网络 ”；步骤6）训练 “多模态特征唇部状态识别网络 ”，对待测图像序列进行唇部状态判定。本发明可利用短时特征序列准确预测唇部状态。权利要求书2页说明书7页附图6页 CN 114913511 A 2022.08.16 CN 114913511 A 1.一种基于多模态短时特征的唇部状态识别方法，其特征在于：包括如下步骤：步骤1).利用人脸检测和特征点匹配技术，获取人脸及其主要特征点坐标；步骤2).利用相邻两帧唇部特征点坐标作输入，构建 “唇部特征点短时特征提取网络模块”；步骤3).利用相邻两帧唇部图像作为输入，构建 “唇部外观短时特征提取网络模块 ”；步骤4).将步骤2)和步骤3)的输出作为多模态输入，构建 “唇部状态识别网络模块 ”；步骤5).按照步骤2)至步骤4)将各模块连接，构建 “多模态特征唇部状态识别网络 ”；步骤6).训练 “多模态特征唇部状态识别网络 ”，对待测图像序列进行唇部状态判定。 2.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法，其特征在于：所述的步骤2)为： 2.1面向t ‑1、 t、 t+1帧图像中的唇部特征点建立极坐标系，求取唇部特征点的极坐标集合，具体过程如下：以经过上唇部外轮廓中心特征点P52和下唇部外轮廓中心特征点P58的直线Liny方向，确定为唇部特征点纵向坐标轴方向；以经过左半唇部外轮廓中心特征点P49和右半唇部外轮廓中心特征点P55的直线Linx方向，确定为唇部特征点横向坐标轴方向；求解横向坐标轴Linx 与纵向坐标轴Liny的交点P00，以P00确定为原点，以Linx方向作为正方向建立唇部特征点极坐标系；在极坐标下，面向t ‑1、 t、 t+1帧图像，求取每帧图像中的20个唇部特征点的极坐标集合Qi( θi, ρi),i∈[1,20]；其中， θi为第i个特征点的相位角， ρi为第i个特征点的幅值； 2.2面向t ‑1、 t、 t+1帧图像，利用唇部特征点极坐标集合，提取 “静态特征 ”，具体过程如下：首先，将极坐标系按照相位0 ‑90度， 90‑180度， 180 ‑270度， 270 ‑360度分为四个象限；分别统计外唇轮廓、内唇轮廓在每个象限内的特征点Qi( θi, ρi),i∈[1,20]的 “相位‑幅值”直方图，直方图的横轴将相位0 ‑360度分为8个bin区间，即0 ‑45， 45‑90， 90‑135， 135‑180， 180‑ 235， 235‑270， 270‑315， 315‑360，纵轴是特征点的幅值；然后，将外唇特征点直方图、内唇特征点直方图共八个象限内直方图连接起来，构建唇部特征点“静态特征”； 2.3面向(t ‑1、 t)， (t、 t+1)两个连续帧图像，提取动态特征矢量，利用动态特征矢量，提取“动态特征”，具体过程如下：首先，按照式(1)依次求取相邻两帧20个唇部特征点的动态特征矢量(Δθi,Δρi),i∈ [1,20]；其中， (xi(t),yi(t))为t帧图像第i个唇部特征点的坐标； (xi(t‑1),yi(t‑1))为t‑1 帧图像第i个唇部特征点的坐标；然后，将极坐标系按照相位0 ‑90度， 90‑180度， 180 ‑270度， 270 ‑360度分为四个象限；分别统计外唇轮廓、内唇轮廓在每个象限内的特征动态矢量(Δθi,Δρi),i∈[1,20]的 “相位‑ 幅值”直方图；直方图的横轴将相位0 ‑360度分为8个bin区间，即0 ‑45度， 45‑90度， 90‑135 度， 135‑180度， 180 ‑235度， 235 ‑270度， 270 ‑315度， 315 ‑360度，纵轴是落在每个bin区间内的动态矢量对应的幅值之和；然后，将外唇轮廓、内唇轮廓共八个象限内的动态矢量直方图权　利　要　求　书 1/2 页 2 CN 114913511 A 2连接起来，构建唇部特征动态矢量 “动态特征”； 2.4利用LSTM构建唇部特征点短时特征网络模块，具体过程如下：首先，将t ‑1帧的“静态特征 ”、 t帧的“静态特征 ”和(t‑1、 t)帧的“动态特征 ”连接成一个特征向量将作为LSTM区块的状态输入，将t帧的 “静态特征 ”、 t+1帧的“静态特征 ” 和(t、 t+1)帧的 “动态特征 ”连接成一个特征向量将作为LSTM区块的状态输入；然后，将LSTM区块的状态输出作为LSTM区块的节点输入， LSTM区块的状态输出为最后，将LSTM区块的输出和LSTM区块的输出连接在一起作为 “唇部特征点短时特征提取网络模块 ”的输出 3.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法，其特征在于：所述的步骤3)为： 3.1将t、 t +1帧的唇部图像作为输入，利用 “外观特征提取网络 ”两帧图像的唇部外观特征 “外观特征提取网络 ”采用LeNet ‑5的网络结构：包含1个32 ×32的输入层、 1个 28×28的卷积层(6个5 ×5的卷积核)、 1个2 ×2的平均池化层、 1个10 ×10的卷积层(16个5 × 5的卷积核)、 1个2 ×2的平均池化层、 1个120个神经元的全连接层、 1个84个神经元的全连接层和一个输出层； 3.2将作为LSTM区块的状态输入，将作为LSTM区块的状态输入；然后，将 LSTM区块的状态输出作为LSTM区块的状态输入， LSTM区块的状态输出为最后，将LSTM区块的输出和LSTM区块的输出连接在一起作为 “唇部外观短时特征提取网络模块 ”的输出 4.根据权利要求1所述的基于多模态短时特征的唇部状态识别方法，其特征在于：所述的步骤4)为： “唇部状态识别网络 ”采用基于LSTM ‑MLP的联合网络框架构成，具体网络结构如下：将“唇部特征点短时特征提取网络模块 ”的状态输出和“唇部外观短时特征提取网络模块”的状态输出连接起来作为 “多模态特征唇部状态识别网络 ”LSTM区块LR的状态输入然后， LSTM区块LR的输出与“唇部特征点短时特征提取网络模块 ” 的输出连接起来，作为 “特征点注意力模型 ”的输入 STM区块LR的输出与“唇部外观短时特征提取网络模块 ”的输出连接起来，作为 “外观注意力模型 ” 的输入最后，将“外观注意力模型 ”的输出和“特征点注意力模型 ”的输出作为MLP的输入， MLP输出t+1时刻唇部状态预测结果； MLP为三层结构，输入层两个神经元，分别为和隐含层2个神经元，输出层1个神经元。权　利　要　求　书 2/2 页 3 CN 114913511 A 3

专利 一种基于多模态短时特征的唇部状态识别方法

专利一种基于多模态短时特征的唇部状态识别方法