(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210328824.6
(22)申请日 2022.03.31
(65)同一申请的已公布的文献号
申请公布号 CN 114420169 A
(43)申请公布日 2022.04.29
(73)专利权人 北京沃丰时代数据科技有限公司
地址 100160 北京市丰台区汽车博物馆东
路6号3号楼1单 元2层201
(72)发明人 代勤 赵超 薛东伟 胡明櫆
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 聂俊伟
(51)Int.Cl.
G10L 25/63(2013.01)
G06V 40/16(2022.01)G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
审查员 武金花
(54)发明名称
情绪识别方法、 装置及机 器人
(57)摘要
本发明提供一种情绪识别方法、 装置及机器
人, 所述方法包括: 获取当前对话语句的第一音
频特征向量, 将第一音 频特征向量输入至音 频识
别子模型确定第一音 频嵌入向量; 获取当前对话
语句的第一词向量, 将第一词向量输入至文字识
别子模型, 确定第一词嵌入向量; 融合第一音频
嵌入向量和第一词嵌入向量, 生成第一融合特征
向量; 基于第一融合特征向量, 确定用户的当前
情绪识别结果。 本发明提出了一种结合人机对话
相关的语音和文字相关的音频特征以及词向量
特征, 进行用户情绪分类识别, 克服了单一的基
于语音或人脸图像进行情绪分类识别存在的信
息损失的弊端, 能够显著地提升情绪分类识别的
精度。
权利要求书3页 说明书13页 附图3页
CN 114420169 B
2022.06.21
CN 114420169 B
1.一种情绪识别方法, 其特 征在于, 包括:
获取当前对话语句相关的第 一音频特征向量, 将所述第 一音频特征向量输入至音频识
别子模型, 以根据所述音频识别子模型的输出, 确定第一音频嵌入向量;
获取所述当前对话语句相关的第一词向量, 将所述第一词向量输入至文字识别子模
型, 以根据所述文字识别子模型的输出, 确定第一词嵌入向量;
融合所述第一音频嵌入向量和所述第一词嵌入向量, 生成第一融合特 征向量;
基于所述第一融合特 征向量, 确定用户的当前情绪识别结果;
在融合所述第一音频嵌入向量和所述第一词嵌入向量, 生成第一融合特征向量之前,
还包括:
获取在采集所述当前对话语句时用户的第 一面部图像, 将所述第 一面部图像输入至图
像识别子模型, 以根据所述图像识别子模型的输出, 确定第一图像嵌入向量;
融合所述第一音频嵌入向量、 所述第一词嵌入向量和所述第一图像嵌入向量, 生成第
二融合特 征向量;
基于所述第二融合特 征向量, 确定所述用户的当前情绪识别结果;
在将所述第一音频 特征向量输入至音频识别子模型之前, 还 包括:
获取第二音频嵌入向量, 所述第 二音频嵌入向量是将所述当前对话语句的前一对话语
句相关的第二音频 特征向量输入至所述音频识别子模型后获取到的;
融合所述第二音频嵌入向量和所述第一音频 特征向量, 生成第二音频 特征向量;
将所述第二音频特征向量输入至所述音频识别子模型, 以根据 所述音频识别 子模型的
输出, 确定第三音频嵌入向量;
相应地, 融合所述第三音频嵌入向量和所述第 一词嵌入向量, 生成第 三融合特征向量,
以基于所述第三融合特 征向量, 确定用户的当前情绪识别结果;
或者, 融合所述第三音频嵌入向量、 所述第一词嵌入向量和所述第一图像嵌入向量, 生
成第四融合特 征向量, 以基于所述第四融合特 征向量, 确定用户的当前情绪识别结果;
在将所述第一词向量输入至文字识别子模型之前还 包括:
获取第二词嵌入向量, 所述第 二词嵌入向量是将所述当前对话语句的前一对话语句相
关的第二词向量输入至所述文字识别子模型后获取到的;
融合所述第二词嵌入向量和所述第一词向量, 生成第二词向量;
将所述第二词向量输入至所述文字识别子模型, 以根据所述文字识别子模型的输出,
确定第三词嵌入向量;
相应地, 融合所述第三音频嵌入向量和所述第 三词嵌入向量, 生成第五融合特征向量,
以基于所述第五融合特 征向量, 确定用户的当前情绪识别结果;
或者, 融合所述第三音频嵌入向量、 所述第三词嵌入向量和所述第一图像嵌入向量, 生
成第六融合特 征向量, 以基于所述第六融合特 征向量, 确定用户的当前情绪识别结果;
在将所述第一 面部图像输入至图像识别子模型之前, 还 包括:
获取第二图像嵌入向量, 所述第 二图像嵌入向量是将所述当前对话语句的前一对话语
句相关的第二 面部图像, 输入至所述图像识别子模型后获取到的;
融合所述第二图像嵌入向量和所述第一 面部图像, 生成第二 面部图像;
将所述第二面部图像输入至所述图像识别子模型, 以根据所述图像识别子模型的输权 利 要 求 书 1/3 页
2
CN 114420169 B
2出, 确定第三图像嵌入向量;
相应地, 融合所述第三音频嵌入向量、 所述第 三词嵌入向量和所述第 三图像嵌入向量,
生成第七融合特 征向量, 以基于所述第七融合特 征向量, 确定用户的当前情绪识别结果。
2.根据权利要求1所述的情绪识别方法, 其特征在于, 还包括: 采集不同用户的对话语
句样本, 以及与每 个所述对话语句样本相关的面部图像样本;
分别为每个所述对话语句 样本和所述面部图像样本标注一个情绪识别标签, 以构建样
本训练集;
将所述样本训练集中的对话语句 样本或面部图像样本, 按照预设顺序逐次对所述音频
识别子模型、 所述文字识别子模型和所述图像识别子模型进行训练。
3.根据权利要求2所述的情绪识别方法, 其特征在于, 将所述样本训练集中的对话语句
样本或面部图像样本, 按照预设顺序逐次对所述音频识别子模型、 所述文字识别子模型和
所述图像识别子模型进行训练之后, 包括:
在每轮训练之后, 重新排布所述样本训练集中的对话语句 样本以及面部图像样本的顺
序, 并利用重新排布后的样 本训练集, 重新对所述音 频识别子模型、 所述文字识别子模型和
所述图像识别子模型进行训练。
4.一种情绪识别装置, 其特 征在于, 包括:
第一处理单元, 用于获取当前对话语句相关的第一音频特征向量, 将所述第一音频特
征向量输入至音频识别子模型, 以根据所述音频识别子模型 的输出, 确定第一音频嵌入向
量;
第二处理单元, 用于获取所述当前对话语句相关的第一词向量, 将所述第一词向量输
入至文字识别子模型, 以根据所述文字识别子模型的输出, 确定第一词嵌入向量;
向量融合单元, 用于融合所述第一音频嵌入向量和所述第一词嵌入向量, 生成第一融
合特征向量;
情绪识别单 元, 用于基于所述第一融合特 征向量, 确定用户的当前情绪识别结果;
所述向量融合单元在融合所述第 一音频嵌入向量和所述第 一词嵌入向量, 生成第 一融
合特征向量之前, 还 包括:
获取在采集所述当前对话语句时用户的第 一面部图像, 将所述第 一面部图像输入至图
像识别子模型, 以根据所述图像识别子模型的输出, 确定第一图像嵌入向量;
融合所述第一音频嵌入向量、 所述第一词嵌入向量和所述第一图像嵌入向量, 生成第
二融合特 征向量;
基于所述第二融合特 征向量, 确定所述用户的当前情绪识别结果;
所述向量融合单 元在将所述第一音频 特征向量输入至音频识别子模型之前, 还 包括:
获取第二音频嵌入向量, 所述第 二音频嵌入向量是将所述当前对话语句的前一对话语
句相关的第二音频 特征向量输入至所述音频识别子模型后获取到的;
融合所述第二音频嵌入向量和所述第一音频 特征向量, 生成第二音频 特征向量;
将所述第二音频特征向量输入至所述音频识别子模型, 以根据 所述音频识别 子模型的
输出, 确定第三音频嵌入向量;
相应地, 融合所述第三音频嵌入向量和所述第 一词嵌入向量, 生成第 三融合特征向量,
以基于所述第三融合特 征向量, 确定用户的当前情绪识别结果;权 利 要 求 书 2/3 页
3
CN 114420169 B
3
专利 情绪识别方法、装置及机器人
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:39:02上传分享