安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210328824.6 (22)申请日 2022.03.31 (65)同一申请的已公布的文献号 申请公布号 CN 114420169 A (43)申请公布日 2022.04.29 (73)专利权人 北京沃丰时代数据科技有限公司 地址 100160 北京市丰台区汽车博物馆东 路6号3号楼1单 元2层201 (72)发明人 代勤 赵超 薛东伟 胡明櫆  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 聂俊伟 (51)Int.Cl. G10L 25/63(2013.01) G06V 40/16(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) 审查员 武金花 (54)发明名称 情绪识别方法、 装置及机 器人 (57)摘要 本发明提供一种情绪识别方法、 装置及机器 人, 所述方法包括: 获取当前对话语句的第一音 频特征向量, 将第一音 频特征向量输入至音 频识 别子模型确定第一音 频嵌入向量; 获取当前对话 语句的第一词向量, 将第一词向量输入至文字识 别子模型, 确定第一词嵌入向量; 融合第一音频 嵌入向量和第一词嵌入向量, 生成第一融合特征 向量; 基于第一融合特征向量, 确定用户的当前 情绪识别结果。 本发明提出了一种结合人机对话 相关的语音和文字相关的音频特征以及词向量 特征, 进行用户情绪分类识别, 克服了单一的基 于语音或人脸图像进行情绪分类识别存在的信 息损失的弊端, 能够显著地提升情绪分类识别的 精度。 权利要求书3页 说明书13页 附图3页 CN 114420169 B 2022.06.21 CN 114420169 B 1.一种情绪识别方法, 其特 征在于, 包括: 获取当前对话语句相关的第 一音频特征向量, 将所述第 一音频特征向量输入至音频识 别子模型, 以根据所述音频识别子模型的输出, 确定第一音频嵌入向量; 获取所述当前对话语句相关的第一词向量, 将所述第一词向量输入至文字识别子模 型, 以根据所述文字识别子模型的输出, 确定第一词嵌入向量; 融合所述第一音频嵌入向量和所述第一词嵌入向量, 生成第一融合特 征向量; 基于所述第一融合特 征向量, 确定用户的当前情绪识别结果; 在融合所述第一音频嵌入向量和所述第一词嵌入向量, 生成第一融合特征向量之前, 还包括: 获取在采集所述当前对话语句时用户的第 一面部图像, 将所述第 一面部图像输入至图 像识别子模型, 以根据所述图像识别子模型的输出, 确定第一图像嵌入向量; 融合所述第一音频嵌入向量、 所述第一词嵌入向量和所述第一图像嵌入向量, 生成第 二融合特 征向量; 基于所述第二融合特 征向量, 确定所述用户的当前情绪识别结果; 在将所述第一音频 特征向量输入至音频识别子模型之前, 还 包括: 获取第二音频嵌入向量, 所述第 二音频嵌入向量是将所述当前对话语句的前一对话语 句相关的第二音频 特征向量输入至所述音频识别子模型后获取到的; 融合所述第二音频嵌入向量和所述第一音频 特征向量, 生成第二音频 特征向量; 将所述第二音频特征向量输入至所述音频识别子模型, 以根据 所述音频识别 子模型的 输出, 确定第三音频嵌入向量; 相应地, 融合所述第三音频嵌入向量和所述第 一词嵌入向量, 生成第 三融合特征向量, 以基于所述第三融合特 征向量, 确定用户的当前情绪识别结果; 或者, 融合所述第三音频嵌入向量、 所述第一词嵌入向量和所述第一图像嵌入向量, 生 成第四融合特 征向量, 以基于所述第四融合特 征向量, 确定用户的当前情绪识别结果; 在将所述第一词向量输入至文字识别子模型之前还 包括: 获取第二词嵌入向量, 所述第 二词嵌入向量是将所述当前对话语句的前一对话语句相 关的第二词向量输入至所述文字识别子模型后获取到的; 融合所述第二词嵌入向量和所述第一词向量, 生成第二词向量; 将所述第二词向量输入至所述文字识别子模型, 以根据所述文字识别子模型的输出, 确定第三词嵌入向量; 相应地, 融合所述第三音频嵌入向量和所述第 三词嵌入向量, 生成第五融合特征向量, 以基于所述第五融合特 征向量, 确定用户的当前情绪识别结果; 或者, 融合所述第三音频嵌入向量、 所述第三词嵌入向量和所述第一图像嵌入向量, 生 成第六融合特 征向量, 以基于所述第六融合特 征向量, 确定用户的当前情绪识别结果; 在将所述第一 面部图像输入至图像识别子模型之前, 还 包括: 获取第二图像嵌入向量, 所述第 二图像嵌入向量是将所述当前对话语句的前一对话语 句相关的第二 面部图像, 输入至所述图像识别子模型后获取到的; 融合所述第二图像嵌入向量和所述第一 面部图像, 生成第二 面部图像; 将所述第二面部图像输入至所述图像识别子模型, 以根据所述图像识别子模型的输权 利 要 求 书 1/3 页 2 CN 114420169 B 2出, 确定第三图像嵌入向量; 相应地, 融合所述第三音频嵌入向量、 所述第 三词嵌入向量和所述第 三图像嵌入向量, 生成第七融合特 征向量, 以基于所述第七融合特 征向量, 确定用户的当前情绪识别结果。 2.根据权利要求1所述的情绪识别方法, 其特征在于, 还包括: 采集不同用户的对话语 句样本, 以及与每 个所述对话语句样本相关的面部图像样本; 分别为每个所述对话语句 样本和所述面部图像样本标注一个情绪识别标签, 以构建样 本训练集; 将所述样本训练集中的对话语句 样本或面部图像样本, 按照预设顺序逐次对所述音频 识别子模型、 所述文字识别子模型和所述图像识别子模型进行训练。 3.根据权利要求2所述的情绪识别方法, 其特征在于, 将所述样本训练集中的对话语句 样本或面部图像样本, 按照预设顺序逐次对所述音频识别子模型、 所述文字识别子模型和 所述图像识别子模型进行训练之后, 包括: 在每轮训练之后, 重新排布所述样本训练集中的对话语句 样本以及面部图像样本的顺 序, 并利用重新排布后的样 本训练集, 重新对所述音 频识别子模型、 所述文字识别子模型和 所述图像识别子模型进行训练。 4.一种情绪识别装置, 其特 征在于, 包括: 第一处理单元, 用于获取当前对话语句相关的第一音频特征向量, 将所述第一音频特 征向量输入至音频识别子模型, 以根据所述音频识别子模型 的输出, 确定第一音频嵌入向 量; 第二处理单元, 用于获取所述当前对话语句相关的第一词向量, 将所述第一词向量输 入至文字识别子模型, 以根据所述文字识别子模型的输出, 确定第一词嵌入向量; 向量融合单元, 用于融合所述第一音频嵌入向量和所述第一词嵌入向量, 生成第一融 合特征向量; 情绪识别单 元, 用于基于所述第一融合特 征向量, 确定用户的当前情绪识别结果; 所述向量融合单元在融合所述第 一音频嵌入向量和所述第 一词嵌入向量, 生成第 一融 合特征向量之前, 还 包括: 获取在采集所述当前对话语句时用户的第 一面部图像, 将所述第 一面部图像输入至图 像识别子模型, 以根据所述图像识别子模型的输出, 确定第一图像嵌入向量; 融合所述第一音频嵌入向量、 所述第一词嵌入向量和所述第一图像嵌入向量, 生成第 二融合特 征向量; 基于所述第二融合特 征向量, 确定所述用户的当前情绪识别结果; 所述向量融合单 元在将所述第一音频 特征向量输入至音频识别子模型之前, 还 包括: 获取第二音频嵌入向量, 所述第 二音频嵌入向量是将所述当前对话语句的前一对话语 句相关的第二音频 特征向量输入至所述音频识别子模型后获取到的; 融合所述第二音频嵌入向量和所述第一音频 特征向量, 生成第二音频 特征向量; 将所述第二音频特征向量输入至所述音频识别子模型, 以根据 所述音频识别 子模型的 输出, 确定第三音频嵌入向量; 相应地, 融合所述第三音频嵌入向量和所述第 一词嵌入向量, 生成第 三融合特征向量, 以基于所述第三融合特 征向量, 确定用户的当前情绪识别结果;权 利 要 求 书 2/3 页 3 CN 114420169 B 3

.PDF文档 专利 情绪识别方法、装置及机器人

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 情绪识别方法、装置及机器人 第 1 页 专利 情绪识别方法、装置及机器人 第 2 页 专利 情绪识别方法、装置及机器人 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:39:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。