专利 情绪识别方法、装置及机器人

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210328824.6 (22)申请日 2022.03.31 (65)同一申请的已公布的文献号申请公布号 CN 114420169 A (43)申请公布日 2022.04.29 (73)专利权人北京沃丰时代数据科技有限公司地址 100160 北京市丰台区汽车博物馆东路6号3号楼1单元2层201 (72)发明人代勤　赵超　薛东伟　胡明櫆　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师聂俊伟 (51)Int.Cl. G10L 25/63(2013.01) G06V 40/16(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) 审查员武金花 (54)发明名称情绪识别方法、装置及机器人 (57)摘要本发明提供一种情绪识别方法、装置及机器人，所述方法包括：获取当前对话语句的第一音频特征向量，将第一音频特征向量输入至音频识别子模型确定第一音频嵌入向量；获取当前对话语句的第一词向量，将第一词向量输入至文字识别子模型，确定第一词嵌入向量；融合第一音频嵌入向量和第一词嵌入向量，生成第一融合特征向量；基于第一融合特征向量，确定用户的当前情绪识别结果。本发明提出了一种结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。权利要求书3页说明书13页附图3页 CN 114420169 B 2022.06.21 CN 114420169 B 1.一种情绪识别方法，其特征在于，包括：获取当前对话语句相关的第一音频特征向量，将所述第一音频特征向量输入至音频识别子模型，以根据所述音频识别子模型的输出，确定第一音频嵌入向量；获取所述当前对话语句相关的第一词向量，将所述第一词向量输入至文字识别子模型，以根据所述文字识别子模型的输出，确定第一词嵌入向量；融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；基于所述第一融合特征向量，确定用户的当前情绪识别结果；在融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量之前，还包括：获取在采集所述当前对话语句时用户的第一面部图像，将所述第一面部图像输入至图像识别子模型，以根据所述图像识别子模型的输出，确定第一图像嵌入向量；融合所述第一音频嵌入向量、所述第一词嵌入向量和所述第一图像嵌入向量，生成第二融合特征向量；基于所述第二融合特征向量，确定所述用户的当前情绪识别结果；在将所述第一音频特征向量输入至音频识别子模型之前，还包括：获取第二音频嵌入向量，所述第二音频嵌入向量是将所述当前对话语句的前一对话语句相关的第二音频特征向量输入至所述音频识别子模型后获取到的；融合所述第二音频嵌入向量和所述第一音频特征向量，生成第二音频特征向量；将所述第二音频特征向量输入至所述音频识别子模型，以根据所述音频识别子模型的输出，确定第三音频嵌入向量；相应地，融合所述第三音频嵌入向量和所述第一词嵌入向量，生成第三融合特征向量，以基于所述第三融合特征向量，确定用户的当前情绪识别结果；或者，融合所述第三音频嵌入向量、所述第一词嵌入向量和所述第一图像嵌入向量，生成第四融合特征向量，以基于所述第四融合特征向量，确定用户的当前情绪识别结果；在将所述第一词向量输入至文字识别子模型之前还包括：获取第二词嵌入向量，所述第二词嵌入向量是将所述当前对话语句的前一对话语句相关的第二词向量输入至所述文字识别子模型后获取到的；融合所述第二词嵌入向量和所述第一词向量，生成第二词向量；将所述第二词向量输入至所述文字识别子模型，以根据所述文字识别子模型的输出，确定第三词嵌入向量；相应地，融合所述第三音频嵌入向量和所述第三词嵌入向量，生成第五融合特征向量，以基于所述第五融合特征向量，确定用户的当前情绪识别结果；或者，融合所述第三音频嵌入向量、所述第三词嵌入向量和所述第一图像嵌入向量，生成第六融合特征向量，以基于所述第六融合特征向量，确定用户的当前情绪识别结果；在将所述第一面部图像输入至图像识别子模型之前，还包括：获取第二图像嵌入向量，所述第二图像嵌入向量是将所述当前对话语句的前一对话语句相关的第二面部图像，输入至所述图像识别子模型后获取到的；融合所述第二图像嵌入向量和所述第一面部图像，生成第二面部图像；将所述第二面部图像输入至所述图像识别子模型，以根据所述图像识别子模型的输权　利　要　求　书 1/3 页 2 CN 114420169 B 2出，确定第三图像嵌入向量；相应地，融合所述第三音频嵌入向量、所述第三词嵌入向量和所述第三图像嵌入向量，生成第七融合特征向量，以基于所述第七融合特征向量，确定用户的当前情绪识别结果。 2.根据权利要求1所述的情绪识别方法，其特征在于，还包括：采集不同用户的对话语句样本，以及与每个所述对话语句样本相关的面部图像样本；分别为每个所述对话语句样本和所述面部图像样本标注一个情绪识别标签，以构建样本训练集；将所述样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练。 3.根据权利要求2所述的情绪识别方法，其特征在于，将所述样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练之后，包括：在每轮训练之后，重新排布所述样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练。 4.一种情绪识别装置，其特征在于，包括：第一处理单元，用于获取当前对话语句相关的第一音频特征向量，将所述第一音频特征向量输入至音频识别子模型，以根据所述音频识别子模型的输出，确定第一音频嵌入向量；第二处理单元，用于获取所述当前对话语句相关的第一词向量，将所述第一词向量输入至文字识别子模型，以根据所述文字识别子模型的输出，确定第一词嵌入向量；向量融合单元，用于融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；情绪识别单元，用于基于所述第一融合特征向量，确定用户的当前情绪识别结果；所述向量融合单元在融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量之前，还包括：获取在采集所述当前对话语句时用户的第一面部图像，将所述第一面部图像输入至图像识别子模型，以根据所述图像识别子模型的输出，确定第一图像嵌入向量；融合所述第一音频嵌入向量、所述第一词嵌入向量和所述第一图像嵌入向量，生成第二融合特征向量；基于所述第二融合特征向量，确定所述用户的当前情绪识别结果；所述向量融合单元在将所述第一音频特征向量输入至音频识别子模型之前，还包括：获取第二音频嵌入向量，所述第二音频嵌入向量是将所述当前对话语句的前一对话语句相关的第二音频特征向量输入至所述音频识别子模型后获取到的；融合所述第二音频嵌入向量和所述第一音频特征向量，生成第二音频特征向量；将所述第二音频特征向量输入至所述音频识别子模型，以根据所述音频识别子模型的输出，确定第三音频嵌入向量；相应地，融合所述第三音频嵌入向量和所述第一词嵌入向量，生成第三融合特征向量，以基于所述第三融合特征向量，确定用户的当前情绪识别结果；权　利　要　求　书 2/3 页 3 CN 114420169 B 3

专利 情绪识别方法、装置及机器人

专利情绪识别方法、装置及机器人