安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211256541.1 (22)申请日 2022.10.14 (71)申请人 北京师范大学 地址 100875 北京市海淀区新 街口外大街 19号 (72)发明人 张林焘 吴昊 别荣芳  (74)专利代理 机构 成都鱼爪智云知识产权代理 有限公司 513 08 专利代理师 杨洪婷 (51)Int.Cl. G10L 15/22(2006.01) G10L 17/04(2013.01) G10L 17/18(2013.01) G06K 9/62(2022.01) (54)发明名称 一种复杂声音场景下的声纹识别家电控制 方法和装置 (57)摘要 本发明提出了一种复杂声音场景下的声纹 识别家电控制方法和装置, 涉及家电控制领域。 模板音频充分考虑了复杂声音场景下的多种情 况, 具有较好的代表性, 为提升复杂声音场景下 的声纹识别精度奠定了基础。 利用基于模板音 频 的相似性检测模型、 基于SVM模型的声纹识别决 策模型、 基于卷积神经网络的声纹识别模型依次 进行判断, 提升了声纹识别的精度。 模型由简单 到复杂, 容易判断的音 频利用简单模 型即可得到 结果, 难以判断的音 频信号再用复杂模型得到结 果, 降低了 计算资源消耗。 权利要求书2页 说明书6页 附图3页 CN 115331673 A 2022.11.11 CN 115331673 A 1.一种复杂声 音场景下的声纹识别家电控制方法, 其特 征在于, 包括: 在多个声 音场景下, 分别录入特定家 庭成员的多段音频; 对多段音频进行编码; 编码之后, 计算每位家庭成员的音频两两之间的相似性, 保留一段相似度大于预设值 的音频, 并将保留下的所有 音频认定为模板音频; 将所有模板音频作为正训练样本, 并收集多个非特定家庭成员的音频作为负训练样 本, 利用机器学习模型进行训练, 得到声纹识别决策模型; 当家电使用人输出一段音频, 计算该段音频和模板音频的相似性, 若该段音频和任意 模板音频的相似性大于预设相似度, 直接识别为特定家庭成员的音频; 若该段音频和任意 模板音频的相似性均小于预设相似度, 则进行 下一步; 利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音 频。 2.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述机器学习模型为SVM模型。 3.根据权利要求2所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音 频的步骤 包括: 若基于SVM模型的声纹识别决策结果得分大于第一预设分数, 直接识别为特定家庭成 员的音频, 若基于SVM模 型的声纹识别决策结果得分小于第二预设分数, 直接识别为 非特定 家庭成员的音频, 若基于SVM模型 的声纹识别决策结果得分在第一预设分数与第二预设分 数之间, 则进行 下一步; 利用基于卷积神经网络的声纹识别模型对家电使用人的输出音频进行最终判定, 判断 是否为特定家 庭成员的音频。 4.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述当家电使用人输出一段音频, 计算该 段音频和模板音频的相似性的步骤 包括: 对该段音频和模板音频进行: 音频滤波、 计算音频信号短时能量、 截取音频信号有效数 据; 计算该段音频和模板音频的余弦距离 。 5.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述在多个声 音场景下, 分别录入特定家 庭成员的多段音频的步骤 包括: 在高噪音、 多人说话、 声 音较小的一种或多种情况 下录入特定家 庭成员的多段音频; 录入时, 控制每段音频的时长在5秒之内。 6.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述对多段音频进行编码的步骤 包括: 利用I‑Vector计算方法对多段音频进行编码。 7.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 收集多个非特定家 庭成员的音频作为负训练样本的步骤 包括: 收集50个以上的非特定家 庭成员的音频作为负训练样本 。 8.一种复杂声 音场景下的声纹识别家电控制装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115331673 A 2录入模块: 在多个声 音场景下, 分别录入特定家 庭成员的多段音频; 编码模块: 对多段音频进行编码; 计算相似性模块: 编码之后, 计算每位家庭成员的音频两两之间的相似性, 保留一段相 似度大于预设值的音频, 并将保留下的所有 音频认定为模板音频; 训练模块: 将所有模板音频作为正训练样本, 并收集多个非特定家庭成员的音频作为 负训练样本, 利用机器学习模型进行训练, 得到声纹识别决策模型; 识别模块: 当家电使用人输出一段音频, 计算该段音频和模板音频的相似性, 若该段音 频和任意模板音频的相似性大于预设相似度, 直接识别为特定家 庭成员的音频; 判断模块: 若该段音频和任意模板音频的相似性均小于预设相似度, 利用声纹识别决 策模型对家电使用人的输出音频进行判断是否为特定家 庭成员的音频。 9.一种电子设备, 其特 征在于, 包括: 至少一个处 理器、 至少一个存 储器和数据总线; 其中: 所述处理器与 所述存储器通过所述数据总 线完成相互间的通信; 所述存储器存储有可 被所述处理器执行的程序指 令, 所述处理器调用所述程序指 令以执行如权利要求1至7任一 所述的方法。 10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存 储计算机程序, 所述计算机程序使计算机执 行如权利要求1至7任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115331673 A 3

.PDF文档 专利 一种复杂声音场景下的声纹识别家电控制方法和装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种复杂声音场景下的声纹识别家电控制方法和装置 第 1 页 专利 一种复杂声音场景下的声纹识别家电控制方法和装置 第 2 页 专利 一种复杂声音场景下的声纹识别家电控制方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:41:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。