安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211256541.1 (22)申请日 2022.10.14 (71)申请人 北京师范大学 地址 100875 北京市海淀区新 街口外大街 19号 (72)发明人 张林焘 吴昊 别荣芳 (74)专利代理 机构 成都鱼爪智云知识产权代理 有限公司 513 08 专利代理师 杨洪婷 (51)Int.Cl. G10L 15/22(2006.01) G10L 17/04(2013.01) G10L 17/18(2013.01) G06K 9/62(2022.01) (54)发明名称 一种复杂声音场景下的声纹识别家电控制 方法和装置 (57)摘要 本发明提出了一种复杂声音场景下的声纹 识别家电控制方法和装置, 涉及家电控制领域。 模板音频充分考虑了复杂声音场景下的多种情 况, 具有较好的代表性, 为提升复杂声音场景下 的声纹识别精度奠定了基础。 利用基于模板音 频 的相似性检测模型、 基于SVM模型的声纹识别决 策模型、 基于卷积神经网络的声纹识别模型依次 进行判断, 提升了声纹识别的精度。 模型由简单 到复杂, 容易判断的音 频利用简单模 型即可得到 结果, 难以判断的音 频信号再用复杂模型得到结 果, 降低了 计算资源消耗。 权利要求书2页 说明书6页 附图3页 CN 115331673 A 2022.11.11 CN 115331673 A 1.一种复杂声 音场景下的声纹识别家电控制方法, 其特 征在于, 包括: 在多个声 音场景下, 分别录入特定家 庭成员的多段音频; 对多段音频进行编码; 编码之后, 计算每位家庭成员的音频两两之间的相似性, 保留一段相似度大于预设值 的音频, 并将保留下的所有 音频认定为模板音频; 将所有模板音频作为正训练样本, 并收集多个非特定家庭成员的音频作为负训练样 本, 利用机器学习模型进行训练, 得到声纹识别决策模型; 当家电使用人输出一段音频, 计算该段音频和模板音频的相似性, 若该段音频和任意 模板音频的相似性大于预设相似度, 直接识别为特定家庭成员的音频; 若该段音频和任意 模板音频的相似性均小于预设相似度, 则进行 下一步; 利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音 频。 2.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述机器学习模型为SVM模型。 3.根据权利要求2所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音 频的步骤 包括: 若基于SVM模型的声纹识别决策结果得分大于第一预设分数, 直接识别为特定家庭成 员的音频, 若基于SVM模 型的声纹识别决策结果得分小于第二预设分数, 直接识别为 非特定 家庭成员的音频, 若基于SVM模型 的声纹识别决策结果得分在第一预设分数与第二预设分 数之间, 则进行 下一步; 利用基于卷积神经网络的声纹识别模型对家电使用人的输出音频进行最终判定, 判断 是否为特定家 庭成员的音频。 4.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述当家电使用人输出一段音频, 计算该 段音频和模板音频的相似性的步骤 包括: 对该段音频和模板音频进行: 音频滤波、 计算音频信号短时能量、 截取音频信号有效数 据; 计算该段音频和模板音频的余弦距离 。 5.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述在多个声 音场景下, 分别录入特定家 庭成员的多段音频的步骤 包括: 在高噪音、 多人说话、 声 音较小的一种或多种情况 下录入特定家 庭成员的多段音频; 录入时, 控制每段音频的时长在5秒之内。 6.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 所述对多段音频进行编码的步骤 包括: 利用I‑Vector计算方法对多段音频进行编码。 7.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法, 其特征在于, 收集多个非特定家 庭成员的音频作为负训练样本的步骤 包括: 收集50个以上的非特定家 庭成员的音频作为负训练样本 。 8.一种复杂声 音场景下的声纹识别家电控制装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115331673 A 2录入模块: 在多个声 音场景下, 分别录入特定家 庭成员的多段音频; 编码模块: 对多段音频进行编码; 计算相似性模块: 编码之后, 计算每位家庭成员的音频两两之间的相似性, 保留一段相 似度大于预设值的音频, 并将保留下的所有 音频认定为模板音频; 训练模块: 将所有模板音频作为正训练样本, 并收集多个非特定家庭成员的音频作为 负训练样本, 利用机器学习模型进行训练, 得到声纹识别决策模型; 识别模块: 当家电使用人输出一段音频, 计算该段音频和模板音频的相似性, 若该段音 频和任意模板音频的相似性大于预设相似度, 直接识别为特定家 庭成员的音频; 判断模块: 若该段音频和任意模板音频的相似性均小于预设相似度, 利用声纹识别决 策模型对家电使用人的输出音频进行判断是否为特定家 庭成员的音频。 9.一种电子设备, 其特 征在于, 包括: 至少一个处 理器、 至少一个存 储器和数据总线; 其中: 所述处理器与 所述存储器通过所述数据总 线完成相互间的通信; 所述存储器存储有可 被所述处理器执行的程序指 令, 所述处理器调用所述程序指 令以执行如权利要求1至7任一 所述的方法。 10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存 储计算机程序, 所述计算机程序使计算机执 行如权利要求1至7任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115331673 A 3
专利 一种复杂声音场景下的声纹识别家电控制方法和装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:41:48
上传分享
举报
下载
原文档
(541.6 KB)
分享
友情链接
GB-T 40665.1-2021 中医四诊操作规范 第1部分:望诊.pdf
GB-T 28827.4-2019 信息技术服务 运行维护 第4部分:数据中心服务要求.pdf
GB-T 37033.1-2018 信息安全技术 射频识别系统密码应用技术要求 第1部分:密码安全保护.pdf
TB-T 2231.2-2018 铁道车辆制动系统 第2部分:货车.pdf
GB-T 29455-2012 照明设施经济运行.pdf
GB-T 14055.1-2008 中子参考辐射 第1部分:辐射特性和产生方法.pdf
GB-T 38702-2020 供应链安全管理体系 实施供应链安全、评估和计划的最佳实践 要求和指南.pdf
GB-T 33573-2017 集装箱安全智能锁阅读器通用技术规范.pdf
T-ZBDIA 0001—2020 多功能装配式铝合金门窗系统.pdf
GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南.pdf
GB-T 22719.1-2008 交流低压电机散嵌绕组匝间绝缘 第1部分:试验方法.pdf
GB-T 31960.7-2015 电力能效监测系统技术规范 第7部分:电力能效监测终端技术条件.pdf
GB-T 20274.2-2008 信息安全技术 信息系统安全保障评估框架 第2部分:技术保障.pdf
北京市 网络与信息安全系统事件应急预案.pdf
GB-T 14206-2015 玻璃纤维增强聚酯连续板.pdf
GB-T 5594.4-2015 电子元器件结构陶瓷材料性能测试方法 第4部分:介电常数和介质损耗角正切值的测试方法.pdf
DB3301-T 0233—2018 数字化城市管理无人机信息采集管理规范 杭州市.pdf
DB23-T 3226—2022 湿地鸟类生物多样性监测技术规程 黑龙江省.pdf
GB-T 4622.1-2022 管法兰用缠绕式垫片 第1部分:PN系列.pdf
GB-T 18107-2017 红木.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(541.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。