语音活性检测方法及相关设备与流程

文档序号：37839377发布日期：2024-05-07 19:13阅读：17来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及语音，尤其涉及一种语音活性检测方法及相关设备。

背景技术：

1、语音活性检测(voice?activity?detection，vad)是指采用语音技术在给定时间内的确定信号中是否存在人类语音，其通常作为基于语音应用的预处理，例如包括但不限于说话人识别、说话人分割、语音识别、关键词识别等。

2、相关技术中，通常采用单一的声学特征进行语音活性检测。然而，在低信噪比环境中，很难通过单一声学特征区分语音和各种平稳、非平稳噪音，导致检测结果不准确，进而导致后续基于检测结果执行的语音应用任务难以达到预期效果。

技术实现思路

1、本申请实施例的目的提供一种语音活性检测方法及相关设备，用于在帧级别上准确区分语音和非语音，提高语音活性检测的准确性。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种语音活性检测方法，包括：

4、对待检测的语音数据进行频域变换，得到所述语音数据中信号帧的复数谱和幅度谱；

5、对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征；

6、基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧。

7、本申请实施例提供的语音活性检测方法，由于频域信号具有更易区分的特征，通过对待检测的语音数据进行频域变换，得到语音数据中信号帧的复数谱(complexspectrogram)和幅度谱，各个信号帧的复数谱可以反映语音数据的相位信息，各个信号帧的幅度谱可以反映语音数据的幅值随频率的变化情况；对于每个信号帧，通过将该信号帧的复数谱和幅度谱进行融合处理，由此得到的声学特征包含了信号帧在多个频域维度的重要信息，有利于增加各个信号帧的辨别度，以准确区分语音和非语音；进一步，基于各个信号帧的声学特征进行语音活性检测，即可实现在帧级别(frame?level)上准确识别语音数据中的语音和非语音，从而有利于提高基于检测结果的语音应用任务的执行效果。

8、第二方面，本申请实施例提供一种语音活性检测装置，包括：

9、变换单元，用于对待检测的语音数据进行频域变换，得到所述语音数据中信号帧的复数谱和幅度谱；

10、融合单元，用于对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征；

11、检测单元，用于基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧。

12、第三方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语音活性检测方法。

13、第四方面，本申请实施例提供一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的语音活性检测方法。

技术特征：

1.一种语音活性检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述实部、所述虚部以及所述信号帧的幅度谱进行融合，得到所述信号帧的声学特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧是通过语音活性检测模型执行的；所述语音活性检测模型包括编码?？?、调制?？橐约胺掷嗥?；

5.根据权利要求4所述的方法，其特征在于，所述声学特征包括时序特征和空间特征，所述调制?？榘ㄊ庇虻髦颇？楹推涤虻髦颇？?；

6.根据权利要求4所述的方法，其特征在于，所述调制?？榘╪级调制子?？?，n为大于1的整数；

7.根据权利要求6所述的方法，其特征在于，所述声学特征包含n种特征信息；所述基于注意力机制和多个信号帧的时序信息，对所述声学特征图进行n级增强处理，得到n级候选特征图，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于注意力机制和多个信号帧的时序信息，对每个信号帧在第i-1级候选特征图中的第i种特征信息进行增强处理，得到第i级候选特征图，包括：

9.根据权利要求8所述的方法，其特征在于，每级调制子?？榘ǖ谝痪砘?、第二卷积层和融合层，在第i级调制子?？橹校?/p>

10.根据权利要求4所述的方法，其特征在于，在基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧之前，所述方法还包括：

11.一种语音活性检测装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至10中任一项所述的语音活性检测方法。

技术总结
本申请公开了一种语音活性检测方法及相关设备。所述语音活性检测方法包括：对待检测的语音数据进行频域变换，得到所述语音数据中信号帧的复数谱和幅度谱；对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征；基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧。

技术研发人员：熊雪军
受?；さ募际跏褂谜撸?/b>马上消费金融股份有限公司
技术研发日：
技术公布日：2024/5/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊雪军
技术所有人：马上消费金融股份有限公司
我是此专利的发明人

上一篇：一种三通水涨成型机的制作方法
上一篇：一种单硬脂酸甘油酯制备用蒸馏装置的制作方法

相关技术

文本处理方法及装置与流程
一种语音合成方法及其装置、电...
车辆中音量控制方法、车辆、电...
奥尔夫乐器的制作方法
一种防滑拨片的制作方法
一种带有活动支架的民鼓的制作...
词库生成方法、词库生成装置、...
通话设备操作指引方法、装置、...
鸡群声纹分析仪器的制作方法
语音识别方法、装置、电子设备...

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！