语音活性检测方法及相关设备与流程

文档序号:37839377发布日期:2024-05-07 19:13阅读:17来源:国知局
语音活性检测方法及相关设备与流程

本申请涉及语音,尤其涉及一种语音活性检测方法及相关设备。


背景技术:

1、语音活性检测(voice?activity?detection,vad)是指采用语音技术在给定时间内的确定信号中是否存在人类语音,其通常作为基于语音应用的预处理,例如包括但不限于说话人识别、说话人分割、语音识别、关键词识别等。

2、相关技术中,通常采用单一的声学特征进行语音活性检测。然而,在低信噪比环境中,很难通过单一声学特征区分语音和各种平稳、非平稳噪音,导致检测结果不准确,进而导致后续基于检测结果执行的语音应用任务难以达到预期效果。


技术实现思路

1、本申请实施例的目的提供一种语音活性检测方法及相关设备,用于在帧级别上准确区分语音和非语音,提高语音活性检测的准确性。

2、为了实现上述目的,本申请实施例采用下述技术方案:

3、第一方面,本申请实施例提供一种语音活性检测方法,包括:

4、对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;

5、对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;

6、基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。

7、本申请实施例提供的语音活性检测方法,由于频域信号具有更易区分的特征,通过对待检测的语音数据进行频域变换,得到语音数据中信号帧的复数谱(complexspectrogram)和幅度谱,各个信号帧的复数谱可以反映语音数据的相位信息,各个信号帧的幅度谱可以反映语音数据的幅值随频率的变化情况;对于每个信号帧,通过将该信号帧的复数谱和幅度谱进行融合处理,由此得到的声学特征包含了信号帧在多个频域维度的重要信息,有利于增加各个信号帧的辨别度,以准确区分语音和非语音;进一步,基于各个信号帧的声学特征进行语音活性检测,即可实现在帧级别(frame?level)上准确识别语音数据中的语音和非语音,从而有利于提高基于检测结果的语音应用任务的执行效果。

8、第二方面,本申请实施例提供一种语音活性检测装置,包括:

9、变换单元,用于对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;

10、融合单元,用于对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;

11、检测单元,用于基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。

12、第三方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的语音活性检测方法。

13、第四方面,本申请实施例提供一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的语音活性检测方法。



技术特征:

1.一种语音活性检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述实部、所述虚部以及所述信号帧的幅度谱进行融合,得到所述信号帧的声学特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧是通过语音活性检测模型执行的;所述语音活性检测模型包括编码???、调制??橐约胺掷嗥?;

5.根据权利要求4所述的方法,其特征在于,所述声学特征包括时序特征和空间特征,所述调制??榘ㄊ庇虻髦颇?楹推涤虻髦颇??;

6.根据权利要求4所述的方法,其特征在于,所述调制??榘╪级调制子???,n为大于1的整数;

7.根据权利要求6所述的方法,其特征在于,所述声学特征包含n种特征信息;所述基于注意力机制和多个信号帧的时序信息,对所述声学特征图进行n级增强处理,得到n级候选特征图,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于注意力机制和多个信号帧的时序信息,对每个信号帧在第i-1级候选特征图中的第i种特征信息进行增强处理,得到第i级候选特征图,包括:

9.根据权利要求8所述的方法,其特征在于,每级调制子??榘ǖ谝痪砘?、第二卷积层和融合层,在第i级调制子??橹校?/p>

10.根据权利要求4所述的方法,其特征在于,在基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧之前,所述方法还包括:

11.一种语音活性检测装置,其特征在于,包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至10中任一项所述的语音活性检测方法。


技术总结
本申请公开了一种语音活性检测方法及相关设备。所述语音活性检测方法包括:对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。

技术研发人员:熊雪军
受?;さ募际跏褂谜撸?/b>马上消费金融股份有限公司
技术研发日:
技术公布日:2024/5/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im