本申请涉及语音,尤其涉及一种语音活性检测方法及相关设备。
背景技术:
1、语音活性检测(voice?activity?detection,vad)是指采用语音技术在给定时间内的确定信号中是否存在人类语音,其通常作为基于语音应用的预处理,例如包括但不限于说话人识别、说话人分割、语音识别、关键词识别等。
2、相关技术中,通常采用单一的声学特征进行语音活性检测。然而,在低信噪比环境中,很难通过单一声学特征区分语音和各种平稳、非平稳噪音,导致检测结果不准确,进而导致后续基于检测结果执行的语音应用任务难以达到预期效果。
技术实现思路
1、本申请实施例的目的提供一种语音活性检测方法及相关设备,用于在帧级别上准确区分语音和非语音,提高语音活性检测的准确性。
2、为了实现上述目的,本申请实施例采用下述技术方案:
3、第一方面,本申请实施例提供一种语音活性检测方法,包括:
4、对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;
5、对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;
6、基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。
7、本申请实施例提供的语音活性检测方法,由于频域信号具有更易区分的特征,通过对待检测的语音数据进行频域变换,得到语音数据中信号帧的复数谱(complexspectrogram)和幅度谱,各个信号帧的复数谱可以反映语音数据的相位信息,各个信号帧的幅度谱可以反映语音数据的幅值随频率的变化情况;对于每个信号帧,通过将该信号帧的复数谱和幅度谱进行融合处理,由此得到的声学特征包含了信号帧在多个频域维度的重要信息,有利于增加各个信号帧的辨别度,以准确区分语音和非语音;进一步,基于各个信号帧的声学特征进行语音活性检测,即可实现在帧级别(frame?level)上准确识别语音数据中的语音和非语音,从而有利于提高基于检测结果的语音应用任务的执行效果。
8、第二方面,本申请实施例提供一种语音活性检测装置,包括:
9、变换单元,用于对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;
10、融合单元,用于对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;
11、检测单元,用于基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。
12、第三方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的语音活性检测方法。
13、第四方面,本申请实施例提供一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的语音活性检测方法。
1.一种语音活性检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述实部、所述虚部以及所述信号帧的幅度谱进行融合,得到所述信号帧的声学特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧是通过语音活性检测模型执行的;所述语音活性检测模型包括编码???、调制??橐约胺掷嗥?;
5.根据权利要求4所述的方法,其特征在于,所述声学特征包括时序特征和空间特征,所述调制??榘ㄊ庇虻髦颇?楹推涤虻髦颇??;
6.根据权利要求4所述的方法,其特征在于,所述调制??榘╪级调制子???,n为大于1的整数;
7.根据权利要求6所述的方法,其特征在于,所述声学特征包含n种特征信息;所述基于注意力机制和多个信号帧的时序信息,对所述声学特征图进行n级增强处理,得到n级候选特征图,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于注意力机制和多个信号帧的时序信息,对每个信号帧在第i-1级候选特征图中的第i种特征信息进行增强处理,得到第i级候选特征图,包括:
9.根据权利要求8所述的方法,其特征在于,每级调制子??榘ǖ谝痪砘?、第二卷积层和融合层,在第i级调制子??橹校?/p>
10.根据权利要求4所述的方法,其特征在于,在基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧之前,所述方法还包括:
11.一种语音活性检测装置,其特征在于,包括:
12.一种电子设备,其特征在于,包括:
13.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至10中任一项所述的语音活性检测方法。