语音识别方法及相关装置、设备和存储介质与流程

文档序号:37768451发布日期:2024-04-25 10:54阅读:8来源:国知局
语音识别方法及相关装置、设备和存储介质与流程

本申请涉及语音处理,特别是涉及一种语音识别方法及相关装置、设备和存储介质。


背景技术:

1、随着语音识别技术的不断发展,能够将语音转换为文本,以提高语音应用的便利性。

2、现有技术中,通?;谘盗泛蟮挠镆羰侗鹉P褪迪帜勘暧镆舻氖侗?。但是,在训练过程中,语音识别模型容易诸如含噪声、异常值的样本数据干扰,或被经过细微修改、肉眼难以区分的对抗样本误导,从而削弱语音识别模型的准确性和鲁棒性。有鉴于此,如何提升语音识别的准确性和鲁棒性,成为亟待解决的问题。


技术实现思路

1、本申请主要解决的技术问题是提供一种语音识别方法及相关装置、设备和存储介质,能够提升语音识别的准确性和鲁棒性。

2、为了解决上述技术问题,本申请第一方面提供了一种语音识别方法,包括:获取待识别语音;基于语音识别模型对所述待识别语音进行识别,得到所述待识别语音的识别文本;其中,所述语音识别模型基于样本语音与语音合成模型联合训练得到,所述样本语音的标注信息至少包括样本真实文本,所述语音合成模型基于所述标注信息和所述语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音。

3、为了解决上述技术问题,本申请第二方面提供了一种语音识别装置,包括:获取??楹褪侗鹉??,获取??橛糜诨袢〈侗鹩镆?;识别??橛糜诨谟镆羰侗鹉P投源侗鹩镆艚惺侗?,得到待识别语音的识别文本;其中,语音识别模型基于样本语音与语音合成模型联合训练得到,样本语音的标注信息至少包括样本真实文本,语音合成模型基于标注信息和语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音。

4、为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音识别方法。

5、为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面所述的语音识别方法。

6、上述方案,基于语音识别模型对待识别语音进行识别,以得到待识别语音的识别文本,由于语音识别模型是基于样本语音与语音合成模型联合训练得到的,样本语音的标注信息至少包括样本真实文本,且语音合成模型基于标注信息和语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音,一方面,由于语音合成模型受语音识别模型中经遮蔽后的第一隐层特征驱动而合成语音,能够迫使语音合成模型的语音合成任务激励语音识别模型在识别过程中尽可能地在语音全局维度上关注语音特征,降低诸如噪声、异常值、细微修改等细节特征对语音识别模型的影响力,以提高语音识别模型的抗噪能力,另一方面,通过语音识别任务本身,以使得语音识别模型尽可能的学习到语音与识别文本之间的映射关系。故此,能提升语音识别的准确性和鲁棒性。



技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述语音识别模型与语音合成模型联合训练的步骤包括:

3.根据权利要求1或2所述的方法,其特征在于,所述语音识别模型包括目标编码器和目标解码器,在所述联合训练过程中所述目标编码器还与参考编码器共同训练,所述参考编码器用于编码所述合成语音,所述参考编码器与所述目标编码器结构相同,所述参考编码器在所述联合训练之后基于所述目标编码器更新得到的网络参数进行参数调整。

4.根据权利要求3所述的方法,其特征在于,所述语音识别模型与语音合成模型联合训练的步骤还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一参数和所述第二参数,更新得到所述参考编码器在当前轮次所述联合训练之后的网络参数,包括:

7.根据权利要求1所述的方法,其特征在于,所述标注信息还包括所述样本真实文本中样本字符在所述样本语音中的持续时长和所述样本语音的说话人信息。

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,至少包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的语音识别方法。

10.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至7任一项所述的语音识别方法。


技术总结
本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音;基于语音识别模型对所述待识别语音进行识别,得到所述待识别语音的识别文本;其中,所述语音识别模型基于样本语音与语音合成模型联合训练得到,所述样本语音的标注信息至少包括样本真实文本,所述语音合成模型基于所述标注信息和所述语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音。上述方案,能够提升语音识别的准确性和鲁棒性。

技术研发人员:吴子维,刘丹,刘聪,胡国平
受?;さ募际跏褂谜撸?/b>科大讯飞股份有限公司
技术研发日:
技术公布日:2024/4/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im