模型训练方法、电子设备、存储介质及程序产品与流程

文档序号：37777786发布日期：2024-04-25 11:04阅读：44来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及一种模型训练方法、电子设备、存储介质及程序产品。

背景技术：

1、语音识别也称为自动语音识别(automatic?speech?recognition，asr)，其目标是用电脑自动将人类的语音内容转换为相应的文字。由于深度学习和数据技术的进步，近年来语音识别技术取得了长足的进步。

2、现有技术中，一般通过预先训练的语音识别模型实现语音识别，而训练语音识别模型的过程中需要准备大量的语音数据和对应的文本数据，上述数据一般通过人工方式获取。

3、然而，采用人工方式获取数据的效率较低，导致语音识别模型的训练效率较低；且采用人工方式获取的语音数据训练语音识别模型，模型的鲁棒性较差。

技术实现思路

1、本公开提供了一种模型训练方法、电子设备、存储介质及程序产品。

2、根据本公开的一个方面，提供一种模型训练方法，包括：

3、获取多媒体文件集；

4、对于所述多媒体文件集中任一多媒体文件，将该多媒体文件的语音输入第一语音识别模型，得到语音识别结果；

5、对该多媒体文件的字幕进行光学字符识别，得到文本识别结果；

6、根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。

7、根据本公开的至少一个实施方式的模型训练方法，在所述对该多媒体文件的字幕进行光学字符识别之前，还包括：

8、获取所述语音识别结果中句子对应的起始时间和终止时间；

9、所述对该多媒体文件的字幕进行光学字符识别，包括：根据句子对应的起始时间和终止时间对该多媒体文件的字幕进行光学字符识别。

10、根据本公开的至少一个实施方式的模型训练方法，所述根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型，包括：

11、根据所述语音识别结果和文本识别结果获取字误率；

12、根据所述语音识别结果、文本识别结果和字误率确定目标识别结果；

13、根据所述多媒体文件集中多媒体文件的语音和目标识别结果训练所述第二语音识别模型。

14、根据本公开的至少一个实施方式的模型训练方法，所述根据所述语音识别结果和文本识别结果获取字误率，包括：

15、将所述语音识别结果作为参考文本，获取所述文本识别结果的字误率；或者，

16、将所述文本识别结果作为参考文本，获取所述语音识别结果的字误率。

17、根据本公开的至少一个实施方式的模型训练方法，所述将所述语音识别结果作为参考文本获取字误率时，所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果，包括：

18、判断所述语音识别结果中句子的字误率是否小于预设第一阈值；

19、如果小于，将该句子对应的文本识别结果作为所述目标识别结果；

20、如果不小于，将该句子对应的语音识别结果作为所述目标识别结果。

21、根据本公开的至少一个实施方式的模型训练方法，所述将所述语音识别结果作为参考文本计算字误率时，所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果，还包括：

22、判断所述语音识别结果中句子的字误率是否小于预设第二阈值；

23、如果不小于，推移该句子对应的多媒体文件，得到推移文件；

24、对所述推移文件的字幕进行光学字符识别，得到推移识别结果；

25、根据该句子的语音识别结果和推移识别结果确定目标识别结果。

26、根据本公开的至少一个实施方式的模型训练方法，在所述根据该句子的语音识别结果和推移识别结果确定目标识别结果之前，还包括：

27、根据该句子对应的文本识别结果和推移识别结果获取变化率；

28、判断所述变化率是否超过预设第三阈值；

29、如果不超过，将该句子对应的语音识别结果作为所述目标识别结果；

30、如果超过，执行根据该句子的语音识别结果和推移识别结果确定目标识别结果步骤。

31、根据本公开的另一个方面，提供一种电子设备，包括：存储器，所述存储器存储执行指令；处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行本公开任一个实施方式的模型训练方法。

32、根据本公开的又一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开任一个实施方式的模型训练方法。

33、根据本公开的再一个方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本公开任一个实施方式的模型训练方法。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，

3.根据权利要求1或2所述的模型训练方法，其特征在于，所述根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述根据所述语音识别结果和文本识别结果获取字误率，包括：

5.根据权利要求3所述的模型训练方法，其特征在于，所述将所述语音识别结果作为参考文本获取字误率时，所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果，包括：

6.根据权利要求5所述模型训练方法，其特征在于，所述将所述语音识别结果作为参考文本计算字误率时，所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果，还包括：

7.根据权利要求6所述的模型训练方法，其特征在于，在所述根据该句子的语音识别结果和推移识别结果确定目标识别结果之前，还包括：

8.一种电子设备，其特征在于，包括：

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时实现如权利要求1至7中任一项所述的模型训练方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的模型训练方法。

技术总结
本公开提供了模型训练方法、电子设备、存储介质及程序产品。本公开还提供的模型训练方法包括：获取多媒体文件集；对于多媒体文件集中任一多媒体文件，将该多媒体文件的语音输入第一语音识别模型，得到语音识别结果；对该多媒体文件的字幕进行光学字符识别，得到文本识别结果；根据多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。

技术研发人员：张莉娜,魏光辉,宋莎莎
受?；さ募际跏褂谜撸?/b>出门问问（苏州）信息科技有限公司
技术研发日：
技术公布日：2024/4/24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张莉娜,魏光辉,宋莎莎
技术所有人：出门问问（苏州）信息科技有限公司
我是此专利的发明人

上一篇：一种便于牢固安装的空气滤清器的制作方法
上一篇：一种建筑装修装饰用物料提升装置的制作方法

相关技术

一种基于分层无注意力模型的语...
基于扩散模型的语音水印注入及...
可调式微穿孔板吸声系统、控制...
一种基于孪生网络的集水井水位...
具有空间元数据输出的音乐合成...
一种融合声码器和相位估计的语...
语音降噪方法、电子设备、存储...
降噪模型的选择方法、存储介质...
一种基于人工智能技术的高容量...
语音识别方法、装置、电子设备...

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

模型训练方法、电子设备、存储介质及程序产品与流程

模型训练方法、电子设备、存储介质及程序产品与流程