音频处理模型的训练方法及装置、存储介质、电子设备与流程

文档序号：37769007发布日期：2024-04-25 10:55阅读：41来源：国知局

所属的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“?？椤被颉跋低场?。下面参照图16来描述根据本公开的这种实施方式的电子设备1600。图16显示的电子设备1600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。如图16所示，电子设备1600以通用计算设备的形式表现。电子设备1600的组件可以包括但不限于：上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同系统组件(包括存储单元1620和处理单元1610)的总线1630以及显示单元1640。其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1610执行，使得所述处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1610可以执行如图1中所示的：步骤s110，获取训练样本集；训练样本集包括第一样本集和第二样本集；步骤s120，利用第一样本集对待训练的音频处理模型的第一分支网络进行预训练，获得预训练的第一分支网络，以及，利用第二样本集对待训练的音频处理模型的第二分支网络进行预训练，获得预训练的第二分支网络；其中，第一分支网络用于执行回声消除和语音增强任务，第二分支网络用于执行语音端点检测任务；步骤s130，利用训练样本集对预训练的第一分支网络和预训练的第二分支网络进行联合训练，获得训练好的音频处理模型。存储单元1620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)16201和/或高速缓存存储单元16202，还可以进一步包括只读存储单元(rom)16203。存储单元1620还可以包括具有一组(至少一个)程序?？?6205的程序/实用工具16204，这样的程序?？?6205包括但不限于：操作系统、一个或者多个应用程序、其它程序?？橐约俺绦蚴?，这些示例中的每一个或某种组合中可能包括网络环境的实现。总线1630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备1600也可以与一个或多个外部设备1700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1600交互的设备通信，和/或与使得该电子设备1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1650进行。并且，电子设备1600还可以通过网络适配器1660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器1660通过总线1630与电子设备1600的其它?？橥ㄐ?。应当明白，尽管图中未示出，可以结合电子设备1600使用其它硬件和/或软件?？?，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

背景技术：

1、随着科技的进步，远程会议已经成为提高工作效率、减少出差成本、随时随地可以进行的一个重要场景。该场景下的语音交互体验非常依赖对声学信号的处理效果，上游主要包括声学回声消除(aec，acoustic?echo?cancellation)、语音增强(se，speechenhancement)等，如果需要备份会议内容，还需要下游的语音端点检测(vad，voiceactivity?detection)和语音识别(asr，automatic?speech?recognition，自动语音识别)等后续功能。

2、相关技术中，一般是通过多个单独的?？槿ブ葱猩鲜龆喔鲂藕糯砣挝?，然而，该方案会导致更长的音频处理流程，从而，导致系统功耗增加。

3、鉴于此，本领域亟需开发一种新的音频处理模型的训练方法及装置。

4、需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

1、本公开的目的在于提供一种音频处理模型的训练方法、音频处理模型的训练装置、计算机存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的系统功耗高的技术问题。

2、本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

3、根据本公开的第一方面，提供一种音频处理模型的训练方法，包括：

4、获取训练样本集；所述训练样本集包括第一样本集和第二样本集；

5、利用所述第一样本集对待训练的音频处理模型的第一分支网络进行预训练，获得预训练的第一分支网络，以及，利用所述第二样本集对所述待训练的音频处理模型的第二分支网络进行预训练，获得预训练的第二分支网络；

6、利用所述训练样本集对所述预训练的第一分支网络和所述预训练的第二分支网络进行联合训练，获得训练好的所述音频处理模型；

7、其中，所述第一分支网络用于执行回声消除和语音增强任务，所述第二分支网络用于执行语音端点检测任务。

8、在本公开的示例性实施例中，所述第一样本集通过以下方式获得：

9、获取第三样本集和第四样本集；所述第三样本集或所述第四样本集中包含多个训练样本，所述第三样本集或所述第四样本集的每个训练样本中包含远端传输至近端的音频信号、远端标准音频信号和近端采集到的音频信号；

10、按照预设比例关系，从所述第三样本集中选取第一目标数量的训练样本，以及，从所述第四样本集中选取第二目标数量的训练样本；所述第一目标数量和所述第二目标数量的比值满足预设比值条件；

11、将所述第一目标数量的训练样本和所述第二目标数量的训练样本进行混合，得到所述第一样本集。

12、在本公开的示例性实施例中，所述第三样本集通过以下方式得到：

13、从预设的海量干净音频样本中随机选取第一干净音频和第二干净音频，将所述第一干净音频作为所述远端传输至近端的音频信号，将所述第二干净音频作为所述远端标准音频信号；

14、对所述远端传输至近端的音频信号进行模拟化处理，获得模拟音频信号；

15、将所述模拟音频信号和所述远端标准音频信号进行混合，获得所述近端采集到的音频信号。

16、在本公开的示例性实施例中，所述对所述远端传输至近端的音频信号进行模拟化处理，获得模拟音频信号，包括：

17、为所述远端传输至近端的音频信号加入处于预设时长范围内的随机时延，获得第一变换音频信号；

18、为所述第一变换音频信号加入随机噪声，获得第二变换音频信号；

19、为所述第二变换音频信号加入非线性扰动，获得第三变换音频信号；

20、为所述第三变换音频信号加入随机混响，获得所述模拟音频信号。

21、在本公开的示例性实施例中，所述将所述模拟音频信号和所述远端标准音频信号进行混合，获得所述近端采集到的音频信号，包括：

22、为所述近端标准音频信号加入随机噪声，获得目标音频信号；

23、对所述模拟音频信号和所述目标音频信号进行混合，获得所述近端采集到的音频信号。

24、在本公开的示例性实施例中，所述第四样本集通过以下方式获得：

25、从预设的海量干净音频样本中随机选取第一干净音频和第二干净音频，将所述第二干净音频作为所述远端标准音频信号；

26、对所述第一干净音频进行随机加噪，获得所述近端采集到的音频信号；

27、将与所述近端采集到的音频信号长度相等的非全零静音信号作为所述远端传输至近端的音频信号；

28、所述非全零静音为由0和1组成的信号序列所对应的静音信号。

29、在本公开的示例性实施例中，所述第一样本集中包含远端传输至近端的音频信号、远端标准音频信号和近端采集到的音频信号；

30、所述利用所述第一样本集对待训练的音频处理模型的第一分支网络进行预训练，获得预训练的第一分支网络，包括：

31、通过所述第一分支网络对所述近端采集到的音频信号、所述远端传输至近端的音频信号进行信号变换与合成处理，获得输出信号；

32、根据所述输出信号和所述远端标准音频信号之间的信号差异程度，确定第一损失值；

33、根据所述第一损失值对所述第一分支网络进行迭代训练，获得所述预训练的第一分支网络。

34、在本公开的示例性实施例中，所述第一分支网络包括傅里叶变换单元、编码单元、长程依赖捕捉单元和解码单元，所述解码单元和所述编码单元之间为残差跳跃连接结构；

35、所述通过所述第一分支网络对所述近端采集到的音频信号、所述远端传输至近端的音频信号进行信号变换与合成处理，获得输出信号，包括：

36、通过所述傅里叶变换单元对所述远端传输至近端的音频信号进行傅里叶变换，获得第一变换音频信号；

37、通过所述编码单元对所述第一变换音频信号进行编码处理，获得编码信息；

38、通过所述长程依赖捕捉单元对所述编码特征进行长程依赖捕捉，获得长程依赖信息；

39、通过所述解码单元和所述编码单元传递的残差信息进行解码处理，获得所述输出信号。

40、在本公开的示例性实施例中，所述根据所述输出信号和所述远端标准音频信号之间的信号差异程度，确定第一损失值，包括：

41、根据所述输出信号和所述远端标准音频信号在时域上的信号差异程度，确定时域损失；

42、根据所述输出信号和所述远端标准音频信号在频域上的信号差异程度，确定频域损失；

43、根据所述时域损失和所述频域损失，确定所述第一损失值。

44、在本公开的示例性实施例中，所述根据所述输出信号和所述远端标准音频信号在时域上的信号差异程度，确定时域损失，包括：

45、对所述输出信号进行傅里叶逆变换，得到时域信号；

46、基于预设的时域损失计算公式、所述时域信号的强度和所述远端标准音频信号的强度，确定所述时域损失。

47、在本公开的示例性实施例中，所述根据所述输出信号和所述远端标准音频信号在频域上的信号差异程度，确定频域损失，包括：

48、根据所述时域信号的频域转换结果和所述远端标准音频信号的频域转换结果之间的比值，确定所述频域损失。

49、在本公开的示例性实施例中，所述第二样本集中包含所述远端标准音频信号以及所述远端标准音频信号对应的真实语音识别标签，所述真实语音识别标签用于表征所述远端标准音频信号的每帧信号是否为语音信号；

50、所述利用所述第二样本集对所述待训练的音频处理模型的第二分支网络进行预训练，获得预训练的第二分支网络，包括：

51、通过所述第二分支网络对所述远端标准音频信号进行语音识别，获得所述远端标准音频信号的每帧信号对应的语音识别标签；

52、根据所述语音识别标签和所述真实语音识别标签之间的差异程度，确定第二损失值；

53、根据所述第二损失值对所述第二分支网络进行迭代训练，获得所述预训练的第二分支网络。

54、在本公开的示例性实施例中，所述利用所述训练样本集对所述预训练的第一分支网络和所述预训练的第二分支网络进行联合训练，获得训练好的音频处理模型，包括：

55、对所述远端传输至近端的音频信号进行傅里叶变换，获得目标音频信号；

56、对所述目标音频信号和所述输出信号进行掩膜运算，获得掩膜后音频信号；

57、通过所述预训练的第二分支网络对所述掩膜后音频信号进行语音识别，获得所述掩膜后音频信号中的每帧信号对应的语音识别标签；

58、根据所述语音识别标签与所述真实语音识别标签之间的差异程度，确定第三损失值；

59、根据所述第三损失值对所述预训练的第一分支网络和所述预训练的第二分支网络进行迭代训练，获得训练好的音频处理模型。

60、根据本公开的第二方面，提供一种音频处理模型的训练装置，包括：

61、训练样本集获取?？?，用于获取训练样本集；所述训练样本集包括第一样本集和第二样本集；

62、预训练?？?，用于利用所述第一样本集对待训练的音频处理模型的第一分支网络进行预训练，获得预训练的第一分支网络，以及，利用所述第二样本集对所述待训练的音频处理模型的第二分支网络进行预训练，获得预训练的第二分支网络；

63、联合训练?？?，用于利用所述训练样本集对所述预训练的第一分支网络和所述预训练的第二分支网络进行联合训练，获得训练好的所述音频处理模型；

64、其中，所述第一分支网络用于执行回声消除和语音增强任务，所述第二分支网络用于执行语音端点检测任务。

65、根据本公开的第三方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的音频处理模型的训练方法。

66、根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的音频处理模型的训练方法。

67、由上述技术方案可知，本公开示例性实施例中的音频处理模型的训练方法、音频处理模型的训练装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

68、在本公开的一些实施例所提供的技术方案中，一方面，本公开通过获取包含第一样本集和第二样本集的训练样本集，利用第一样本集对待训练的音频处理模型的第一分支网络进行预训练，获得预训练的第一分支网络(用于执行回声消除和语音增强任务)，以及，利用第二样本集对待训练的音频处理模型的第二分支网络(用于执行语音端点检测任务)进行预训练，获得预训练的第二分支网络，利用训练样本集对预训练的第一分支网络和预训练的第二分支网络进行联合训练，获得训练好的音频处理模型，一方面，通过采集丰富的训练样本集，能够通过尽可能丰富的数据仿真，基本覆盖多个场景的大范围信噪比环境，从而提升低信噪比环境下的模型处理准确度；另一方面，通过一个模型可以解决三个音频信号处理的任务，降低了相关技术中各个子过程的参数调整带来的相互制约，大大降低了系统的复杂度，降低了系统功耗。

69、本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕安超,范璐,彭毅,吴友政,李清涛,何晓冬
技术所有人：京东城市（北京）数字科技有限公司
我是此专利的发明人

音频处理模型的训练方法及装置、存储介质、电子设备与流程

音频处理模型的训练方法及装置、存储介质、电子设备与流程