本申请属于通信,具体涉及一种语音对话方法、装置、电子设备及可读存储介质。
背景技术:
1、为打造多元化的元宇宙空间,数智人是其中重要一环。一个拟人化的数智人在与用户进行对话时,需要理解用户所说内容并产生相应的语音反馈。目前常用的语音对话方式为:首先通过语音识别技术将用户语音转换为文本内容,然后通过自然语言处理技术对该文本内容进行语义及情绪理解,并生成相应的对答文本,最后利用文本转语音(text?tospeech,tts)模型对该对答文本进行处理,生成对答语音。然而,当前tts模型生成的语音发音较为呆板,语音对话的用户体验度较差。
技术实现思路
1、本申请实施例的目的是提供一种语音对话方法、装置、电子设备及可读存储介质,以解决相关技术中语音对话的用户体验度较差的问题。
2、为了解决上述技术问题,本申请是这样实现的:
3、第一方面,提供了一种语音对话方法,应用于电子设备,包括:
4、接收用户输入的目标语音;
5、将所述目标语音转换为对应的第一文本,并判定所述目标语音对应的第一情绪类别;
6、根据所述第一文本和所述第一情绪类别,确定所述第一文本对应的对答文本和在对答所述目标语音时所需使用的第二情绪类别;
7、根据所述对答文本和所述第二情绪类别,生成对答语音。
8、可选的,所述判定所述目标语音对应的第一情绪类别,包括:
9、将所述目标语音输入到预先训练的情绪分类模型中,获得所述目标语音对应的第一情绪类别。
10、可选的,在所述将所述语音输入到预先训练的情绪分类模型中,获得所述语音对应的第一情绪类别之前,所述方法还包括:
11、基于语音训练样本集对待训练的情绪分类模型进行多轮迭代训练,获得所述预先训练的情绪分类模型;其中,所述语音训练样本集中包括多个语音训练样本以及所述多个语音训练样本对应的多个文本数据;在一轮迭代过程中,执行以下操作:
12、将所述语音训练样本输入到待训练的情绪分类模型中,获得第一语音情绪特征和所述待训练的情绪分类模型的第一交叉熵损失值;其中,所述待训练的情绪分类模型包括多个transformer层和多个全连接fc层,所述多个transformer层用于对所述语音训练样本进行特征提取,所述多个fc层中的最后一个fc层用于输出预测的所述语音训练样本对应的情绪类别;所述第一语音情绪特征为所述多个fc层中的中间fc层输出的,用于表征所述语音训练样本的情绪特征;
13、将所述语音训练样本对应的文本数据和所述第一语音情绪特征输出到文本转语音tts模型中,获得合成语音;
14、将所述合成语音输入到所述待训练的情绪分类模型中,获得第二语音情绪特征和所述待训练的情绪分类模型的第二交叉熵损失值;其中,所述第二语音情绪特征为所述待训练的情绪分类模型的中间fc层输出的,用于表征所述合成语音的情绪特征;
15、根据所述第一语音情绪特征和所述第二语音情绪特征的相似度,确定第一损失值;
16、根据所述第一交叉熵损失值、所述第二交叉熵损失值和所述第一损失值,调整所述待训练的情绪分类模型的训练参数。
17、可选的,所述根据所述第一语音情绪特征和所述第二语音情绪特征的相似度,确定第一损失值,包括:
18、通过如下损失函数,确定所述第一损失值loss:
19、
20、其中,featurea=at*a,a表示所述第一语音情绪特征,at表示a的转置矩阵;featureb=bt*b,b表示所述第二语音情绪特征,bt表示b的转置矩阵;n表示所述第一语音情绪特征和所述第二语音情绪特征的维度。
21、可选的,所述第一交叉熵损失值是基于所述语音训练样本对应的标注的情绪类别和预测的情绪类别确定的;
22、所述第二交叉熵损失值是基于所述语音训练样本对应的标注的情绪类别和所述合成语音对应的预测的情绪类别确定的。
23、可选的,所述根据所述对答文本和所述第二情绪类别,生成对答语音,包括:
24、获取所述第二情绪类别对应的目标语音情绪特征;
25、将所述对答文本和所述目标语音情绪特征输入到tts模型中,获得所述对答语音。
26、可选的,所述tts模型包括编码器和解码器,所述将所述对答文本和所述目标语音情绪特征输入到tts模型中,获得所述对答语音,包括:
27、将所述对答文本输入到所述编码器中进行编码,获得语音编码特征;
28、将所述语音编码特征和所述目标语音情绪特征一同输入到所述解码器中进行解码,获得所述对答语音。
29、可选的,所述目标语音情绪特征是基于预先训练的情绪分类模型以及所述第二情绪类别确定的。
30、可选的,所述根据所述第一文本和所述第一情绪类别,确定所述第一文本对应的对答文本和在对答所述目标语音时所需使用的第二情绪类别,包括:
31、根据所述第一文本和所述第一情绪类别,通过自然语言处理技术以及知识图谱技术,确定所述第一文本对应的对答文本和在对答所述目标语音时所需使用的第二情绪类别。
32、第二方面,提供了一种语音对话装置,应用于电子设备,包括:
33、接收???,用于接收用户输入的目标语音;
34、转换???,用于将所述目标语音转换为对应的第一文本;
35、判定???,用于判定所述目标语音对应的第一情绪类别;
36、确定???,用于根据所述第一文本和所述第一情绪类别,确定所述第一文本对应的对答文本和在对答所述目标语音时所需使用的第二情绪类别;
37、生成???,用于根据所述对答文本和所述第二情绪类别,生成对答语音。
38、第三方面,提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤骤。
39、第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
40、在本申请实施例中,在接收用户输入的目标语音之后,可以将所述目标语音转换为对应的第一文本,并判定所述目标语音对应的第一情绪类别,根据所述第一文本和所述第一情绪类别,确定所述第一文本对应的对答文本和在对答所述目标语音时所需使用的第二情绪类别,并根据所述对答文本和所述第二情绪类别,生成对答语音。由此,可以生成携带多样情绪的对答语音,从而提升用户体验度。
1.一种语音对话方法,应用于电子设备,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述判定所述目标语音对应的第一情绪类别,包括:
3.根据权利要求2所述的方法,其特征在于,在所述将所述语音输入到预先训练的情绪分类模型中,获得所述语音对应的第一情绪类别之前,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语音情绪特征和所述第二语音情绪特征的相似度,确定第一损失值,包括:
5.根据权利要求3所述的方法,其特征在于,所述第一交叉熵损失值是基于所述语音训练样本对应的标注的情绪类别和预测的情绪类别确定的;
6.根据权利要求1所述的方法,其特征在于,所述根据所述对答文本和所述第二情绪类别,生成对答语音,包括:
7.根据权利要求6所述的方法,其特征在于,所述tts模型包括编码器和解码器,所述将所述对答文本和所述目标语音情绪特征输入到tts模型中,获得所述对答语音,包括:
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本和所述第一情绪类别,确定所述第一文本对应的对答文本和在对答所述目标语音时所需使用的第二情绪类别,包括:
9.一种语音对话装置,应用于电子设备,其特征在于,包括:
10.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至8任一项所述的语音对话方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至8任一项所述的语音对话方法的步骤。