基于扩散模型的语音水印注入及确权方法和系统

文档序号:37776829发布日期:2024-04-25 11:03阅读:49来源:国知局
基于扩散模型的语音水印注入及确权方法和系统

本发明属于面向语音水印注入及确权领域,具体涉及一种基于扩散模型的语音水印注入及确权方法和系统。


背景技术:

1、音频水印技术的发展为数字版权?;ず托畔踩煊虼戳诵碌目赡苄?。然而,当前的音频水印技术仍然面临一系列挑战,最突出的为以下两个方面。

2、首先,鲁棒性的提高是当前亟待解决的问题,主要表现在评估方法的有限性、对特定攻击的狭窄关注、解同步攻击定义方面的不确定性、比较分析方法差异等方面的困扰。首先,系统鲁棒性的评估采用了stirmark基准系统,然而与评估感知性的方法相比,评估鲁棒性的方法并不那么标准化。这使得系统设计者在面对攻击时可能无法全面评估水印系统的性能,增加了水印被有经验的对手破坏的风险。另一个问题是对攻击的有限考虑,虽然基本攻击得到了广泛关注,但对于高级攻击,特别是解同步攻击,研究较少。同时,解同步攻击的定义在现有文献中也存在差异,这增加了解决这一问题的难度。这意味着攻击者可能很容易利用这些攻击的组合来对抗水印系统,而系统可能无法有效应对。最后,当前的比较分析方法不够系统和公正。缺乏使用适当的感知性和鲁棒性评估工具进行全面比较分析的方法,这使得我们无法确定哪种方法更为有效。

3、第二个问题便是音频水印技术的不可感知性。随着音频数据处理主要采用lossy压缩工具,水印嵌入会不可避免地导致声音质量的损失。而无论采用何种不可感知性的控制方法,一旦将水印嵌入音频文件中,声音质量的牺牲似乎成为不可避免的结果。这是因为lossy压缩方法以牺牲一定程度的音频信息为代价来实现更低的比特率,从而导致嵌入水印引入的失真难以避免。除此之外,针对高频区域的不可感知性控制也存在一些问题。使用基于回声的方法专注于高频区域,但由于常见的低通滤波处理,特别是在截止频率为16khz时,这些高频区域的水印可能会被移除,从而导致水印检测率的显著下降。


技术实现思路

1、鉴于上述,本发明目的是提供一种基于扩散模型的语音水印注入及确权方法和系统,来改进语音水印注入的鲁棒性和不可感知性。

2、第一方面,本发明实施例提供的一种基于扩散模型的语音水印注入及确权方法,包括以下步骤:

3、获取原始语音音频并利用id提取器提取原始语音音频中的第一水印信息;

4、将原始语音音频转换为梅尔频谱图,利用扩散模型基于梅尔频谱图通过前向扩散添加噪声得到噪声数据,基于噪声数据通过后向扩散去噪实现水印注入,得到添加水印的生成语音音频;

5、利用id解码器对生成语音音频进行解码得到第二水印信息,比较第一水印信息与第二水印信息实现语音音频的确权。

6、优选地,所述id提取器包括多层lstm以及稠密层,稠密层的输出向量即为从原始语音音频中提取的第一水印信息。

7、优选地,所述id解码器采用vae-glow解码器。

8、优选地,所述扩散模型在被引用之前需要经过参数优化,参数优化采用的总损失函数包括基于原始语音音频和生成语音音频构建的语音感知损失、就于第一水印信息和第二水印信息构建的交叉熵损失。

9、优选地,所述语音感知损失通过以下方式构建;

10、应用客观语音质量评估(pesq)算法对生成语音音频进行打分,得到时域失真dhi、频域失真thi和加性噪声mti三个维度的评分,然后通过以下公式计算语音感知损失li来衡量生成语音音频x和原始语音音频对应梅尔频谱图s'之间的失真情况:

11、

12、其中,engy_ref为原始语音音频对应梅尔频谱图s'的能量,engy_deg是生成语音音频x的能量。

13、优选地,在对扩散模型进行参数优化的过程中,学习率循余弦退火算法。

14、优选地,所述比较第一水印信息与第二水印信息实现语音音频的确权,包括:

15、计算第一水印信息与第二水印信息之间的交叉熵损失,当该交叉熵损失大于训练过程中的收敛状态对应损失时,则说明水印不是扩散模型添加的,反之则为扩散模型添加的。

16、第二方面,本发明实施例提供了一种基于扩散模型的语音水印注入及确权系统,其特征在于,包括水印生成???、水印注入???、确权???;

17、所述水印生成??橛糜诨袢≡加镆粢羝挡⒗胕d提取器提取原始语音音频中的第一水印信息;

18、所述水印注入??橛糜诮加镆粢羝底晃范灯淄?,利用扩散模型基于梅尔频谱图通过前向扩散添加噪声得到噪声数据,基于噪声数据通过后向扩散去噪实现水印注入,得到添加水印的生成语音音频;

19、所述确权??橛糜诶胕d解码器对生成语音音频进行解码得到第二水印信息,比较第一水印信息与第二水印信息实现语音音频的确权。

20、第三方面,本发明实施例提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述基于扩散模型的语音水印注入及确权方法的步骤。

21、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现上述基于扩散模型的语音水印注入及确权方法的步骤。

22、与现有技术相比,本发明具有的有益效果至少包括:

23、1)常见的信号处理攻击(例如压缩、重采样等)对于系统的影响通常作用于前向扩散,而本发明采用后向扩散引入噪声和变换的方式注入水印可以提高系统的鲁棒性。

24、2)基于扩散模型具有的最优传输性能可以改进扩散模型的噪声样本选择过程,从而确保了原始语音音频中高级特征的保留,减小了水印注入前后语音的差异,增强了语音水印的不可感知性。

25、3)水印信息来源是原始语音音频的音色,保证了水印信息的可提取性、唯一性和后续的确权过程,有效防御了包括但不限于重复嵌入水印等攻击方式。

26、4)由于后向扩散的微调是在模型参数梯度方向上进行的,对原始语音音频的微小变化局限在参数空间中,影响相对较小,故嵌入的水印对原始语音的整体影响相对较小。

27、5)构建了端到端的解决方案,整合了前向扩散、后向扩散、id提取、id解码等多个步骤,形成了一个完整的语音水印注入及确权系统。



技术特征:

1.一种基于扩散模型的语音水印注入及确权方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的语音水印注入及确权方法,其特征在于,所述id提取器包括多层lstm以及稠密层,稠密层的输出向量即为从原始语音音频中提取的第一水印信息。

3.根据权利要求1所述的基于扩散模型的语音水印注入及确权方法,其特征在于,所述id解码器采用vae-glow解码器。

4.根据权利要求1所述的基于扩散模型的语音水印注入及确权方法,其特征在于,所述扩散模型在被引用之前需要经过参数优化,参数优化采用的总损失函数包括基于原始语音音频和生成语音音频构建的语音感知损失、就于第一水印信息和第二水印信息构建的交叉熵损失。

5.根据权利要求3所述的基于扩散模型的语音水印注入及确权方法,其特征在于,所述语音感知损失通过以下方式构建;

6.根据权利要求1所述的基于扩散模型的语音水印注入及确权方法,其特征在于,在对扩散模型进行参数优化的过程中,学习率循余弦退火算法。

7.根据权利要求1所述的基于扩散模型的语音水印注入及确权方法,其特征在于,所述比较第一水印信息与第二水印信息实现语音音频的确权,包括:

8.一种基于扩散模型的语音水印注入及确权系统,其特征在于,包括水印生成???、水印注入???、确权???;

9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于扩散模型的语音水印注入及确权方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1-7任一项所述的基于扩散模型的语音水印注入及确权方法的步骤。


技术总结
本发明公开了一种基于扩散模型的语音水印注入及确权方法和系统,包括:获取原始语音音频并利用ID提取器提取原始语音音频中的第一水印信息;将原始语音音频转换为梅尔频谱图,利用扩散模型基于梅尔频谱图通过前向扩散添加噪声得到噪声数据,基于噪声数据通过后向扩散去噪实现水印注入,得到添加水印的生成语音音频;利用ID解码器对生成语音音频进行解码得到第二水印信息,比较第一水印信息与第二水印信息实现语音音频的确权。该方法和系统可以改进语音水印注入的鲁棒性和不可感知性。

技术研发人员:胡嘉宸,韩蒙,李荣昌,罗文杰,欧南涵,林昶廷,陈建海
受?;さ募际跏褂谜撸?/b>浙江大学
技术研发日:
技术公布日:2024/4/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im