基于机器学习数据生成的小样本声纹识别模型训练方法与流程

文档序号：37770602发布日期：2024-04-25 10:57阅读：41来源：国知局

本发明属于局部放电故障识别，涉及基于声纹识别局放类型技术，具体涉及一种基于机器学习数据生成的小样本声纹识别模型训练方法。

背景技术：

1、局部放电（partial?discharge，pd）检测在评估输电线路和配电线路的设备绝缘性能方面具有至关重要的作用。目前对于局部放电的主要检测方法包括超高频测量法、红/紫外检测法和声纹识别法。相比于前两种方法，声纹识别法具有非侵入性、不受电磁干扰、对环境温度变化不敏感等优势?；谏圃淼募觳夥桨甘堑鼻熬植糠诺绲闹匾际跏侄?。现有的声纹识别方案多数基于机器学习和深度学习，对训练数据样本数量要求较大。然而，限于局部放电的发生频次和现场信号采集的难度，现有的声纹识别方案存在应用场景受限和测试效果欠佳的问题。

2、一般来说，为更好地实现局部放电信号的特征提取和类型识别，算法应当涵盖两个步骤：对环境噪声和局部放电信号进行分离、基于机器学习和深度学习方法对局部放电信号进行识别。有研究提出基于使用机器学习中的支持向量机算法对采集到的原始信号进行识别。步骤为：

3、（1）、使用三个排列成l形状的超声传感器来检测声音信号；

4、（2）、训练支持向量机模型；

5、（3）、使用支持向量机检测异常值。

6、机器学习中的支持向量机算法对于训练数据有两个基本要求：一是训练数据应是线性可分的，二是训练数据样本量应足够大。一方面，受限于输、配电线路设备局部放电发生频次和现场信号采集难度，足量而优质的样本量极难获取，不满足上述要求二；另一方面，所采集到的原始信号具有线性难分性，不满足上述要求一。因此，现有技术难以达到理想效果。

技术实现思路

1、技术目的：针对上述技术问题，本发明提出了一种基于机器学习数据生成的小样本声纹识别模型训练方法，能够有效扩增局部放电样本空间，解决当前声纹识别法鲁棒性不够理想等问题，设计出的神经网络结构算力需求小，可部署于边缘侧计算设备，能够满足设备的在线检测需求。

2、技术方案：为实现上述技术目的，本发明采用了如下技术方案：

3、一种基于机器学习数据生成的小样本声纹识别模型训练方法，包括步骤：

4、s1、采集任务场景中预设数量的原始语音信号；

5、s2、使用小波变换算法，对原始语音信号进行波形分析，将所述原始语音信号分离为环境噪声和局部放电信号，所述局部放电信号构成局部放电数据集；根据局部放电信号生成局部放电相位分布图谱prpd，为划分局部放电类型做准备；

6、s3、基于任务场景的先验知识，确定任务场景中的局部放电信号特征，基于所述局部放电相位分布图谱prpd和所述局部放电信号特征，划分局部放电类型，根据局部放电类型，将所述局部放电数据集分成多个局部放电类型训练数据集；

7、s4、将所述局部放电类型训练数据集分为调优训练数据集和预训练数据集，使用同源多簇聚类算法，对所述预训练数据集进行样本空间扩充，生成样本量满足预设要求的预训练扩展数据集；

8、s5、使用所述预训练扩展数据集对预先构建的神经网络模型进行预训练，使用所述调优训练数据集对完成预训练的神经网络模型进行调优训练，得到用于任务场景中局部放电检测的声纹识别模型。

9、优选地，所述步骤s4中，对所述预训练数据集进行样本空间扩充，生成样本量满足预设要求的预训练扩展数据集，具体包括以下步骤：

10、s4.1、根据局部放电类型，将预训练数据集划分为与局部放电类型对应的多个训练数据集；

11、s4.2、分别对各个局部放电类型的训练数据集进行样本空间扩充，得到与各个局部放电类型的训练数据集对应的新样本数据集，所述新样本数据集形成所述预训练扩展数据集；

12、其中，所述步骤s4.2以如下方法进行样本空间扩充：

13、s4.21、对于每个局部放电类型的训练数据集，采用无放回的随机抽样方法将所述训练数据集划分为多组，每组作为一个子训练簇，每个子训练簇至少有3个样本数据且子训练簇数不小于5；

14、s4.22、?对于每个局部放电类型的训练数据集划分得到的每个子训练簇，使用结合频段能量比的k-means聚类方法进行聚类，聚类中心代表了所在的子训练簇的典型特征，所述聚类中心作为一个生成的数据样本。

15、优选地，所述步骤s4.22中，使用结合频段能量比的k-means聚类过程如下：

16、a1、根据放电类型的先验知识，计算不同类型的局部放电信号频段的能量占比；

17、a2、对于每个局部放电类型的训练数据集划分得到的所有子训练簇，选择k个子训练簇；

18、a3、从步骤a2选择的k个子训练簇中，分别随机选择一个数据点即样本，得到的k个数据点作为初始的k个聚类中心，k的取值小于子训练簇的总数；

19、a4、对于各个子训练簇中的每个数据点，计算其与当前所有聚类中心的距离；

20、a5、通过预设的权重，结合步骤a1计算得到的对应类型的局部放电信号频段的能量占比和步骤a4计算得到的距离，重新计算对应的数据点与当前所有聚类中心的距离，依据重新计算得到的距离，将对应的数据点分配到距离最近的聚类中心所在的子训练簇；

21、a6、计算每个子训练簇中所有数据点的均值，并将均值作为所在子训练簇的新的聚类中心；

22、a7、重复步骤a4至a6，直到收敛。

23、优选地，所述步骤s5中，神经网络以如下方式预先构建：

24、面向任务场景，设计满足任务场景中设备算力要求的神经网络结构，使用一维卷积神经网络cnn作为分类器，计算过程中使用conv卷积计算，使用relu激活函数，使用maxpool最大池化采样。

25、面向局部放电类型训练数据集和神经网络结构，设计考虑样本类型比重的多分类损失函数：

26、

27、其中，表示局部放电样本总数，表示局部放电样本编号，表示局部放电类型总数，表示局部放电类型编号，表示局部放电类型真实标签，表示神经网络输出的预测概率，表示局部放电类型的权重，表示平滑项参数。

28、优选地，所述任务场景为输电线路或配电线路，局部放电类型包括无局部放电、单峰局部放电和双峰局部放电。

29、一种基于机器学习数据生成的小样本声纹识别模型训练装置，包括：

30、原始信号采集?？?，用于采集任务场景中预设数量的原始语音信号；

31、波形分析?？?，使用小波变换算法，对原始语音信号进行波形分析，将所述原始语音信号分离为环境噪声和局部放电信号，根据局部放电信号生成局部放电相位分布图谱prpd，构成局部放电数据集，为划分局部放电类型做准备；

32、局部放电类型定义?？?，用于基于任务场景的先验知识，确定任务场景中的局部放电信号特征，基于所述局部放电相位分布图谱prpd和所述局部放电特征，划分局部放电类型；

33、样本空间扩充?？?，用于将所述局部放电数据集分为调优训练数据集和预训练数据集，使用同源多簇聚类算法，对所述预训练数据集进行样本空间扩充，生成样本量满足预设要求的预训练扩展数据集；

34、模型训练?？?，用所述预训练扩展数据集对预先构建的神经网络模型进行预训练，使用所述调优训练数据集对完成预训练的神经网络模型进行调优训练，得到用于任务场景中局部放电检测的声纹识别模型。

35、有益效果：由于采用了上述技术方案，本发明具有如下有益效果：

36、本发明针对训练数据样本数量不足的行业共同痛点，提出一种基于机器学习的同源多簇聚类算法，对局部放电数据样本空间进行有效生成，针对当前声纹识别法鲁棒性不够理想的现状，提出一个适于检测场景的数据特点的神经网络结构，从而实现在小样本条件下的声纹识别神经网络模型训练，该神经网络与所提出的局部放电数据生成算法在实现流程上是承接的关系，局部放电数据生成算法按局部放电类型划分子训练簇，使用机器学习中的k-means聚类方法对每个子训练簇进行聚类，将所得聚类中心作为一个生成的数据样本，从而得到扩增样本空间的目的，解决训练样本难以获取的问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张一,夏烨,徐东,陈双辉,卢桢,胡彬,裔伟,王菲菲,吴万聪,姚柏存
技术所有人：南京土星信息科技有限公司
我是此专利的发明人

上一篇：一种自控平板密封阀的制作方法
上一篇：一种葡萄干清洗后快速脱水设备的制作方法