一种数据处理方法、系统及计算设备

文档序号:37771515发布日期:2024-04-25 10:58阅读:12来源:国知局
一种数据处理方法、系统及计算设备

本技术涉及计算机,尤其涉及一种数据处理方法、系统及计算设备。


背景技术:

1、机器学习近年来愈发受到欢迎,被广泛应用于生产生活中的多个领域,如图像处理、自然语言处理等。数据训练端可以对来自数据提供端的训练数据进行建模训练,得到机器学习模型。其中的训练数据往往包含有敏感信息。为了避免泄露训练数据中的敏感信息,数据提供端可以利用同态加密算法对训练数据进行加密,再将同态加密后的训练数据发送给数据训练端。数据训练端接收到同态加密后的训练数据后,利用该同态加密后的训练数据的同态性质进行基于密文的建模训练,得到加密的模型参数,再通过同态解密恢复明文模型参数,得到最终的机器学习模型。

2、机器学习模型的性能随着训练数据的数据级的增加而增加。鉴于单个数据提供端拥有的训练数据有限,为了得到高性能的机器学习模型,数据训练端通常需要从多个数据提供端获取训练数据,意味着数据训练端需要对来自多个数据提供端的同态加密后的训练数据进行建模训练,训练数据的数据量大,且同态加密算法的计算过程复杂,这就导致模型训练的算力开销大、时间开销大。


技术实现思路

1、本技术实施例提供一种数据处理方法、系统及计算设备,用于减少模型训练的算力开销和时间开销,提高模型训练的计算效率。

2、第一方面,本技术实施例提供一种数据处理方法,该方法可以由数据提供端执行。在该方法中,数据提供端对第一数据集中包括的多个数据的n个属性进行划分,得到第二数据集和第三数据集,该第二数据集中包括该多个数据的m个属性,该第三数据集中包括该多个数据的(n-m)个属性,其中该m个属性中的每个属性对训练模型的贡献度大于或等于第一阈值,该(n-m)个属性中的每个属性对训练模型的贡献度小于第一阈值,n为大于1的整数,m为大于1的整数;基于第一加密算法对第二数据集进行加密得到第四数据集,以及基于第二加密算法对第三数据集进行加密得到第五数据集,其中第一算法的算力需求大于第二算法的算力需求;以及,向数据训练端发送第四数据集和第五数据集。

3、在本技术实施例中,数据提供端基于属性对训练模型的贡献度对训练数据所包括的多个数据的属性进行划分,并使用不同算力需求的两个加密算法分别对划分后的两个数据集进行加密。由于加密算法的算力需求越小意味着使用该加密算法进行加密或解密的算力开销越小,时间开销也越小,所以相较于原本使用第一加密算法对训练数据进行加密而言,本技术实施例能够减少模型训练的算力开销和时间开销,能够提高模型训练的计算效率。

4、在一种可能的实现方式中,第一加密算法可以是同态加密算法,第二加密算法可以是差分隐私算法。

5、在一种可能的实现方式中,数据提供端可通过如下方式对第一数据集中包括的多个数据的n个属性进行划分,得到第二数据集和第三数据集:对第一数据集中包括的多个数据的n个属性中的每个属性进行评分,得到评分结果,其中,一个属性的评分越高则该属性对训练模型的贡献度越大;并根据评分结果和第一阈值,对多个数据的n个属性进行划分,得到第二数据集和第三数据集。通过上述方式,数据提供端可确定贡献度较大的数据集和贡献度较小的数据集。

6、在一种可能的实现方式中,该方法还可以包括:数据提供端可以执行如下中的一项或多项:向区块链平台发送评分结果;或者,计算第四数据集的哈希值,以及,向区块链平台发送第四数据集的哈希值;或者,计算第五数据集的哈希值,以及,向区块链平台发送第五数据集的哈希值。

7、通过上述方式,数据提供端可以将评分结果、第四数据集的哈希值以及第五数据集的哈希值中至少一项的中间计算结果存储到区块链平台,由于区块链平台提供永久且不可篡改的数据记录服务,这样数据提供端所提供的中间计算结果可被查看、验证真实性以及确认中间结算结果的所有权,从而能够减少因数据提供端提供虚假训练数据导致训练模型的准确度降低的问题,有助于实现数据提供端和数据训练端之间的可信数据共享。

8、在一种可能的实现方式中,该方法还可以包括:数据提供端接收来自数据训练端的请求消息,请求消息用于请求第一数据集。通过上述方式,数据提供端可响应于数据训练端的请求消息向该数据训练端提供训练数据,也可以主动向该数据训练端提供该训练数据,实现方式灵活。

9、第二方面,本技术实施例提供一种数据处理方法,该方法可以由数据训练端执行。在该方法中,数据训练端接收来自至少一个数据提供端的第四数据集和第五数据集,第四数据集是基于第一加密算法对第二数据集加密得到的,第五数据集是基于第二加密算法对第三数据集加密得到的,其中,第一加密算法的算力需求大于第二加密算法的算力需求,第二数据集和第三数据集是对第一数据集中包括的多个数据的n个属性进行划分得到的,第二数据集中包括多个数据的m个属性,第三数据集中包括多个数据的(n-m)个属性,其中,m个属性中的每个属性对训练模型的贡献度大于或等于第一阈值,(n-m)个属性中的每个属性对训练模型的贡献度小于第一阈值,n为大于1的整数,m为大于1的整数;训练第四数据集得到第一模型,以及训练第五数据集,得到第二模型;以及,根据第一模型和第二模型,确定第三模型。

10、在一种可能的实现方式中,第一加密算法是同态加密算法,第二加密算法是差分隐私算法。

11、在一种可能的实现方式中,该方法还可以包括:数据训练端可以执行如下中的一项或多项:计算第一模型的哈希值,以及向区块链平台发送第一模型的哈希值;或者,计算第二模型的哈希值,以及向区块链平台发送第二模型的哈希值;或者,计算第三模型的哈希值,以及向区块链平台发送第三模型的哈希值。

12、通过上述方式,数据训练可以将第一模型的哈希值、第二模型的哈希值以及第三模型的哈希值中至少一项的中间计算结果存储到区块链平台,由于区块链平台提供永久且不可篡改的数据记录服务,这样数据训练端所提供的中间计算结果可被查看、验证真实性以及确认中间结算结果的所有权,从而能够减少因数据训练端的中间计算结果不准确或提供虚假的中间计算结果导致训练模型的准确度降低的问题,有助于实现数据提供端和数据训练端之间的可信数据共享。

13、在一种可能的实现方式中,该方法还可以包括:数据训练端向区块链平台发送用于请求第一信息的请求消息,第一信息包括n个属性的评分结果、第四数据集的哈希值和第五数据集的哈希值;以及,接收来自区块链平台的第一信息。通过该方式,数据训练端可以从区块链平台获取数据提供端的中间计算结果,如评分结果、第四数据集的哈希值和第五数据集的哈希值中的至少一项,进而该数据训练端可确认该中间计算结果的来源以及验证该中间计算结果的真实性,能够减少因数据提供端提供虚假训练数据导致训练模型的准确度降低的问题,有助于实现数据提供端和数据训练端之间的可信数据共享。

14、在一种可能的实现方式中,数据训练端根据第一模型和第二模型,确定第三模型可以为:数据训练端对第一模型和第二模型进行与运算,得到第三模型,这样数据训练端可得到该第一数据集的全局训练模型。

15、在一种可能的实现方式中,该方法还可以包括:数据训练端向至少一个数据提供端发送请求消息,请求消息用于请求第一数据集。

16、上述第二方面及其各个可能的实现方式的技术效果可对应参考前述第一方面及其各个可能的实现方式的技术效果,此处不再赘述。

17、第三方面,本技术实施例提供一种数据处理系统,该数据处理系统中可以包括至少一个数据提供端和数据训练端,该至少一个数据提供端中的每个数据提供端用于执行如第一方面或第一方面的任意可能的实现方式提供的方法,该数据训练端用于执行如第二方面或第二方面的任意可能的实现方式提供的方法。

18、在一种可能的实现方式中,该数据处理系统还可以包括区块链平台,该区块链平台用于存储来自至少一个数据提供端的数据,和/或,存储来自数据训练端的数据。

19、第四方面,本技术实施例提供一种计算设备,该计算设备包括至少一个处理器和存储器;至少一个处理器用于执行存储器中存储的指令,以使得计算设备执行如第一方面或第一方面的任意可能的实现方式提供的方法,或者执行如第二方面或第二方面的任意可能的实现方式提供的方法。

20、第五方面,本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质包括计算机程序指令,当计算机程序指令由计算设备执行时,计算设备执行如第一方面或第一方面的任意可能的实现方式提供的方法,或者执行如第二方面或第二方面的任意可能的实现方式提供的方法。

21、第六方面,本技术实施例还提供一种计算机程序产品,该计算机程序产品包括指令,当指令被计算设备运行时,使得计算设备执行如第一方面或第一方面的任意可能的实现方式提供的方法,或者执行如第二方面或第二方面的任意可能的实现方式提供的方法。

22、第七方面,本技术实施例还提供一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得该计算设备执行如第一方面或第一方面的任意可能的实现方式提供的方法,或执行如第二方面或第二方面的任意可能的实现方式提供的方法。

23、在一些可能的实现方式中,该计算设备集群包括一个计算设备,该计算设备包括处理器和存储器;该处理器用于执行该存储器中存储的指令,以使得该计算设备执行如第一方面或第一方面的任意可能的实现方式提供的方法,或执行如第二方面或第二方面的任意可能的实现方式提供的方法。

24、在一些可能的实现方式中,该计算设备集群包括至少两个计算设备,每个计算设备包括处理器和存储器。该至少两个计算设备的处理器用于执行该至少两个计算设备的存储器中存储的指令,以使得该至少两个计算设备执行如第一方面或第一方面的任意可能的实现方式提供的方法,或执行如第二方面或第二方面的任意可能的实现方式提供的方法。

25、第八方面,本技术实施例还提供一种数据处理装置。所述数据处理装置用于执行为上述第一方面或第一方面的任意可能的实现方式提供的方法。该数据处理装置例如为数据提供端,或为数据提供端中的功能???,例如基带装置或芯片系统等。一种可能的实现方式中,所述数据处理装置包括基带装置和射频装置。

26、另一种可能的实现方式中,所述数据处理装置包括处理单元(有时也称为处理???和收发单元(有时也称为收发???。收发单元能够实现发送功能和接收功能,在收发单元实现发送功能时,可称为发送单元(有时也称为发送???,在收发单元实现接收功能时,可称为接收单元(有时也称为接收???。发送单元和接收单元可以是同一个功能单元,该功能单元称为收发单元,该功能单元能实现发送功能和接收功能;或者,发送单元和接收单元可以是不同的功能单元,收发单元是对这些功能单元的统称。

27、第九方面,本技术实施例还提供一种数据处理装置。所述数据处理装置用于执行为上述第二方面或第二方面的任意可能的实现方式提供的方法。该数据处理装置例如为数据训练端,或为数据训练端中的功能???,例如基带装置或芯片系统等。一种可能的实现方式中,所述数据处理装置包括基带装置和射频装置。

28、另一种可能的实现方式中,所述数据处理装置包括处理单元(有时也称为处理???和收发单元(有时也称为收发???。收发单元能够实现发送功能和接收功能,在收发单元实现发送功能时,可称为发送单元(有时也称为发送???,在收发单元实现接收功能时,可称为接收单元(有时也称为接收???。发送单元和接收单元可以是同一个功能单元,该功能单元称为收发单元,该功能单元能实现发送功能和接收功能;或者,发送单元和接收单元可以是不同的功能单元,收发单元是对这些功能单元的统称。

29、上述第三方面至第九方面中任一方面的有益效果请参照上述第一方面或第二方面的有益效果描述,重复之处不予论述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im