使用缓存驱逐对强哈希和弱哈希进行去重的制作方法

文档序号:37558563发布日期:2024-04-09 17:51阅读:76来源:国知局
使用缓存驱逐对强哈希和弱哈希进行去重的制作方法

本公开一般涉及数据去重领域,并且更具体地,涉及在数据存储系统中进行数据管理的方法,以及用于数据存储系统的数据处理装置。


背景技术:

1、通常,数据备份操作用于在目标站点创建数据的备份,以便在源站点的数据丢失事件中?;ず突指词?。数据丢失事件的示例可以包括但不限于数据损坏、源站点中的硬件或软件故障、数据意外删除、黑客攻击或恶意攻击。因此,出于安全原因,单独的备份存储被广泛用于存储源站点中存在的数据的备份。然而,通过网络共享或存储在数据存储系统中的数据重复副本可能会不必要地增加数据存储系统的存储容量需求。通常,需要使用数据去重方案来检测和消除数据的重复副本,从而显著降低存储容量需求。

2、传统上,传统数据去重方案的典型处理流程之一是接收新的写请求,使用任何分段算法对数据进行分段,计算每个分段的强哈希和弱哈希,并在给定的强哈?;捍嬷兴阉髑抗?。如果在给定的强哈?;捍嬷姓业角抗?,则返回块标识(identity,id)。如果在给定的强哈?;捍嬷忻挥姓业角抗?,则在给定的弱哈希表中搜索弱哈希。如果在给定的弱哈希表中找到弱哈希,则从给定的id表中检索强哈希进行比较。如果在给定的弱哈希表中没有找到弱哈希,则数据无法去重,并生成新块id。然而,由于给定的弱哈希表很大,并且给定的弱哈希表大部分存储在磁盘上,因此搜索需要从磁盘读取io。因此,对时延和读io吞吐量都有很大影响。此外,在某些场景中,传统的数据去重方案可能使用单独的存储器(不是给定的弱哈希表的一部分)来找到从给定的弱哈希表检索到的大量候选者。然而,使用单独的存储器增加了数据存储系统的存储容量需求,这是不期望的。此外,某些传统的数据去重方案在几个性能方面进行了权衡,而降低了针对其它应用场景的性能。例如,一种传统的数据去重方案可以被优化用于联机去重场景,这提供了高吞吐量,但具有相对高的时延。因此,这种传统的数据去重方案对于基于源的去重场景不是优选的,在该场景中,需要非常低的时延。因此,在多种应用场景(例如,基于源的去重和通用的联机去重)下,存在表现为低性能的低效和无效的数据去重方案的技术问题。

3、因此,根据上述讨论,需要克服与传统的数据去重方案关联的上述缺点。


技术实现思路

1、本公开提供了数据存储系统中的数据管理方法,以及用于数据存储系统的数据处理装置。本公开提供了针对与传统的数据去重方案关联的现有低效和不可靠问题的方案,其中该问题由于以下事实而变得复杂,例如在多种应用场景(例如,基于源的去重和通用的联机去重)下现有方案损害了时延、吞吐量、访问速率和命中率等参数方面的性能。本公开的目的是提供至少部分地克服现有技术中遇到的问题的方案,并提供可以高效地利用缓存驱逐过程的改进的数据去重方案,其与现有系统相比,在低时延、高吞吐量、低访问速率和高命中率方面表现出高性能。

2、本公开的一个或多个目的是通过所附独立权利要求中提供的方案实现的。本公开的有利实现方式在从属权利要求中进一步限定。

3、在一个方面,本公开提供了计算机实现的数据存储系统中的数据管理方法。该方法包括:将数据存储系统中的每个数据项划分为多个块;计算每个块的强哈希,并生成id表,该id表包括具有指向对应块的位置的指针的强哈希的列表;为每个强哈希计算弱哈希,并生成弱哈希表,该弱哈希表包括具有指向id表中对应强哈希的位置的指针的弱哈希的列表。响应于接收到传入数据项,该方法还包括:将数据存储系统中的该传入数据项划分为多个块;计算每个块的强哈希和弱哈希;为该传入数据项选择一个或多个代表性弱哈希;在弱哈希表中搜索代表性弱哈希;记录代表性弱哈希中的一个或多个与弱哈希表中的弱哈希之间的匹配;其中,弱哈希表包括缓存部分,并且缓存驱逐算法被配置为基于为弱哈希记录的匹配的数量来确定是保留还是驱逐缓存部分中的每个弱哈希。

4、本公开的方法通过高效地管理存储在数据存储系统中的数据,提供了改进的数据去重方案。通过缓存部分,磁盘读访问的次数减少,因此最小化了获取数据存储系统的io操作的访问速率和时延。此外,本公开的方法可以高效地用于多种场景(例如,基于源的去重和通用的联机去重),并且对于任何场景,不会降低和损害性能(即,时延、吞吐量、访问速率和命中率)。此外,该方法允许高效和可靠的数据去重方案来管理重复数据和非重复数据。非重复数据作为新数据项存储在数据存储系统中。另一方面,重复数据不会显式地存储在数据存储系统中;而是,基于为弱哈希记录的匹配的数量将对应弱哈希保留在缓存部分中。因此,本公开的方法允许高效利用数据存储系统的存储容量。

5、在一实现方式中,选择代表性弱哈希包括选择预定数量的最低值弱哈希。

6、有益的是,选择代表性弱哈希的方法变得容易和具有确定性,因为对于给定的一个或多个最大弱哈希值,每次都选择相同的一个或多个最大弱哈希值作为代表性弱哈希。

7、在另一实现方式中,选择代表性弱哈希包括选择预定数量的最高有效位等于零的一个或多个弱哈希。

8、有益的是,具有相同的最高有效位(most?significant?bit,msb)的弱哈希紧密地位于弱哈希表内的缓存部分中。因此,缓存驱逐算法能够缓存强哈希的完整页面,这又使得在弱哈希表中的搜索更加高效。

9、在另一实现方式中,该预定数量是基于数据存储系统的命中率和缓存部分中的数据量动态选择的。

10、有益的是,缓存驱逐(使用缓存驱逐算法)确保了对照数据存储系统的弱哈希表搜索的传入数据项的弱哈希存在于缓存部分中。因此,减少了从磁盘获取io操作的访问次数,因此最小化了数据存储系统中的时延。

11、在另一实现方式中,响应于弱哈希表中的匹配,该方法还包括:从id表中找到关联的强哈希,并对照为传入数据项计算的强哈希中的一个或多个检查该关联的强哈希。

12、通过对照为传入数据项计算的强哈希中的一个或多个检查关联的强哈希,缓存驱逐算法缓存强哈希的完整页面,这允许弱哈希表中的搜索更加高效。因此,提高了数据存储系统的吞吐量和命中率。

13、在另一实现方式中,该方法还包括:将关联的强哈希和一个或多个相邻的强哈希加载到强哈?;捍?,其中,在搜索弱哈希表之前,对照强哈?;捍婕觳槲麓胧菹罴扑愕囊桓龌蚨喔銮抗V?。

14、通过强哈?;捍嬷械墓亓那抗:鸵桓龌蚨喔鱿嗔诘那抗?,由于强哈?;捍嬷械亩啻蚊卸谑×硕匀豕1淼姆梦实那抗T谌豕1淼幕捍娌糠种斜A艚铣な奔?。

15、在另一实现方式中,如果弱哈希表中不存在匹配,则将传入数据项作为新数据项写入数据存储系统。

16、有益的是,传入数据项被标识为非重复数据项,并作为新数据项存储在数据存储系统中。

17、在另一实现方式中,缓存驱逐算法被配置为分配较高优先级来保留弱哈希,对于该弱哈希,记录的匹配对应于作为备份任务的一部分接收的数据项。

18、有益的是,减少了从磁盘获取io操作的访问次数,因此最小化了备份任务中的时延。

19、在另一实现方式中,传入数据项作为备份任务的一部分被接收。

20、有益的是,不需要额外的硬件来执行去重(例如,基于源的去重),并且降低了带宽和存储容量需求。

21、在另一实现方式中,该方法还包括:接收不是备份任务的一部分的第二传入数据项;将数据存储系统中的第二传入数据项划分为多个块;计算每个块的强哈希和弱哈希;在弱哈希表中搜索每个弱哈希;记录弱哈希中的一个或多个与弱哈希表中的弱哈希之间的匹配;其中,缓存驱逐算法被配置为分配较低优先级来保留弱哈希,对于该弱哈希,记录的匹配对应于未作为备份任务的一部分接收的第二数据项。

22、通过第二传入数据项,传入写请求(不是备份任务的一部分)可以高效地存储在数据存储系统中。

23、在另一方面,本公开提供了计算机可读介质,该计算机可读介质被配置为存储指令,当该指令由处理器执行时,使该处理器执行上述方面的方法。

24、计算机可读介质实现了本公开的相应方法的所有优点和效果。

25、在又一方面,本公开提供了用于数据存储系统的数据处理装置。该数据处理装置包括数据索引???、数据查询???、缓存驱逐???。数据索引??楸慌渲梦航荽娲⑾低持械拿扛鍪菹罨治喔隹?;计算每个块的强哈希,并生成id表,该id表包括具有指向对应块的位置的指针的强哈希的列表;为每个强哈希计算弱哈希,并生成弱哈希表,该弱哈希表包括具有指向id表中对应强哈希的位置的指针的弱哈希的列表。数据查询??楸慌渲梦邮沾胧菹?,以及响应于接收到传入数据项:将数据存储系统中的传入数据项划分为多个块;计算每个块的强哈希和弱哈希;为传入数据项选择一个或多个代表性弱哈希;在弱哈希表中搜索代表性弱哈希;记录代表性弱哈希中的一个或多个与弱哈希表中的弱哈希之间的匹配?;捍媲鹉??,其中,弱哈希表包括缓存部分,并且缓存驱逐??楸慌渲梦谖豕<锹嫉钠ヅ涞氖坷慈范ㄊ潜A艋故乔鸹捍娌糠种械拿扛鋈豕?。

26、本公开的数据处理装置通过高效地索引弱哈希表的缓存部分中的弱哈希来执行上述方面的方法。此外,该数据处理装置提供了管理重复数据和非重复数据的高效、可靠的数据去重方案。非重复数据作为新数据项存储在数据存储系统中。另一方面,重复数据不会显式地存储在数据存储系统中;而是,基于为该弱哈希记录的匹配的数量将对应弱哈希保留在缓存部分中。因此,数据处理装置有助于高效利用数据存储系统的存储容量。

27、在一实现方式中,选择代表性弱哈希包括选择预定数量的最低值弱哈希。

28、有益的是,选择代表性弱哈希变得容易和具有确定性,因为对于给定的一个或多个最大弱哈希值,每次都选择相同的一个或多个最大弱哈希值作为代表性弱哈希。

29、在另一实现方式中,选择代表性弱哈希包括选择预定数量的最高有效位等于零的一个或多个弱哈希。

30、有益的是,具有相同的最高有效位(most?significant?bit,msb)的弱哈希紧密地位于弱哈希表内的缓存部分中。因此,缓存驱逐??榛捍媪饲抗5耐暾趁?,这允许弱哈希表中的搜索更加高效。

31、在另一实现方式中,上述预定数量是基于数据存储系统的命中率和缓存部分中的数据量动态选择的。

32、有益的是,数据查询??槿繁A硕哉帐荽娲⑾低车娜豕1硭阉鞯拇胧菹畹娜豕4嬖谟诨捍娌糠种?。因此,减少了从磁盘获取io操作的访问次数,从而最小化了数据存储系统中的时延。

33、在另一实现方式中,响应于弱哈希表中的匹配,数据查询??榛贡慌渲梦捍觟d表中找到关联的强哈希,并对照为传入数据项计算的强哈希中的一个或多个检查该关联的强哈希。

34、通过对照为传入数据项计算的强哈希中的一个或多个检查关联的强哈希,缓存驱逐??槟芄换捍媲抗5耐暾趁?,这允许弱哈希表中的搜索更加高效。因此,提高了数据存储系统的吞吐量和命中率。

35、在另一实现方式中,数据查询??榛贡慌渲梦亓那抗:鸵桓龌蚨喔鱿嗔诘那抗<釉氐角抗;捍?,其中,在搜索弱哈希表之前,对照强哈?;捍婕觳槲麓胧菹罴扑愕囊桓龌蚨喔銮抗V?。

36、通过强哈?;捍嬷械墓亓那抗:鸵桓龌蚨喔鱿嗔诘那抗?,由于强哈?;捍嬷械亩啻蚊卸谑×硕匀豕1淼姆梦实那抗T谌豕1淼幕捍娌糠种斜A艚铣な奔?。

37、在另一实现方式中,如果弱哈希表中不存在匹配,则将传入数据项作为新数据项写入数据存储系统。

38、有益的是,传入数据项被标识为非重复数据项,并作为新数据项存储在数据存储系统中。

39、在另一实现方式中,缓存淘汰??楸慌渲梦峙浣细哂畔燃独幢A羧豕?,对于该弱哈希,记录的匹配对应于作为备份任务的一部分接收的数据项。

40、有益的是,减少了从磁盘获取io操作的访问次数,因此最小化了备份任务中的时延。

41、在另一实现方式中,传入数据作为备份任务的一部分被接收。

42、有益的是,不需要额外的硬件来执行去重(例如,基于源的去重),并且降低了带宽和存储容量需求。

43、在另一实现方式中,数据查询??榛贡慌渲梦航邮詹皇潜阜萑挝竦囊徊糠值牡诙胧菹?;将数据存储系统中的第二传入数据项划分为多个块;计算每个块的强哈希和弱哈希;在弱哈希表中搜索每个弱哈希;记录弱哈希中的一个或多个与弱哈希表中的弱哈希之间的匹配;其中,缓存驱逐??楸慌渲梦峙浣系陀畔燃独幢A羧豕?,对于该弱哈希,记录的匹配对应于未作为备份任务的一部分接收的第二数据项。

44、通过第二传入数据项,传入写请求(不是备份任务的一部分)可以高效地存储在数据存储系统中。

45、必须注意的是,本技术中描述的所有设备、元件、电路、单元和装置可以在软件或硬件元件或其任何类型的组合中实现。本技术中描述的各种实体执行的所有步骤以及所描述的将由各种实体执行的功能旨在表明相应的实体适于或被配置于执行相应的步骤和功能。虽然,在以下具体实施例的描述中,外部实体要执行的特定功能或步骤没有在执行特定步骤或功能的实体的特定详述元件的描述中反映,但是技术人员应清楚,这些方法和功能可以在相应的软件或硬件元件或其任何组合中实现。应当理解,本公开的特征易于以各种组合进行组合,而不脱离由所附权利要求书所限定的本公开的范围。

46、本公开的附加方面、优点、特征和目的从附图和结合所附权利要求书解释的说明性实现方式的详细描述中将变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im