全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210364761.X (22)申请日 2022.04.07 (71)申请人 中国电信股份有限公司河南分公司 地址 450000 河南省郑州市金 水东路29号 (72)发明人 张旻 张爱军 张武增 林东旭  张晶 汪峰  (74)专利代理 机构 北京祺和祺知识产权代理有 限公司 1 1501 专利代理师 胡草 (51)Int.Cl. G06F 16/174(2019.01) G06F 16/13(2019.01) G06F 16/182(2019.01) G06F 9/50(2006.01) (54)发明名称 基于指纹的分布式的数据去重方法及系统 (57)摘要 本发明提供了一种基于指纹的分布式的数 据去重方法及系统, 该方法包括: 发起文件执行 管理请求; 将接收的文件切片成至少一个数据 块; 利用一致性哈希存储算法计算每一个数据块 的指纹及 整个文件的指纹, 将每一个数据块和整 个文件分别路由到对应的目标存储服务器; 构建 每一个数据块及整个文件的描述信息, 通过所述 目标存储服务器执行文件管 理。 通过本发明实施 例的技术方案, 企业执行文件管理过程中, 可 以 实现高效数据去重, 与此同时, 通过本机制还可 以把数据分布存储在不同的存服务器, 实现负载 均衡。 权利要求书2页 说明书11页 附图8页 CN 114880297 A 2022.08.09 CN 114880297 A 1.一种基于指纹的分布式的数据去重方法, 其特 征在于, 包括: 发起文件执 行管理请求; 将接收的文件切片成至少一个数据块; 利用一致性哈希存储算法计算每一个数据块的指纹及整个文件的指纹, 将每一个数据 块和整个文件分别路由到对应的目标存 储服务器; 构建每一个数据块及整个文件的描述信息, 通过 所述目标存 储服务器执行文件管理。 2.根据权利要求1所述的基于指纹的分布式的数据去重方法, 其特征在于, 利用一致性 哈希存储算法计算每一个数据块的指纹以及整个文件的指纹的方法, 包括: 分别对每一个数据块做哈希运 算, 得到每一数据块的指纹; 根据所述每一数据块的指纹计算出 所述文件的指纹。 3.根据权利要求2所述的基于指纹的分布式的数据去重方法, 其特征在于, 将每一个数 据块的指纹以及整个文件的指纹路由到对应的目标存 储服务器的方法, 包括: 将每一个数据块的指纹以及整个文件的指纹作为目标值 key; 每一台存储服务器结点维护一个一致性哈希路由表, 根据确定的目标值key通过存储 服务器结点维护的一致性哈希路由表进行路由运算, 找出目标值key的直接后继及与其对 应的目标存 储服务器信息; 根据所述目标存 储服务器信息确定目标存 储服务器; 其中, 目标值key的直接后继为距离目标值key最近且小于目标值key的存储服务器结 点。 4.根据权利要求3所述的基于指纹的分布式的数据去重方法, 其特征在于, 得到一致性 哈希路由表的方法, 包括: 分别对每一台存 储服务器做哈希运 算, 得到每一台服 务器的指纹信息; 将每一台服 务器的指纹信息作为存 储值key; 建立并保存每一台存储服务器结点、 存储值key的后继及存储服务器信息的对应关系, 得到预设在存 储服务器中的一 致性哈希路由表。 5.根据权利要求1所述的基于指纹的分布式的数据去重方法, 其特征在于, 将所述文件 切片成至少一个数据块的方法, 包括: 接收以数据流传输的所述文件; 根据所述数据流的大小将其分割成固定大小的至少一个数据块。 6.根据权利要求2所述的基于指纹的分布式的数据去重方法, 其特征在于, 通过所述目 标存储服务器执行文件管理的方法, 包括: 根据所述数据块的指纹及其目标存储服务器信 息构建所述数据块的描述信 息, 根据所 述文件的指纹及其目标存 储服务器信息构建所述文件的描述信息; 将所述数据块及所述文件的描述信息传送至目标存 储服务器; 比对所述目标存储服务器内原始数据与 所述数据块及所述文件的描述信 息, 根据比对 结果对所述数据块及所述文件执 行文件管理。 7.一种基于指纹的分布式数据去重系统, 其特 征在于, 所述系统包括: 客户端, 对文件发起文件执 行管理请求; 云端数据处理服务器, 将接收的文件切片成至少一个数据块, 对每一数据块进行一致权 利 要 求 书 1/2 页 2 CN 114880297 A 2性哈希存储算法, 计算出每一数据块的指纹和整个文件的指纹, 并将其路由到对应的目标 存储服务器; 目标存储服务器, 根据 所述云端数据处理服务器构建的每一个数据块及整个文件的描 述信息, 对所述数据块及所述整个文件执 行文件管理。 8.根据权利要求7所述的基于指纹的分布式数据去重系统, 其特征在于, 所述云端数据 处理服务器包括: 切割模块, 用于接收并分析文件的数据流, 根据数据流大小将其切片成至少一个数据 块; 指纹计算模块, 根据存储的一致性哈希存储算法对每一数据块进行运算, 计算出每一 数据块的指纹, 根据所述每一数据块的指纹计算所述文件的指纹; 路由模块, 根据 所述指纹计算模块传输的每一数据块的指纹和文件的指纹通过每一台 存储服务器维护的一致性哈希路由表进行路由运算, 找出目标值key的直接后继及与其对 应的目标存储服务器信息, 根据目标存储服务器信息确定每一数据块和文件的目标存储服 务器; 信息构建模块, 根据 所述每一数据块的指纹和目标存储服务器信 息构建每一数据块和 文件的描述信息, 并将其发送至对应的目标存 储服务器。 9.根据权利要求7或8所述的基于指纹的分布式数据去重系统, 其特征在于, 所述目标 存储服务器包括; 本地数据存储模块, 存储有原始数据的信息文件, 并根据信息构建模块传输的每一数 据块和文件的描述信息建立并存 储传输对应的数据块信息描述文件和文件信息描述文件; 本地数据 管理模块, 将本地数据存储模块传输的数据块信 息描述文件和文件信 息描述 文件与原始数据的信息描述文件进行比对, 并根据比对结果对所述数据块及所述文件执行 文件管理。 10.一种电子设备, 包括: 处理器、 存储器和总线; 所述存储器用于存储计算机程序, 所 述处理器与所述存储器通过所述总线连接, 当所述电子设备运行时, 所述处理器执行所述 存储器的所述计算机程序, 以使 所述处理器执行如权利要求 1至6中任一项所述的基于指纹 的分布式的数据去重方法。权 利 要 求 书 2/2 页 3 CN 114880297 A 3

.PDF文档 专利 基于指纹的分布式的数据去重方法及系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于指纹的分布式的数据去重方法及系统 第 1 页 专利 基于指纹的分布式的数据去重方法及系统 第 2 页 专利 基于指纹的分布式的数据去重方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:15:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。