说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210336076.6 (22)申请日 2022.04.01 (71)申请人 深圳新闻网传媒股份有限公司 地址 518034 广东省深圳市福田区莲 花街 道景华社区商报路2号新媒体大厦21 层-22层 (72)发明人 魏俊杰 蓝岸 何翼 熊黄 庄辉  黄松杰 郑裕豪 黄金田 梁焯源  黄莹涛 覃俊华 叶国龙  (74)专利代理 机构 北京中索 知识产权代理有限 公司 11640 专利代理师 邹长斌 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01)G06F 16/23(2019.01) G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 9/50(2006.01) (54)发明名称 基于信息流的大 数据存储系统 (57)摘要 本发明公开了基于信息流的大数据存储系 统, 该存储系统旨在解决现有技术下任务不能并 行处理, 因此数据存储的耗时较长, 且不能对数 据进行预处理, 源数据中含有较多的有问题数 据, 后续的处理难度大, 并且没有创建索引, 不利 于数据的查找的技术问题。 该存储系统包括数据 抓取单元、 数据预处理单元和数据存储单元。 该 存储系统利用map任务有5个复制线 程, 因此可以 并行地复制map的输出任务, 因此提高数据存储 的速度, 且通过数据预处理单元针对 数据抓取单 元抓取到的有问题数据进行清洗和转换, 其目的 为纠正错误、 删除重复项、 统一规格、 修正逻辑、 转换构造、 数据压缩, 从而保证数据的完整性, 便 于数据的后续处理, 同时可以加快数据的检索速 度。 权利要求书2页 说明书5页 附图2页 CN 114490623 A 2022.05.13 CN 114490623 A 1.基于信息流的大数据存储系统, 该存储系统包括数据抓取单元、 数据预处理单元和 数据存储单元; 其特征在于, 所述数据抓取单元根据抓取策略, 将互联网上的网页下载到本地, 其流程为: 首先选取 种子URL; 将种 子URL放入待抓取URL队列; 从待抓取URL队列中取出待抓取URL, 解析DNS, 并 且得到主机的ip, 并将URL对应的网页下载下来, 存储进已下载网页库中, 然后将这些已抓 取的URL放进已抓取URL队列; 分析已抓取URL队列中的URL, 分析其中的其他URL, 并且将URL 放入待抓取URL队列, 从而 进入下一个 循环; 所述数据 预处理单元针对数据抓取单元抓取到的有问题数据进行清洗和转换, 数据清 洗和转换的处理方式包括: 纠正错误、 删除重复项、 统一规格、 修正逻辑、 转换构造、 数据压 缩; 所述数据存储单元包括索引区和数据库, 所述数据存储单元内预装有用户端、 名字节 点、 数据节点和辅助名字节点, 所述数据存储单元用于存储数据预 处理单元 处理后的数据, 其具体存 储步骤为: (1) 构建数据索引; (2) 用户端创建一个新的文件; (3) 调用名字节点, 去创建一个没有block关联的新文件, 创建前, 名字节点校验文件是 否存在, 判断用户端 有无权限去创建, 校验通过后, 名字节点 就会记录下新文件; (4) 用户端开始写数据, 并把数据切成一个个小packet, 然后排成队列  data queue, 为 每个packet构建一个map任务, 在每个map任务中调用map函数对packet中的每条数据记录 进行处理; (5) 处理接受  data queue, 先问询名字节点这个新的  block 最适合存储的数据节点, 把它们排成一个  pipeline, 把  packet 按队列输出到管道的第一个数据节 点中, 第一个名 字节点又把  packet 输出到第二个数据节点中, 以此类 推; (6) map的输出位于运行map任务的节点的本地磁盘上, 任务有5个复制线程, 因此可以 并行地复制map的输出, 当所有map的输出复制完毕后, 会进行总的mer ge, 这个阶段将所有 的map输出进行合并, 维持其 顺序排序, 合并是循环进行的; (7) 用户端完成写数据后, 调用cl ose方法关闭写入流。 2.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据抓取单 元的抓取策略为大站优先策略, 即对于待抓取URL队列中的所有网页, 根据所属的网站进 行 分类, 对于待下 载页面数多的网站, 优先 下载。 3.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据抓取单 元抓取到的有问题数据的数据错误形式包括: 数据值错误、 数据类型错误、 数据编码错误、 数据格式错 误、 数据异常错 误、 依赖冲突、 多值 错误。 4.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据 预处理 单元中统一规格的处理包括以下几个方面: 名称、 类型、 单位、 格式、 长度、 小 数位数、 计数方 法、 缩写规则、 值 域、 约束。 5.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据 预处理 单元中转换构 造的内容包括: 数据类型转换、 数据语义转换、 数据值域转换、 数据粒度转换、 表/数据拆分、 行列转换、 数据离 散化、 提炼新字段、 属性构造、 数据压缩。权 利 要 求 书 1/2 页 2 CN 114490623 A 26.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述用户端与名 字节点交互, 能获取文件的位置信息, 用户端与数据节点交互, 能读取或者写入数据, 所述 名字节点用来处理客户端读写请求, 所述数据节 点用来存储实际的数据块并执行数据块的 读写操作, 所述辅助名字节点, 分担名字节点的工作量。 7.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述构建数据索 引的具体步骤为: 首先指定数据的reduce个数为32, map进程检测输入文件的输入格式、 对 key进行计算, 然后输出, 指定分区函数, 对记录进行分区, 即根据各自项目的需求, 使这些 记录分发到每个reduce进程去, 每个reduce接收数据, 基于本地磁盘创建lucene索引, 把索 引合成一整块。 8.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据 预处理 单元中数据压缩的处理方式包括: 数据聚合、 维度约减、 数据块消减、 数据无损 压缩和数据 有损压缩。权 利 要 求 书 2/2 页 3 CN 114490623 A 3

PDF文档 专利 基于信息流的大数据存储系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于信息流的大数据存储系统 第 1 页 专利 基于信息流的大数据存储系统 第 2 页 专利 基于信息流的大数据存储系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:50:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。