说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210336076.6 (22)申请日 2022.04.01 (71)申请人 深圳新闻网传媒股份有限公司 地址 518034 广东省深圳市福田区莲 花街 道景华社区商报路2号新媒体大厦21 层-22层 (72)发明人 魏俊杰 蓝岸 何翼 熊黄 庄辉 黄松杰 郑裕豪 黄金田 梁焯源 黄莹涛 覃俊华 叶国龙 (74)专利代理 机构 北京中索 知识产权代理有限 公司 11640 专利代理师 邹长斌 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01)G06F 16/23(2019.01) G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 9/50(2006.01) (54)发明名称 基于信息流的大 数据存储系统 (57)摘要 本发明公开了基于信息流的大数据存储系 统, 该存储系统旨在解决现有技术下任务不能并 行处理, 因此数据存储的耗时较长, 且不能对数 据进行预处理, 源数据中含有较多的有问题数 据, 后续的处理难度大, 并且没有创建索引, 不利 于数据的查找的技术问题。 该存储系统包括数据 抓取单元、 数据预处理单元和数据存储单元。 该 存储系统利用map任务有5个复制线 程, 因此可以 并行地复制map的输出任务, 因此提高数据存储 的速度, 且通过数据预处理单元针对 数据抓取单 元抓取到的有问题数据进行清洗和转换, 其目的 为纠正错误、 删除重复项、 统一规格、 修正逻辑、 转换构造、 数据压缩, 从而保证数据的完整性, 便 于数据的后续处理, 同时可以加快数据的检索速 度。 权利要求书2页 说明书5页 附图2页 CN 114490623 A 2022.05.13 CN 114490623 A 1.基于信息流的大数据存储系统, 该存储系统包括数据抓取单元、 数据预处理单元和 数据存储单元; 其特征在于, 所述数据抓取单元根据抓取策略, 将互联网上的网页下载到本地, 其流程为: 首先选取 种子URL; 将种 子URL放入待抓取URL队列; 从待抓取URL队列中取出待抓取URL, 解析DNS, 并 且得到主机的ip, 并将URL对应的网页下载下来, 存储进已下载网页库中, 然后将这些已抓 取的URL放进已抓取URL队列; 分析已抓取URL队列中的URL, 分析其中的其他URL, 并且将URL 放入待抓取URL队列, 从而 进入下一个 循环; 所述数据 预处理单元针对数据抓取单元抓取到的有问题数据进行清洗和转换, 数据清 洗和转换的处理方式包括: 纠正错误、 删除重复项、 统一规格、 修正逻辑、 转换构造、 数据压 缩; 所述数据存储单元包括索引区和数据库, 所述数据存储单元内预装有用户端、 名字节 点、 数据节点和辅助名字节点, 所述数据存储单元用于存储数据预 处理单元 处理后的数据, 其具体存 储步骤为: (1) 构建数据索引; (2) 用户端创建一个新的文件; (3) 调用名字节点, 去创建一个没有block关联的新文件, 创建前, 名字节点校验文件是 否存在, 判断用户端 有无权限去创建, 校验通过后, 名字节点 就会记录下新文件; (4) 用户端开始写数据, 并把数据切成一个个小packet, 然后排成队列 data queue, 为 每个packet构建一个map任务, 在每个map任务中调用map函数对packet中的每条数据记录 进行处理; (5) 处理接受 data queue, 先问询名字节点这个新的 block 最适合存储的数据节点, 把它们排成一个 pipeline, 把 packet 按队列输出到管道的第一个数据节 点中, 第一个名 字节点又把 packet 输出到第二个数据节点中, 以此类 推; (6) map的输出位于运行map任务的节点的本地磁盘上, 任务有5个复制线程, 因此可以 并行地复制map的输出, 当所有map的输出复制完毕后, 会进行总的mer ge, 这个阶段将所有 的map输出进行合并, 维持其 顺序排序, 合并是循环进行的; (7) 用户端完成写数据后, 调用cl ose方法关闭写入流。 2.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据抓取单 元的抓取策略为大站优先策略, 即对于待抓取URL队列中的所有网页, 根据所属的网站进 行 分类, 对于待下 载页面数多的网站, 优先 下载。 3.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据抓取单 元抓取到的有问题数据的数据错误形式包括: 数据值错误、 数据类型错误、 数据编码错误、 数据格式错 误、 数据异常错 误、 依赖冲突、 多值 错误。 4.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据 预处理 单元中统一规格的处理包括以下几个方面: 名称、 类型、 单位、 格式、 长度、 小 数位数、 计数方 法、 缩写规则、 值 域、 约束。 5.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据 预处理 单元中转换构 造的内容包括: 数据类型转换、 数据语义转换、 数据值域转换、 数据粒度转换、 表/数据拆分、 行列转换、 数据离 散化、 提炼新字段、 属性构造、 数据压缩。权 利 要 求 书 1/2 页 2 CN 114490623 A 26.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述用户端与名 字节点交互, 能获取文件的位置信息, 用户端与数据节点交互, 能读取或者写入数据, 所述 名字节点用来处理客户端读写请求, 所述数据节 点用来存储实际的数据块并执行数据块的 读写操作, 所述辅助名字节点, 分担名字节点的工作量。 7.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述构建数据索 引的具体步骤为: 首先指定数据的reduce个数为32, map进程检测输入文件的输入格式、 对 key进行计算, 然后输出, 指定分区函数, 对记录进行分区, 即根据各自项目的需求, 使这些 记录分发到每个reduce进程去, 每个reduce接收数据, 基于本地磁盘创建lucene索引, 把索 引合成一整块。 8.根据权利要求1所述的基于信 息流的大数据存储系统, 其特征在于, 所述数据 预处理 单元中数据压缩的处理方式包括: 数据聚合、 维度约减、 数据块消减、 数据无损 压缩和数据 有损压缩。权 利 要 求 书 2/2 页 3 CN 114490623 A 3
专利 基于信息流的大数据存储系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-24 00:50:05
上传分享
举报
下载
原文档
(362.3 KB)
分享
友情链接
DB36-T 1346-2020 节能评估技术导则 中药制剂 江西省.pdf
GB-T 10357.4-2023 家具力学性能试验 第4部分:柜类稳定性.pdf
GB-T 28583-2012 供电服务规范.pdf
T-NIFA 20—2023 金融数据资产管理指南.pdf
GB-T 42536-2023 车用高压储氢气瓶组合阀门.pdf
DL-T 2028-2019 发电厂水处理用膜设备化学清洗导则.pdf
专利 一种电源芯片质量检测方法及系统.PDF
GB-T 20204-2006 水利水文自动化系统设备检验测试通用技术规范.pdf
IDC 2022中国大模型发展白皮书 中国人工智能系列白皮书.pdf
GB-T 8567-2006 计算机软件文档编制规范.pdf
NB-T 10795—2021 生物质气化多联产系统技术导则.pdf
T-AHPCA 021—2021 聚乳酸可降解口罩.pdf
T-ISC 0022—2023 数字孪生城市平台技术要求.pdf
T-SSACE 019—2023 热处理带肋高强钢筋 T63-E-G 混凝土应用技术规程.pdf
项目跟踪器.xltx
GB-T 34945-2017 信息技术 数据溯源描述模型.pdf
GB-T 42347-2023 机械预冷设备通用技术要求与试验方法.pdf
T-CNHAW 0010.1—2022 激光角膜屈光手术技术规范 第1部分:准分子激光角膜屈光手术.pdf
GB-T 16638.1-2008 空气动力学 概念、量和符号 第1部分:空气动力学常用术语.pdf
GA-T 1212-2014 安防人脸识别应用 防假体攻击测试方法.pdf
1
/
10
评价文档
赞助2元 点击下载(362.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。