专利 基于信息流的大数据存储系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210336076.6 (22)申请日 2022.04.01 (71)申请人深圳新闻网传媒股份有限公司地址 518034 广东省深圳市福田区莲花街道景华社区商报路2号新媒体大厦21 层-22层 (72)发明人魏俊杰　蓝岸　何翼　熊黄　庄辉　黄松杰　郑裕豪　黄金田　梁焯源　黄莹涛　覃俊华　叶国龙　 (74)专利代理机构北京中索知识产权代理有限公司 11640 专利代理师邹长斌 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01)G06F 16/23(2019.01) G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 9/50(2006.01) (54)发明名称基于信息流的大数据存储系统 (57)摘要本发明公开了基于信息流的大数据存储系统，该存储系统旨在解决现有技术下任务不能并行处理，因此数据存储的耗时较长，且不能对数据进行预处理，源数据中含有较多的有问题数据，后续的处理难度大，并且没有创建索引，不利于数据的查找的技术问题。该存储系统包括数据抓取单元、数据预处理单元和数据存储单元。该存储系统利用map任务有5个复制线程，因此可以并行地复制map的输出任务，因此提高数据存储的速度，且通过数据预处理单元针对数据抓取单元抓取到的有问题数据进行清洗和转换，其目的为纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩，从而保证数据的完整性，便于数据的后续处理，同时可以加快数据的检索速度。权利要求书2页说明书5页附图2页 CN 114490623 A 2022.05.13 CN 114490623 A 1.基于信息流的大数据存储系统，该存储系统包括数据抓取单元、数据预处理单元和数据存储单元；其特征在于，所述数据抓取单元根据抓取策略，将互联网上的网页下载到本地，其流程为：首先选取种子URL；将种子URL放入待抓取URL队列；从待抓取URL队列中取出待抓取URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中，然后将这些已抓取的URL放进已抓取URL队列；分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL 放入待抓取URL队列，从而进入下一个循环；所述数据预处理单元针对数据抓取单元抓取到的有问题数据进行清洗和转换，数据清洗和转换的处理方式包括：纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩；所述数据存储单元包括索引区和数据库，所述数据存储单元内预装有用户端、名字节点、数据节点和辅助名字节点，所述数据存储单元用于存储数据预处理单元处理后的数据，其具体存储步骤为：（1）构建数据索引；（2）用户端创建一个新的文件；（3）调用名字节点，去创建一个没有block关联的新文件，创建前，名字节点校验文件是否存在，判断用户端有无权限去创建，校验通过后，名字节点就会记录下新文件；（4）用户端开始写数据，并把数据切成一个个小packet，然后排成队列 data queue，为每个packet构建一个map任务，在每个map任务中调用map函数对packet中的每条数据记录进行处理；（5）处理接受 data queue，先问询名字节点这个新的 block 最适合存储的数据节点，把它们排成一个 pipeline，把 packet 按队列输出到管道的第一个数据节点中，第一个名字节点又把 packet 输出到第二个数据节点中，以此类推；（6） map的输出位于运行map任务的节点的本地磁盘上，任务有5个复制线程，因此可以并行地复制map的输出，当所有map的输出复制完毕后，会进行总的mer ge，这个阶段将所有的map输出进行合并，维持其顺序排序，合并是循环进行的；（7）用户端完成写数据后，调用cl ose方法关闭写入流。 2.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述数据抓取单元的抓取策略为大站优先策略，即对于待抓取URL队列中的所有网页，根据所属的网站进行分类，对于待下载页面数多的网站，优先下载。 3.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述数据抓取单元抓取到的有问题数据的数据错误形式包括：数据值错误、数据类型错误、数据编码错误、数据格式错误、数据异常错误、依赖冲突、多值错误。 4.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述数据预处理单元中统一规格的处理包括以下几个方面：名称、类型、单位、格式、长度、小数位数、计数方法、缩写规则、值域、约束。 5.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述数据预处理单元中转换构造的内容包括：数据类型转换、数据语义转换、数据值域转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、提炼新字段、属性构造、数据压缩。权　利　要　求　书 1/2 页 2 CN 114490623 A 26.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述用户端与名字节点交互，能获取文件的位置信息，用户端与数据节点交互，能读取或者写入数据，所述名字节点用来处理客户端读写请求，所述数据节点用来存储实际的数据块并执行数据块的读写操作，所述辅助名字节点，分担名字节点的工作量。 7.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述构建数据索引的具体步骤为：首先指定数据的reduce个数为32， map进程检测输入文件的输入格式、对 key进行计算，然后输出，指定分区函数，对记录进行分区，即根据各自项目的需求，使这些记录分发到每个reduce进程去，每个reduce接收数据，基于本地磁盘创建lucene索引，把索引合成一整块。 8.根据权利要求1所述的基于信息流的大数据存储系统，其特征在于，所述数据预处理单元中数据压缩的处理方式包括：数据聚合、维度约减、数据块消减、数据无损压缩和数据有损压缩。权　利　要　求　书 2/2 页 3 CN 114490623 A 3

专利 基于信息流的大数据存储系统

专利基于信息流的大数据存储系统