Alibaba Cloud Data lake storage solution 云原生数据湖解决方案蓝皮书 云原生数据湖解决方案蓝皮书 CONTENT Alibaba Cloud Data lake storage solution 4 1 前言 Data lake storage solution 数据湖面临的挑战与机遇 3 Data lake storage solution 阿里云数据湖的最佳实践 11 基于开源生态构建的数据湖 5 来自概念上的挑战 6 技术生态的进化 12 云原生数据湖分析-DLA方案 7 数据湖的机会点 15 构建混合分层模式数据湖 16 海量数据交互式查询解决方案 17 基于数据湖打造机器学习能力 2 Alibaba Cloud Data lake storage solution Data lake storage solution 阿里云数据湖产品特点 9 强大的数据存储引擎 9 与云原生平台的深入结合 10 内部及外部的有效验证 4 前 言 2011 年,数据湖(Data Lake)的概念在福布斯一篇题为 《Big Data�Requires a big new Architecture》的文章中被 首次提及。经过了九个年头的发 展,在大数据时代红极一时的数 据湖也在理想与现实之间慢慢发 生着蜕变,现在,数据湖已经成 为海量数据存储与分析的重要承 Data lake storage solution 相关行业案例 19 在线教育业务数据湖实践 20 网络游戏业务数据湖实践 22 互娱新媒体业务数据湖实践 23 互联网广告业务数据湖实践 25 “智慧场景服务”数据湖实践 载方式。 数据湖存储 解决方案蓝皮书 云原生数据湖解决方案蓝皮书 Alibaba Cloud Data lake storage solution 1 数据湖面临的挑战与机遇 云原生数据湖解决方案蓝皮书 其次,存储到数据湖中的数据通常会按照原始形态直接存储,随着业务和使用场景的发展,会使用不同的计算 引擎对已经存储的数据进行分析与处理,数据湖中的数据在一个企业组织中通常会被多个不同应用、系统和部门使 用和分析,覆盖的场景广泛并且范围也会动态延展,因此需要提供更多的灵活性以适应快速变化的应用场景;数据 仓库中的数据通常使用场景是在数据收集期间就已经明确,数据仓库通常集中在BI、业务、运营等商业决策相关场 景中,数据仓库也可以把已经存在的数据转换到新场景,但在灵活性方面不如数据湖,需要有更多的数据转换时间 和开发资源投入。 1 来自概念上的挑战 2 技术生态的进化 Data Lake,“数据湖”的中文翻译已经被越来越多的人所接受。数据湖是以集中方式存储各种类型数据,提供 数据湖始于 Hadoop 对大数据的重新定义之后,2006 年,Hadoop 第一次在 IT 领域亮相,承诺通过分布式架 弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平 构提供以往商用硬件从来没能达到的强大数据存储能力,随后的各发行版本提供了众多开源计算引擎,这些计算引 台。他能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。数据湖对存取的数据没有格 擎中有的操作复杂度高。与此同时,数据量激增、应用场景的丰富导致 Hadoop 的问题凸显。因此,越来越多的方 式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖,无需在数据上传之前对数据进 案开始向数据湖转型,解决靠单一 Hadoop 所没能解决的问题。 行任何的结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如 CSV、JSON 、 XML、日志等),非结构化数据(如电子邮件、文档、PDF 等)以及二进制数据(如图形、音频、视频等)。 这个过程中,对象存储的发展为数据湖提供了强有力的支撑。对象存储对于文件数量、存储容量没有限制,极 大突破了 HDFS(Hadoop 分布式文件系统)因为 Nameode 设计机制无法支撑大量小文件的困境。应用无需对小 数据湖涵盖的范围较广,在一些相关功能上与“数据仓库”概念类似,一些企业的管理、决策者也总是混淆两者 文件进行合并处理,就可以直接存入对象存储系统,系统的响应能力完全不会因为文件数量的增加有任何降低。 的区别。其实,仅仅从产品应用场景上,数据湖、数据仓库就表现出了明显的不同: Hadoop 产生后的十多年时间内,是移动应用、智能物联网设备高速发展的阶段,HDFS 协议的访问特点,使 首先,数据湖的在功能上可以实现各种类型数据的存储,数据湖中的数据可以是非结构化的、未处理的形态,数 得此类设备都需要通过中间节点实现数据的中转汇聚与转发,对象存储 RESTFUL 协议的便捷性,让移动应用、智 据可以在确定需要使用时才会对数据进行对应处理与转换;而数据仓库则通常存放的是经过处理的、结构化的数据, 能设备可以在数据产生后,就可以直接上传到存储系统中,可以不再需要任何中间环节。元数据发现与管理是关键 数据存储的 Schema 在数据存储之前有需要被定义好。 能力,对象存储自身的事件机制和与相关 Serverless 架构的联动,可以在数据产生后,立即生成上传的元数据, 5 6 并存储到各种元数据管理系统中,支撑后续的数据搜索、查询使用。阿里云对象存储在近几年中已经加入到了 Hadoop 支持体系中,Hadoop 生态的计算引擎可以通过直接或者通过 Connector 方式(低版本 Hadoop)使用 对象存储。更多的云原生计算引擎都可以支持对象存储的访问,对于存储在数据湖中的数据的分析与处理提供了更 2 阿里云数据湖产品特点 云原生数据湖解决方案蓝皮书 便捷的使用通道。 3 数据湖的机会点 根据咨询机构的相关报告,在数据湖上新增的与数据分析相关的功能有望得到更大的丰富。到2021年,将数据 应用数据 Serverless 分析引擎 日志统一采集管理 湖和数据仓库良好融合的企业,在实际应用中可以支持多30%的业务使用场景,这些场景包括: 移动应用 Web服务 1. 数据存储:存储数据类型多样,可以存储结构化、半结构化、非结构化的各种各样的数据。存储内容的多样性, Apps Log Services Log IOT Syslog Login Log Network 让数据湖可以覆盖更多类型的系统、终端设备、智能设备产生的数据,让应用场景进一步拓展。 Metric Log 迁移导入 2. 数据分析:随着数据来源的丰富和分布化,数据将继续呈现出多样化的特点。与此同时,企业对数据分析功能 的依赖也在激增。传统的集中数据存储和预定义 Schema 已经无法满足业务场景快速变化的需求。数据湖可以有 效集中存储各类未经过处理、加工的数据,特别是从各种物联网智能设备捕获的数据。通过数据湖对接的各种计 Event 在线迁移 闪电立方 Data hub DLA PerfCounter HIVE Tracing Impala druid presto Flink 阿里云日志服务 数据库数据导入 E-MapReduce 数据湖 RESTFul API 元 数 据 Elesticsearch 3. 统一管理:统一数据治理和管理:统一和通用的 API 接口,让数据湖实现多引擎的统一元数据管理和权限管理。移动 的特点让数据湖得到来自互联网、物联网、金融等众多行业的青睐。到来自互联网、物联网、金融等众多行业的青睐。 7 存储网关 对象存储 OSS 标准 从各种数据源 沉淀数据 低频 tableau Log Service Dashboard 机器学习平台 PAI 更轻松的完成元数据采集,结合元数据管理数据服务,提升数据整体管理能力,让数据湖不会成为“数据沼泽”,这样 DataWorks JDBC Hadoop 支持可以和新推出的计算引擎能更快的对接。 应用、智能设备、Hadoop 计算生态、云原生服务都可以通过此通用协议进行直接对接。通过数据湖自建的事件机制能够 QuickBI DataV 开源大数据平台 算引擎,可以便捷的对集中存储的数据进行批量计算、机器学习、交互式查询。数据湖对于各种计算生态的良好 Alibaba Cloud Data lake storage solution MaxCompute word word cloud cloud word cloud word OTS 归档 基于云存储 构建数据湖 数据处理 与分析 8 数据 可视化 Alibaba Cloud Data lake storage solution 1 强大的数据存储引擎 一方面,数据湖中数据可以与多种计算与分析平台结合使用,对于企业来说,计算存储分离的资源规划和架构更灵 活,在应对业务的快速变化时更加容易的构建应用平台和系统,提升效率,对于数据的分析,可以更快、更轻量, 数据湖一个重要目标是将所有企业数据能够集中存储,以供企业的各类应用在授权下进行访问。结合数据湖 减少整体的成本投入。 的这一设计目标以及元数据管理、自动化数据采集、自动化数据解析和处理等技术来解决各类与应用相关的日志 埋点、采集与分析。 3 内部及外部的有效验证 阿里云的数据湖底层基于阿里云自研的分布式存储引擎搭建,提供体系化的数据采集能力,支持结构化/半结 构化/非结构化数据源。数据湖统一存储,提供了数据的管理能力。冷热分层的存储方式解决了数据分散在各个 集群,需要在不同存储系统中反复拷贝等运维困扰。同时,在大数据访问方面更加优化,支持基于 Ranger 的数 据湖权限管理,支持混合云方案,总体成本可降低近 50%。 经过二十年的发展,阿里巴巴集团已经成为一个数字经济体,阿里巴巴集团首先是阿里云数据湖产品的最佳实 践者,后者首先支撑了阿里巴巴集团内部的电商、移动办公、文娱、物流、本地生活等各种复杂业务,建立了完善 的自我实践机制,产品和方案得到有效的验证。同时,阿里云的数据湖方案也支撑了在线教育、互联网广告、新媒 体、网络游戏等行业用户在快速发展过程中的实际业务需求,实现了技术的有效赋能。 2 与云原生平台的深入结合 数据湖可以对接多种差异性的计算引擎,运行在不同负载之上,多种计算引擎都共享同一套存储系统,打破 Alibaba Cloud Data lake storage solution 数据孤岛,洞察数据价值。 因为数据湖对存储数据的类型提供了充足的灵活性,没有传
阿里云 云原生数据湖解决方案蓝皮书
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2022-10-20 13:22:27上传分享