图数据库选型:问题、方法与工具 蚂蚁集团 洪春涛 2022年3月 图数据库是图谱系统的核心,选型至关重要 业务应用 知识图谱 图数据库 其 它 数 据 源 业 务 数 据 客户端(SDK) 知识 抽取 与 推理 数据库核心 管 理 工 具 可 视 化 图数据库决定图谱应用的: • 数据规模 • 吞吐率 • 实时性 • 稳定性 数据导入 2 图数据库选型困难:产品差异大,场景和方案不确定 标准 未定 查询语言:Cypher、Gremlin… 图模型:RDF、属性图… 图管理:权限、多图… 特性 差异 计算场景:AP、TP.. 业务场景:金融、社交 业务规模:分布式/集中式 图库 选型 ? 方案 设计 需要符合真实场景的基准测试(Benchmark) 3 基准测试程序(benchmark)是系统选型的最佳工具 Benchmark 模拟真实场景 对系统进行测试, 它规定了 数据特征,操作特性, 从而对系统在接近真实场景下的 功能,性能,稳定性 进行验证。 例:TPC-C 模拟了连锁商店对数据库的使用,包括订单管理,库存管理,物流管理等, 对事务性,并发,延迟等都有要求 Benchmark是一种标准,对指导系统设计,加速行业发展至关重要 4 好的benchmark需要贴合实际,严谨,可扩展 贴合实际 可扩展性 数据特征 - 数据规模可扩展 - 点抽象、边抽象、属性富集程度 - 读写操作可扩展 - 是否有重边、时间窗口特征 - 场景可扩展 操作特征 - 读操作特征 - 写操作特征 标准、严谨 性能特征 - 测试流程标准 - 读写比例、并发特征 - 审计规则标准 - 延迟要求、吞吐要求 - 指标统计严谨 5 关系型数据库的基准测试 TPC-C 零售OLTP场景 TPC-DS 零售场景的OLAP决策 TPC-H 综合OLAP分析场景 … … 6 图数据库测试程序现状 Twitter 自定义测试 LDBC SNB ◼ 数据:Twitter2010数据集 ◼ 数据:各厂商自定义 ◼ 数据:社交数据,符合实际场景 ◼ 操作:Khop和图算法 ◼ 操作:自定义,有读,可能有写 ◼ 操作:操作丰富,混合特性合理 ◼ 问题 ◼ 问题 ◼ 问题:部分厂商不按照标准测试,对测试随 - 图建模上无属性 - 数据一般与实际应用不符 - 数据分布比较特殊 - 读写操作与实际应用不符 - 数据规模不支持扩展 - 读写混合特性与实际应用不符 - 只有读操作,无写操作 - 扩展性差:数据规模、操作 7 意裁剪 测试项 Twitter 非标SNB 标准SNB 简单查询 √ √ √ 复杂查询 × √ √ 实时更新 × × √ 并发延时 × × √ 事务性要求 × × √ LDBC SNB: Social Network Benchmark 数据特征 操作特征 性能及验证 ◼ 社交场景数据 ◼ Interactive Workload ◼ 读写混合,规定混合比例 ◼ 14类点、20类边、边上属性较少 - 读写混合,偏TP ◼ 有正确性验证 ◼ 数据规模可扩展 - 读:7类简单读、14类复杂读 ◼ 有事务隔离要求 - 写:8类事务类更新 ◼ 有延迟要求 - SF=1: 140万点,1千万边 - SF=10:1400万点,1亿边 - SF=100,300,1000… ◼ BI Workload - 复杂只读查询+批量写,偏AP - 读:25类读查询 8 LDBC SNB: 模型设计 点 - 14类点:人、论坛… - 反映社交网络的实体 边 - 20类点:创建、关注… - 反映社交网络的实体间关系 其他特性 - 无重复边 - 边上属性和操作无关 9 LDBC SNB: Query举例 测试名:朋友以及朋友的朋友去过的国家 测试说明: 来源: Interactive Workload / Complex Read / 3 给定一个Person的id和两个国家,找到该Person的朋友以及朋友的 朋友中在一段时间发过定位在这两个国家的推文,统计并返回这些朋 友的姓名以及推文数目 10 蚂蚁联合LDBC推进建设基准测试 图Benchmark 行业建设现状 - 新兴领域,方兴未艾 - 场景覆盖不全,需要更多的Benchmark - 缺少国产化主导的标准和Benchmark SPB - Semantic Publishing Benchmark,基于RDF数据的面向语义数据库 (semantic databases) Benchmark Graphalytics SNB - OLAP,面向图分析算法的Benchmark - Social Network Benchmark,社交场景面向图数据库的Benchmark (Interactive + BI) FinBench - Financial Benchmark,金融场景面向图数据库的Benchmark - 蚂蚁集团基于多年金融实践经验提出,多家厂商参与共建中 11 FinBench 与 SNB 的差异 应用场景的区别 查询与计算的区别 ◼ SNB: 社交领域的一些场景 ◼ 更严格的延迟要求 (P999 20ms) ◼ FinBench: 信用风控、反洗钱、资金追踪、 ◼ Read-Write Query,对应真实金融场景 企业风险图谱、精准营销… ◼ 基于滑动时间窗口的数据管理 ◼ “特定形状”的子图匹配,如环、链、上三角、倒三角 ◼ Regular Path Query: 同路径上多个异构边 数据模型的区别 ◼ Path Filtering:递归条件的路径过滤 ◼ 数据分布的差别 ◼… ◼ SNB: 点与点之间无重复边 假设一条资金链路: A -[e1]-> B -[e2]-> ... -> X ◼ FinBench: 大量重复边(同2个账户之间 ◼ 时间单调性约束: e1 < e2 < … < ei ◼ 金额单调性约束: e1 > e2 > … > ei 多笔转账) ◼ 时间窗口约束: ei-1 < ei < ei-1 + △ 12 FinBench: 模型设计 点 边 其他特性 - 5类点:账户、人、介质… - 10类边:转账、持有… - 有重复边(虚线部分) - 反映现实世界的金融实体 - 反映现实世界的金融行为 - 边上属性与操作强相关(金额、时间) 13 FinBench:查询与负载设计 Online Workload 查 询 设 Offline Workload Nearline Workload 延迟: 延迟: 延迟: 10~100毫秒 秒级到分钟级 分钟级到小时级 查询: 查询: - 子图分析 - 更多跳查询 查询: 1-4跳查询 计 查询: 全图分析 Future Work - 20+ read query - 波峰波谷 - 10+ write query 其它设计 - 10+ read-write query - … - TTL数据管理 - 定期数据回流 - … 14 FinBench:Read-Write Query举例 Read-Write Query Abort Phase 2 (Write Query): 插入转账边 由Read Query 和Write Query 构成 Write Query True False Read Query 构成 Phase 1 (Read Query): 查询账户标黑状态 Phase 3 (Read Query): 3度转账环查询 True Abort Phase 4 (Write Query): 涉及账户标黑 15 False Commit FinBench:目前进展 设计进展 共建情况 ◼ 集团内部基于业务实践,经历3个大版本迭代 ◼ LDBC牵头,多家共建,包括Microsoft、Intel等 ◼ LDBC组织提案得到广泛赞同 ◼ 正在组建项目组,预计4月初Kickoff 下一步计划 ◼ 共建:邀请更多的国内外厂商加入,一起共同建设FinBench ◼ FinBench: 丰富设计,开发Benchmark Suite 16 蚂蚁图数据库TuGraph已经对外商业化输出 我们致力于推动图数据库生态发展,助力客户深入挖掘数据价值 17 蚂蚁集团积极参与行业标准与生态建设 01 国际标准 《ISO/IEC 39075 : Graph Query Language》 ISO/IEC JTC1 SC32,蚂蚁做为国内核心参与者,(国内唯一一家)已提出若干 提案并被接纳 02 《信息技术 图数据库系统技术要求》 国家标准 全国信息技术标准化技术委员会,蚂蚁牵头 《图数据库白皮书》 03 行业标准 中国信息通信研究院 & 大数据技术标准推进委员会,蚂蚁核心提案 《大数据 图数据库技术要求与测试方法》 中国通信标准化协会,蚂蚁核心提案 《金融IT基础设施 存储应用实施指南》 全国金融标准化技术委员会,蚂蚁牵头,已立项,已完成标准草案 04 国际组织 《金融图数据库测试Benchmark建议书》 蚂蚁已提交到关联数据基准委员会(LDBC, Linked Data Benchmark Council) 同时,受邀成为LDBC Sponsor(全球仅四家) 18 总结 ◼ 图数据库是图谱应用系统的核心,benchmark是图数据库选型的最有力工具 ◼ Benchmark是一种事实标准,对图数据库发展至关重要 ◼ FinBench是面向金融场景的图benchmark,欢迎更多人参与一起制定 ◼ TuGraph是高性能HTAP图数据库,欢迎合作,欢迎加入团队 19 联系方式 蚂蚁集团图平台: tugraph@service.alipay.com 洪春涛 chuntao.hct@antgroup.com 20
蚂蚁集团 图数据库选型方法 问题 方法与工具
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 路人甲 于 2022-08-13 07:16:32上传分享