ICS35.240.40 CCS A 11 中华人民共和国国家标准 GB/T 42777—2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南 Financial risk prevention and control based on text data- Technical framework guidelines for knowledge graph construction 2023-08-06实施 2023-08-06发布 国家市场监督管理总局 发布 国家标准化管理委员会 GB/T 42777—2023 目 次 前言 1 范围 2 规范性引用文件 3 术语和定义 4 知识图谱与风险防控概述 整体架构 4.1 4.2 基础支撑层 4.3 数据源层 4.4 知识抽取与加工层 4.5 知识管理层 4.6 知识挖掘与分析层 4.7 风险防控应用层 4.8 知识服务交互层 知识图谱构建 5 5.1 构建步骤 5.2 知识抽取加工 5.3 知识存储 5.4 图分析与图挖掘 6基于知识图谱的风险防控应用 6.1 风险防控关键信息及模型 6.2 典型风险防控应用场景 附录A(资料性)实体标准接口及参数说明示例 10 附录B(资料性) 关系标准接口及参数说明示例 11 参考文献 13 GB/T42777—2023 前言 本文件按照GB/T1.1一2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国金融标准化技术委员会(SAC/TC180)归口。 本文件起草单位:中国银行业协会、中国标准化研究院、中国工商银行股份有限公司、青岛银行股份 有限公司、兰州银行股份有限公司、江苏江南农村商业银行股份有限公司、北京海致星图科技有限公司。 本文件主要起草人:高峰、赵成刚、仲峻锋、曹馨宇、刘涌、杨斌、苗小军、胡正洪、杨娟、翟士丹、刘庆 GB/T 42777—2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南 1范围 知识图谱的风险防控应用的指南。 本文件适用于金融机构开展基于文本数据的金融风险防控知识图谱构建工作。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T36618一2018信息安全技术 金融信息服务安全规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 实体 entity 具有独立逻辑含义的一类概念、人、事物。 注:例如企业、自然人、裁判文书、标书、账户等。 3.2 关系 relationship 实体与实体之间在特定时间、特定行为下产生的联系。 注:例如企业实体之间的股权关系、转账关系、担保关系等 3.3 属性 attribute 实体或关系所具有的特性。 3.4 知识图谱 knowledgegraph 对客观世界的概念、实体及其关系的结构化描述。 3.5 一致行动人 persons acting in concert 在上市公司的收购及相关股份权益变动活动中有一致行动情形的投资者。 权数量的行为或者事实。 1 GB/T427772023 3.6 应用程序接口 application programming interface;API 预先定义好的、无需开发者关注服务的设计与实现就能便捷地访问相关服务的一组功能或功能的 组合。 4知识图谱与风险防控概述 4.1 整体架构 知识图谱将数据加工为知识,并通过智能分析挖掘,提炼形成风险防控的方法和技术实施路径。基 于知识图谱的风险防控整体架构如图1所示。 知识 服务 PC端 移动端 API 贞面坡入 交互 层 风险信号 风险视图 关系分析 形态挖趣 风险监控 风险 产品风险 行业风险 基本信总 风险标签 投资分析股东分析 防控 异常借贷异常还款 自身风险 关联风险 关联关系资产交易 招标分析高告分析 算带扣保长链控橱 区域风险系统风险 监控名单 推送管理 应用 风险事件负面奥情 涉诉分析担保分析 政策突变外部险惜 救诈社区隐藏关系 闽值管理信息反饼 实时图查询 图谱搜素 离线图查询 图算法 图机器学习 知识 K层展开 语义解析 一对多路径 连巡分支 分类模型 挖掘 最短/全路径 权重分析 多对多路径 强连分支 聚类模型 社区探测 企文检索 批量实体间 度中心性 关联模型 析层 环图查询 实体判断 批量K层展开 频繁了阁 回归模型 知识 管理 图数据存储 企文检索引擎 属性数据行储 元数据配置管理 知识 抽取 知识抽取 本体设计 实例获取 知识融合 任务调度 与加 工层 工商注册信息 高管信息 业内动态 客户信息 产品信息 外部数据 内部数拼 数据 (结构化、半结 股权关系 商机线索 招标信息 交易信息 行业关系 (结构化、半统 源层 构化、 非结构化) 构化、非结构化 投资关系 风险事件 业务动态 ...... 基础 支撑 人数据平台 数据仓库 机器学习 白然语言处理 层 图1基于知识图谱的风险防控整体架构 基于知识图谱的风险防控整体架构按照数据流转方向自下而上包含基础支撑层、数据源层、知识抽 2 GB/T42777—2023 取与加工层、知识管理层、知识挖掘与分析层、风险防控应用层和知识服务交互层 4.2基础支撑层 基础支撑层是知识图谱构建所需的基础技术支撑,主要包括大数据平台、数据仓库、机器学习、自然 语言处理。 4.3数据源层 的数据形态包括结构化数据、半结构化数据及非结构化数据。 4.4知识抽取与加工层 知识抽取与加工层将数据源层的各类型数据通过知识抽取、本体设计、实例获取、知识融合、任务调 度,加工形成满足要求的数据。 4.5知识管理层 知识管理层将知识抽取与加工层形成的数据作为输入,通过图数据存储、全文检索引擎、属性数据 存储和元数据配置管理等模块化处理,实现知识图谱展现结果的有效管理和高效访问。 4.6知识挖掘与分析层 知识挖掘与分析层通过实时图查询、图谱搜索、离线图查询、图算法、图机器学习等技术,形成具有 特定模式的标准化的图分析挖掘结论,服务后续风险防控应用层的构建。 4.7风险防控应用层 风险防控应用层利用知识挖掘与分析层重点实现与金融有关风险的防控,包括各类金融机构所面 临的信用风险、市场风险、操作风险等,通过风险信号、风险视图、关系分析、形态挖掘、风险监控,分析推 演风险成因、性质、等级,形成对风险的识别、预警和处置策略。 4.8知识服务交互层 知识服务交互层将风险防控应用层形成的风险结果及处理机制规范化成可供各种终端或其他相关 的示例见附录A,关系标准接口与参数说明的示例见附录B。 5知识图谱构建 5.1 构建步骤 本文件采用自顶向下的方法构建知识图谱,具体步骤如图2所示 开始 知识抽取加工 知识存储 图分析图挖据 结束 图2知识图谱构建步骤 知识抽取加工的目标是将数据源层结构化、半结构化和非结构化数据转化形成满足知识图谱存储 要求的标准形式,主要包括数据甄别、数据清洗、数据转换和数据融合等步骤。知识存储的目标是有效 3 GB/T42777—2023 管理知识图谱依赖的属性数据、图数据、全文检索数据,高效访问数据动态更新后的可视化结果。图分 析与图挖掘在知识推理技术之上构建分析模型和算法挖掘模型,对知识图谱进行深人挖掘,生成分析挖 掘结果,支撑后续金融风险防控场景构建。 5.2 知识抽取加工 5.2.1知识抽取 5.2.1.1抽取步骤 宜尽量选择结构化程度相对较高、质量较优的数据源,以便尽可能降低知识抽取成本。需要根据数 据来源选择差异化的数据抽取及加工方式。知识抽取的主要步骤包括数据甄别、数据清洗、数据转换、 数据融合4个步骤。 数据甄别宜明确建立知识图谱的数据来源。可能的数据来源主要包括: ·互联网公开数据; ·通用百科图谱; ·内部业务数据; ·其他外部数据。 数据清洗是对数据中的干扰项,特别是来自互联网的错误信息、虚假信息进行清洗,对表示不 规范的数据进行统一与规范。 数据转换是将不同形式、不同格式的数据转换成统一的表达形式。 5.2.1.2 标准接口对接 标准接口主要用于对接已完成抽取加工的各种数据,包括实体数据和关系数据。通过实体接口和 数据文件; 一应用程序接口(API)。 通过API进行数据传输时可参考附录A与附录B的内容进行接口标准制定,接口格式方面主要包 括JavaScript对象简谱(JSON)、可扩展标记语言(XML)、另一种标记语言(YAML)等多种形式。 注1:JSON是一种轻量级的数据交换格式。 注2:XML是一种简单的数据存储语言。 注3:YAML是一个可读性高,用来表达数据序列化的格式。 5.2.2知识加工 知识加工以知识抽取阶段形成的高质量基础数据作为输入,输出高质量的知识图谱构建所依赖的 实体、关系数据并形成金融风险知识库。主要包括知识加工的步骤如下所列。 一本体设计的内容主要包括: ·概念层定义:明确定义知识图谱构建需要的实体类型与关系类型; ·属性定义:明确知识图谱构建的各类实体需要的属性名称; ?纳束/规则定义:明确需要约定的限定条件与规则; ·模式精简:对同样范围的实体、关系,选择尽量精简的关联与表达方式。 一实例获取的内容主要包括: ,实体识别:在完成知识抽取后的数据中识别上述已经明确的实体类型对应数据; 关系识别:在完成知识抽取后的数据中识别上述已经明确的关系类型对应数据; 4

pdf文档 GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南 第 1 页 GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南 第 2 页 GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南 第 3 页
下载文档到电脑,方便使用
本文档由 思安2023-09-10 13:10:35上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言