全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151564.6 (22)申请日 2022.09.21 (71)申请人 中国电子科技 集团公司第十四研究 所 地址 210039 江苏省南京市雨 花台区国睿 路8号 (72)发明人 周玉军 于俊朋 欧阳可赛  杨予昊 李大圣  (74)专利代理 机构 北京铸成博信知识产权代理 事务所(普通 合伙) 16016 专利代理师 王庆庆 (51)Int.Cl. G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 16/901(2019.01)G06F 16/26(2019.01) (54)发明名称 一种领域知识图谱可视化构建方法及装置 (57)摘要 本发明涉及人工智能通用技术领域, 公开了 一种领域知识图谱可视化构建方法及装置, 可用 于针对特定领域多源异构数据进行知识图谱的 自动化持续构建。 所述构建方法包括: 获取用于 构建领域知识图谱的数据源; 通过可视化方式建 立数据源与领域本体模型的映射, 生成信息抽取 元模型; 基于信息抽取元模型, 自动从数据源中 抽取数据生成知识图谱三元 组; 针对生成的领域 知识图谱三元组, 进行知识融合和存储, 实现可 视化的领域知识图谱持续构建。 本发 明通过可视 化方式降低了领域知识 图谱构建过程的技术复 杂度, 构建过程直观, 能显著提高知识图谱的构 建效率, 同时具备灵活性和通用性, 可应用于各 个业务领域。 权利要求书3页 说明书9页 附图3页 CN 115525768 A 2022.12.27 CN 115525768 A 1.一种领域知识图谱可视化构建方法, 其特 征在于, 该 方法步骤如下: 步骤S101、 获取用于构建领域知识图谱的多源异构数据源; 步骤S102、 通过 可视化方式建立数据源与领域本体模型的映射, 生成信息抽取 元模型; 步骤S103、 基于信息抽取 元模型, 自动从数据源中抽取 数据生成知识图谱三元组; 步骤S104、 针对生成的领域知识图谱三元组, 进行知识融合和存储, 实现可视化的领域 知识图谱持续构建。 2.根据权利要求1所述的方法, 其特 征在于, 步骤S101具体包括: 根据特定领域业务场景, 创建领域相关的业务概念和关系, 生成领域本体模型, 其中包 含概念、 属性类型以及概念之间的关系; 将数据源按特定领域 业务场景进行分类, 包 含结构化数据和非结构化数据; 针对结构化数据源, 依据领域本体模型进行数据预处理, 将每一个业务概念表示成一 类结构, 该结构字段与领域本体模型中的一个概念及其属 性逐一对应; 将数据源中相关的 一个或多个结构化数据表或文件预处 理成前述结构; 针对非结构化数据, 统一预处 理成UTF‑8编码的文本文件数据; 创建领域 概念时, 同步创建概念相关的自身属性类型。 3.根据权利要求1所述的方法, 其特征在于, 步骤S102中, 生成特定领域的信息抽取元 模型的方法具体包括: 步骤S201、 读取预先创建的领域本体模型, 并可视化展现出其中的领域概念、 属性以及 各种关系; 步骤S202、 读取用于构建领域知识图谱的数据源; 步骤S203、 通过可视化方式将数据源中的实体、 关系与领域本体模型中的概念、 关系进 行对应, 具体包括: 针对特定领域预处理后的结构化数据, 读取每一类实体对应的表或文件结构, 通过可 视化方式将结构中的字段与领域本体模型中的概念及其属性逐一对应, 生成结构化数据信 息抽取元模型; 针对特定领域预处理后的文本数据, 从中选择一定数量的文本数据进行可视化序列标 注, 生成文本数据信息抽取元模 型; 基于领域本体模型, 将文本数据中的实体序列标注为领 域本体模型中对应的概念实体, 将文本数据中的实体属性序列标注为领域本体模型中对应 的概念实体属性, 实体之间关系自动通过 领域本体模型中对应的概念关系生成; 步骤S204、 存 储信息抽取 元模型; 生成的每一种信息抽取 元模型作用于具有相同结构的数据源。 4.根据权利 要求1所述的方法, 其特征在于, 步骤S103中, 基于信息抽取元模型, 自动从 数据源中抽取 数据生成知识图谱三元组的方法具体包括: 针对结构化数据源, 通过解析前述生成的信息抽取元模型, 信息抽取模型获取数据源 字段与领域本体模型的映射关系, 并根据映射关系从数据源中抽取数据生成领域知识图谱 三元组(实体, 关系, 属性)或(实体, 关系, 实体); 针对非结构化数据源, 信息抽取模型从输入的文本数据中自动识别出特定领域的实 体、 属性以及关系, 并依据所述信息抽取元模型, 将抽取出的信息组合生成领域知识图谱三 元组(实体, 关系, 属性)或(实体, 关系, 实体);权 利 要 求 书 1/3 页 2 CN 115525768 A 2其中, 针对特定领域文本数据的一种信息抽取模型 可视化训练方法, 具体包括: 步骤S301、 创建面向文本数据的信息抽取模型; 信息抽取模型为先实体抽取、 后关系抽取的串行抽取模型或实体抽取、 关系抽取融合 的联合抽取模型; 步骤S302、 基于标注的特定领域信息抽取 数据集训练信息抽取模型; 基于通过可视化标注生成的文本数据信 息抽取元模型, 对选择的所述信 息抽取模型进 行训练, 得到特定领域文本数据信息抽取模型; 步骤S303, 发布特定领域文本数据信息抽取模型; 通过可视化方式从预先创建的信息抽取模型列表中选择用于特定领域文本数据的信 息抽取模型。 5.根据权利要求1所述的方法, 其特 征在于, 步骤S104具体包括: 基于预先创建的领域本体模型, 依据概念及其属性, 通过可视化方式设置每种领域概 念对应实体的融合规则; 针对领域本体模型中的每个概念, 选择用于知识融合的属性, 并为 每个属性取值设置相似度度量函数和相似度度量阈值; 同一概念实体下的多个知识融合度 量属性之间的关系为逻辑与关系; 知识融合模块读取知识融合规则, 依据融合规则, 计算实体或属性相似度, 进行所述知 识图谱三元组的知识融合处 理; 针对所述知识融合后的知识图谱三元组, 知识存 储模块将其存 储至相应的数据库; 针对特定领域持续产生的知识图谱数据源, 信息抽取模块基于所述信息抽取元模型, 对相同结构的数据源进行持续信息抽取, 并生成领域知识图谱三元组。 6.一种领域知识图谱可视化构建装置, 其特征在于, 数据源获取模块, 用于持续获取特 定领域中用于构建领域知识图谱的结构化数据和非结构化数据, 并对数据源进行预处理操 作; 数据映射模块, 用于提供可视化的数据映射机制, 将数据源中属于领域知识图谱中的 实体、 属性与预 先创建的领域本体模型中的概念、 属性进行对应; 信息抽取模块, 用于持续自动地抽取特定领域数据源中的实体、 属性及关系, 并生成领 域知识图谱三元组(实体, 关系, 属性)或(实体, 关系, 实体); 知识融合模块, 用于提供可视化的领域知识图谱中相似实体的融合配置机制, 并根据 预先创建的融合规则计算待融合实体与实体、 属 性与属性之间的彼此相似度, 实现知识融 合操作; 知识存储模块, 用于提供将领域知识图谱三元组进行持续持久化的机制。 7.根据权利要求6所述的装置, 其特 征在于, 所述数据源获取模块, 包括: 领域本体模型创建单元, 用于提供可视化机制建立特定领域中概念、 属性及其关系模 型; 结构化/半结构化数据 预处理单元, 针对特定领域原始结构化或半结构化数据, 提供数 据预处理操作实现数据结构语义与领域相关概念、 属性及关系的对应; 非结构化数据预处理单元, 提供抽取转换程序将文件存储格式统一为UTF ‑8编码的文 本文件数据; 所述数据映射模块, 包括:权 利 要 求 书 2/3 页 3 CN 115525768 A 3

.PDF文档 专利 一种领域知识图谱可视化构建方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种领域知识图谱可视化构建方法及装置 第 1 页 专利 一种领域知识图谱可视化构建方法及装置 第 2 页 专利 一种领域知识图谱可视化构建方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。