全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210303420.1 (22)申请日 2022.03.24 (71)申请人 北京大学深圳研究生院 地址 518055 广东省深圳市南 山区西丽 街 道深圳大 学城北大园区H栋208室 (72)发明人 潘锋 聂志伟 李舜宁  (74)专利代理 机构 深圳鼎合诚知识产权代理有 限公司 4 4281 专利代理师 李小焦 彭家恩 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/901(2019.01) G06F 16/9038(2019.01) G06V 10/764(2022.01) G06V 10/26(2022.01)G06K 9/62(2022.01) G16C 60/00(2019.01) G06N 5/02(2006.01) (54)发明名称 一种材料知识图谱的构建方法、 材料知识图 谱及应用 (57)摘要 本申请公开了一种材料知识图谱的构建方 法、 材料知识图谱及应用。 本申请的构建方法, 包 括分别获取材料及其相关的文本信息、 晶体结构 信息和材料表征图片, 分别对文本信息、 晶体结 构信息和材料表征图片进行数据处理, 抽取特征 信息, 根据特征抽取步骤标注的标签对文本信 息、 晶体结构信息和材料表征图片三类实体进行 对应和关联, 获得材料知识图谱。 本申请方法, 为 包含文本、 晶体结构和材料表征图片三种形式信 息的多模态材料知识图谱构建流程, 构建的材料 知识图谱, 更完整、 高效, 可实现对过往 材料科学 信息的高效分析与管理, 实现基于数据驱动的材 料科学知识发现, 对材料科学信息进行高效溯源 分析, 实现对新材料的推理预测, 加速新材料的 设计与发现。 权利要求书3页 说明书12页 附图3页 CN 114896408 A 2022.08.12 CN 114896408 A 1.一种材 料知识图谱的构建方法, 其特 征在于: 包括以下步骤, 数据获取步骤, 包括分别获取材料及其相关的文本信息、 晶体结构信息和材料表征图 片; 所述文本信息为包括文献标题、 摘要、 关键词、 正文、 支撑材料、 参考文献在内的全文信 息, 以及相应的作者信息; 特征抽取步骤, 包括分别对文本信 息、 晶体结构信息和材料表征图片进行数据处理, 抽 取特征信息; 文本信息的数据处理, 包括对不同来源的文本信息进 行融合, 获得目标材料实 体的特征信息, 对文本类型实体进行标注; 晶体结构信息的数据处理, 包括对晶体结构数据 进行编码, 将结构信息向量化, 根据晶体结构文件的名称对结构 类型实体进行标注; 材料表 征图片的数据处理, 包括对 材料表征图片进 行处理, 提取图形特征, 根据 表征图片的标题信 息对图片类型实体进行 标注; 知识融合步骤, 包括根据特征抽取步骤标注的标签对文本信息、 晶体结构信息和材料 表征图片三类实体进行对应和关联, 获得 材料知识图谱。 2.根据权利要求1所述的构建方法, 其特 征在于: 还 包括存储和应用步骤; 所述存储和应用步骤, 包括对知识融合步骤获得的材料知识图谱进行存储, 并在可视 化插件的支持下对材 料知识图谱进行查询、 分析和展示; 优选的, 所述文本信 息的数据处理中, 对不同来源的文本信 息进行融合, 获得目标材料 实体的特征信息, 具体包括, 对不同来源的文本进 行词嵌入训练, 得出不同来源的文本的词 向量, 采用注意力机制对不同来源的文本的词向量进行融合, 得到最终的融合向量; 优选的, 所述不同来源的文本包括所有材料文本、 目标材料文本、 重要信息文本; 所述 所有材料文本是指所有的材料文本, 所述 目标材料文本是指研究的目标材料 的相关文本, 所述重要信息文本是指包 含重要信息的文本; 优选的, 所述晶体结构信 息的数据处理中, 对晶体结构数据进行编码, 将结构信 息向量 化, 具体包括, 采用图论、 库伦矩阵、 拓扑描述符和倒空间信息中的至少一种对晶体结构信 息进行向量 化; 优选的, 所述材料表征图片的数据处理中, 对材料表征图片进行处理, 提取图形特征, 包括对材 料形状、 边缘、 尺寸、 原子空间分布进行 特征提取; 优选的, 所述材料表征图片的数据处理, 具体包括, 使用基于深度 学习的图像分割算法 对材料表征图片进行处理, 采用语义分割将材料表征图片分割成若干个部分, 从中提取图 形特征。 3.根据权利要求1或2所述的构建方法, 其特征在于: 所述作者信 息包括作者的姓氏、 名 字、 开放研究者与贡献者身份识别码、 电子邮箱地址、 所属机构单位; 优选的, 所述知识融合步骤还包括, 在进行三类实体的对应和关联之前, 进行作者消歧 处理; 所述作者消歧处理包括, (1)使用机器学习模型 ‑朴素贝叶斯模型, 将作者信息按照对 应的摘要文本进 行分类; (2)使用数据库重复检测技术 ‑匹配依赖算法, 对步骤(1)获得的每 个分类中的作者信息及其相应的文本信息按照相似性分 “块”, 将相似度高的作者信息 分类 于一个“块”中; (3)再次应用朴素贝叶斯模 型, 对步骤(2)获得的每个 “块”再次进行分类, 减 少错误及重复关联; (4)利用CTANE算法进行匹配, 通过剪枝策略对CTANE算法每一层的候选 集进行剪枝, 提升信息匹配的速度和效率。权 利 要 求 书 1/3 页 2 CN 114896408 A 24.根据权利要求1 ‑3任一项所述的构建方法获得的材 料知识图谱。 5.一种构建材料知识图谱的装置, 其特征在于: 包括数据获取模块、 特征抽取模块和知 识融合模块; 数据获取模块, 包括用于分别获取材料及其相关的文本信息、 晶体结构信息和材料表 征图片; 所述文本信息为包括文献标题、 摘要、 关键词、 正文、 支撑材料、 参考文献在内的全 文信息, 以及相应的作者信息; 特征抽取模块, 包括用于分别对文本信息、 晶体结构信息和材料表征图片进行数据处 理, 抽取特征信息; 其中, 文本信息的数据处理, 包括对不同来源的文本信息进 行融合, 获得 目标材料实体的特征信息, 对文本类型实体进行标注; 晶体结构信息的数据处理, 包括对晶 体结构数据进行编码, 将结构信息 向量化, 根据晶体结构文件的名称对结构类型实体进行 标注; 材料表征图片的数据处理, 包括对材料表征图片进行处理, 提取图形特征, 根据表征 图片的标题信息对图片类型实体进行 标注; 知识融合模块, 包括根据特征抽取步骤标注的标签对文本信息、 晶体结构信息和材料 表征图片三类实体进行对应和关联, 获得 材料知识图谱。 6.根据权利要求5所述的装置, 其特 征在于: 还 包括存储和应用模块; 所述存储和应用模块, 包括用于对知识融合步骤获得的材料知识图谱进行存储, 并在 可视化插 件的支持下对材 料知识图谱进行查询、 分析和展示; 优选的, 所述文本信 息的数据处理中, 对不同来源的文本信 息进行融合, 获得目标材料 实体的特征信息, 具体包括, 对不同来源的文本进 行词嵌入训练, 得出不同来源的文本的词 向量, 采用注意力机制对不同来源的文本的词向量进行融合, 得到最终的融合向量; 优选的, 所述不同来源的文本包括所有材料文本、 目标材料文本、 重要信息文本; 所述 所有材料文本是指所有的材料文本, 所述 目标材料文本是指研究的目标材料 的相关文本, 所述重要信息文本是指包 含重要信息的文本; 优选的, 所述晶体结构信 息的数据处理中, 对晶体结构数据进行编码, 将结构信 息向量 化, 具体包括, 采用图论、 库伦矩阵、 拓扑描述符和倒空间信息中的至少一种对晶体结构信 息进行向量 化; 优选的, 所述材料表征图片的数据处理中, 对材料表征图片进行处理, 提取图形特征, 包括对材 料形状、 边缘、 尺寸、 原子空间分布进行 特征提取; 优选的, 所述材料表征图片的数据处理, 具体包括, 使用基于深度 学习的图像分割算法 对材料表征图片进行处理, 采用语义分割将材料表征图片分割成若干个部分, 从中提取图 形特征; 优选的, 所述作者信息包括作者的姓氏、 名字、 开放研究者与贡献者身份识别码、 电子 邮箱地址、 所属机构单位; 优选的, 所述知识融合模块, 还包括用于在进行三类实体的对应和关联之前, 进行作者 消歧处理; 所述作者消歧处理包括, (1)使用机器学习模型 ‑朴素贝叶斯模型, 将作者信息按照对 应的摘要文本进 行分类; (2)使用数据库重复检测技术 ‑匹配依赖算法, 对步骤(1)获得的每 个分类中的作者信息及其相应的文本信息按照相似性分 “块”, 将相似度高的作者信息 分类 于一个“块”中; (3)再次应用朴素贝叶斯模 型, 对步骤(2)获得的每个 “块”再次进行分类, 减权 利 要 求 书 2/3 页 3 CN 114896408 A 3

.PDF文档 专利 一种材料知识图谱的构建方法、材料知识图谱及应用

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种材料知识图谱的构建方法、材料知识图谱及应用 第 1 页 专利 一种材料知识图谱的构建方法、材料知识图谱及应用 第 2 页 专利 一种材料知识图谱的构建方法、材料知识图谱及应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。