专利一种材料知识图谱的构建方法、材料知识图谱及应用

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210303420.1 (22)申请日 2022.03.24 (71)申请人北京大学深圳研究生院地址 518055 广东省深圳市南山区西丽街道深圳大学城北大园区H栋208室 (72)发明人潘锋　聂志伟　李舜宁　 (74)专利代理机构深圳鼎合诚知识产权代理有限公司 4 4281 专利代理师李小焦　彭家恩 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/901(2019.01) G06F 16/9038(2019.01) G06V 10/764(2022.01) G06V 10/26(2022.01)G06K 9/62(2022.01) G16C 60/00(2019.01) G06N 5/02(2006.01) (54)发明名称一种材料知识图谱的构建方法、材料知识图谱及应用 (57)摘要本申请公开了一种材料知识图谱的构建方法、材料知识图谱及应用。本申请的构建方法，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片，分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息，根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。本申请方法，为包含文本、晶体结构和材料表征图片三种形式信息的多模态材料知识图谱构建流程，构建的材料知识图谱，更完整、高效，可实现对过往材料科学信息的高效分析与管理，实现基于数据驱动的材料科学知识发现，对材料科学信息进行高效溯源分析，实现对新材料的推理预测，加速新材料的设计与发现。权利要求书3页说明书12页附图3页 CN 114896408 A 2022.08.12 CN 114896408 A 1.一种材料知识图谱的构建方法，其特征在于：包括以下步骤，数据获取步骤，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；特征抽取步骤，包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注；知识融合步骤，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。 2.根据权利要求1所述的构建方法，其特征在于：还包括存储和应用步骤；所述存储和应用步骤，包括对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示；优选的，所述文本信息的数据处理中，对不同来源的文本信息进行融合，获得目标材料实体的特征信息，具体包括，对不同来源的文本进行词嵌入训练，得出不同来源的文本的词向量，采用注意力机制对不同来源的文本的词向量进行融合，得到最终的融合向量；优选的，所述不同来源的文本包括所有材料文本、目标材料文本、重要信息文本；所述所有材料文本是指所有的材料文本，所述目标材料文本是指研究的目标材料的相关文本，所述重要信息文本是指包含重要信息的文本；优选的，所述晶体结构信息的数据处理中，对晶体结构数据进行编码，将结构信息向量化，具体包括，采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化；优选的，所述材料表征图片的数据处理中，对材料表征图片进行处理，提取图形特征，包括对材料形状、边缘、尺寸、原子空间分布进行特征提取；优选的，所述材料表征图片的数据处理，具体包括，使用基于深度学习的图像分割算法对材料表征图片进行处理，采用语义分割将材料表征图片分割成若干个部分，从中提取图形特征。 3.根据权利要求1或2所述的构建方法，其特征在于：所述作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位；优选的，所述知识融合步骤还包括，在进行三类实体的对应和关联之前，进行作者消歧处理；所述作者消歧处理包括， (1)使用机器学习模型 ‑朴素贝叶斯模型，将作者信息按照对应的摘要文本进行分类； (2)使用数据库重复检测技术 ‑匹配依赖算法，对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分 “块”，将相似度高的作者信息分类于一个“块”中； (3)再次应用朴素贝叶斯模型，对步骤(2)获得的每个 “块”再次进行分类，减少错误及重复关联； (4)利用CTANE算法进行匹配，通过剪枝策略对CTANE算法每一层的候选集进行剪枝，提升信息匹配的速度和效率。权　利　要　求　书 1/3 页 2 CN 114896408 A 24.根据权利要求1 ‑3任一项所述的构建方法获得的材料知识图谱。 5.一种构建材料知识图谱的装置，其特征在于：包括数据获取模块、特征抽取模块和知识融合模块；数据获取模块，包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；特征抽取模块，包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；其中，文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注；知识融合模块，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。 6.根据权利要求5所述的装置，其特征在于：还包括存储和应用模块；所述存储和应用模块，包括用于对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示；优选的，所述文本信息的数据处理中，对不同来源的文本信息进行融合，获得目标材料实体的特征信息，具体包括，对不同来源的文本进行词嵌入训练，得出不同来源的文本的词向量，采用注意力机制对不同来源的文本的词向量进行融合，得到最终的融合向量；优选的，所述不同来源的文本包括所有材料文本、目标材料文本、重要信息文本；所述所有材料文本是指所有的材料文本，所述目标材料文本是指研究的目标材料的相关文本，所述重要信息文本是指包含重要信息的文本；优选的，所述晶体结构信息的数据处理中，对晶体结构数据进行编码，将结构信息向量化，具体包括，采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化；优选的，所述材料表征图片的数据处理中，对材料表征图片进行处理，提取图形特征，包括对材料形状、边缘、尺寸、原子空间分布进行特征提取；优选的，所述材料表征图片的数据处理，具体包括，使用基于深度学习的图像分割算法对材料表征图片进行处理，采用语义分割将材料表征图片分割成若干个部分，从中提取图形特征；优选的，所述作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位；优选的，所述知识融合模块，还包括用于在进行三类实体的对应和关联之前，进行作者消歧处理；所述作者消歧处理包括， (1)使用机器学习模型 ‑朴素贝叶斯模型，将作者信息按照对应的摘要文本进行分类； (2)使用数据库重复检测技术 ‑匹配依赖算法，对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分 “块”，将相似度高的作者信息分类于一个“块”中； (3)再次应用朴素贝叶斯模型，对步骤(2)获得的每个 “块”再次进行分类，减权　利　要　求　书 2/3 页 3 CN 114896408 A 3

专利 一种材料知识图谱的构建方法、材料知识图谱及应用

专利一种材料知识图谱的构建方法、材料知识图谱及应用