全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210313413.X (22)申请日 2022.03.28 (71)申请人 中移 (苏州) 软件技 术有限公司 地址 215000 江苏省苏州市高新区昆仑山 路58号1幢 申请人 南通海赛未来数字科技有限公司 (72)发明人 胡静远 刘洪强 沈翀  (74)专利代理 机构 南通云创慧泉专利代理事务 所(普通合伙) 32585 专利代理师 郭宗胜 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/953(2019.01) (54)发明名称 一种面向开 放领域的细粒度知识抽取方法 (57)摘要 本发明提供一种面向开放领域的细粒度知 识抽取方法, 涉及计算机技术领域。 该面向开放 领域的细粒度知识抽取方法, 包括获取初级领域 库本体, 根据现有开放知识图谱确定初级领域库 本体中各个初级领域类型; 通过所述初级领域库 本体。 本发明, 采用DBpedia、 Yago、 Wikidata、 B a b e l N e t 、C o n c e p t N e t 以 及 MicrosoftConceptGraph、 OpenKG中至少三种共 用作为开放知识图谱, 可以大大缓解现有技术中 在对知识元提取时, 存在对领域专家知识依赖性 强的问题, 通过对当前领域类型的语义标签与上 一轮领域类型的语义标签 反复对比, 直到达到相 应的条件, 使得建立的三级领域类型、 三级标注 词库和三级标注 语料库更加准确, 避免了语义模 糊不清的问题, 提高了知识抽取的准确率。 权利要求书2页 说明书3页 附图1页 CN 114676265 A 2022.06.28 CN 114676265 A 1.一种面向开放领域的细粒度知识抽取方法, 其特征在于: 包括获取初级领域库本体, 根据现有开 放知识图谱确定初级领域库本体中各个初级领域类型; 通过所述初级领域库本体, 建立未标注词库, 包括初级领域类型和未标注词库的关联 关系; 通过所述未标注词库和初级领域类型计算得到初级标注词库; 通过所述初级标注词库, 获得初级标注词库中的词语; 基于初级领域库本体, 使用工具在初级领域库本体中查询初级标注词库中的词语, 建 立所述词语与初级领域类型的关联关系, 获得初级标注语料库; 基于初级标注语料库, 建立初级训练模型, 对初级领域库本体进行训练; 抽取分配概 率最大的词语作为初级领域类型的语义标签, 获得二级领域库本体; 基于二级领域库本体, 根据现有开放知识图谱确定二级领域库本体中的二级领域类 型; 通过所述初级标注词库和二级领域类型计算得到二级标注词库; 通过所述二级标注词库, 获得二级标注词库中的词语; 基于二级领域库本体, 使用工具在二级领域库本体中查询二级标注词库中的词语, 建 立所述词语与二级领域类型的关联关系, 获得二级标注语料库; 基于二级标注语料库, 建立 二级训练模型, 对二级领域库本体进行训练; 抽取分配概 率最大的词语作为 二级领域类型的语义标签; 通过工具对比初级领域类型的语义标签与二级领域类型的语义标签相似程度, 当相似 度达到95%及以上时, 获得三级领域库本体以及对应的三级领域类型、 三级标注词库和三 级标注语料库; 基于有三级标注词库中语义标签的词语组成的知识元, 通过工具进行抽取细粒度知 识。 2.根据权利要求1所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 确定领域类型 是指根据领域需求, 获得细粒度知识元类型表, 并获得 未标注领域词库。 3.根据权利要求2所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 开放知识图谱可以是DBpedia、 Yago、 Wikidata、 BabelNet、 ConceptNet以及Microsoft   Concept Graph、 OpenKG中至少三种共用。 4.根据权利要求3所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 标注领域词库具体为通过领域类型计算领域库本体中信息与未标注词 库的语义相似度, 基 于所述语义相似度自动标注未 标注领域词库。 5.根据权利要求4所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 一级训练模型、 二级训练模型均采用LSTM+CRF深度学习和 机器学习相结合, 所述一级训练 模型、 二级训练模型分别是将一级 标注语料库、 二级 标注语料库以词语为单位分成训练集、 发展集和 测试集。 6.根据权利要求5所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 初级领域类型的语义标签与二级 领域类型的语义标签对比时, 当相似度达不到95%及以上 时, 重新进入二级领域库本体的建立动作并循环, 并持续与上一次建立的领域类型语义标 签对比, 直到相似度达 到95%及以上。权 利 要 求 书 1/2 页 2 CN 114676265 A 27.根据权利要求6所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 初级领域库训练过程是指, 将所述初级领域库本体转换为标注语料 的形式, 输入初级训练 模型中, 预测每 个词语被分配到每种初级领域类型的概 率。 8.根据权利要求7所述的一种面向开放领域的细粒度知识抽取方法, 其特征在于: 所述 二级领域库训练过程是指, 将所述二级领域库本体转换为标注语料 的形式, 输入二级训练 模型中, 预测每 个词语被分配到每种二级领域类型的概 率。权 利 要 求 书 2/2 页 3 CN 114676265 A 3

.PDF文档 专利 一种面向开放领域的细粒度知识抽取方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向开放领域的细粒度知识抽取方法 第 1 页 专利 一种面向开放领域的细粒度知识抽取方法 第 2 页 专利 一种面向开放领域的细粒度知识抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。