全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221020840 5.9 (22)申请日 2022.03.04 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号南京大学 (72)发明人 张建兵 王颖 黄书剑 戴新宇  陈家骏  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 胡建华 于瀚文 (51)Int.Cl. G06F 40/289(2020.01) G06F 16/28(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种快速构建重叠关系抽取文本数据的方 法 (57)摘要 本发明提供了一种快速构建重叠关系抽取 文本数据的方法, 包括: 步骤1, 构建领域词典; 步 骤2, 获得文本; 步骤3, 分句并组装数据; 步骤4, 将锚文本加入候选实体集; 步骤5, 提取文本中的 非锚文本实体, 同时调整样本的数据分布; 步骤 6, 查询实体在维基知识图谱中的实体编号, 所述 编号作为实体的唯一标识; 步骤7, 查询实体 之间 的关系, 并用所述关系对分句进行关系标注。 本 发明重新精确定义了重叠关系数据的类型, 提供 了一个可以进行研究的数据集, 为重叠关系研究 做好了数据铺垫 。 权利要求书2页 说明书10页 附图4页 CN 114707504 A 2022.07.05 CN 114707504 A 1.一种快速构建重 叠关系抽取文本数据的方法, 其特 征在于, 包括以下步骤: 步骤1, 构建领域词典; 步骤2, 获得文本; 步骤3, 分句并组装数据; 步骤4, 将锚文本加入候选实体集; 步骤5, 提取文本中的非锚文本实体, 同时调整样本的数据分布; 步骤6, 查询实体在维基知识图谱中的实体编号, 所述编号作为实体的唯一标识; 步骤7, 查询实体之间的关系, 并用所述关系对分句进行关系标注。 2.根据权利要求1所述的方法, 其特征在于, 步骤1包括: 采用命名实体识别工具进行词 性标注, 提取 出其中和数据集领域相关的词汇。 3.根据权利要求2所述的方法, 其特征在于, 步骤1具体包括: 获取目标领域的领域文 本, 以逗号为分隔符对文本进行分句, 在得到的分句中统计n ‑gram频率, 取频率在所有n ‑ gram中占前 X1的n‑gram的n‑gram作为词典的词条候选集; 将得到的n ‑gram作为输入送入到在维基百科上预训练好的bert模型, 得到第一类词向 量, 同时将维基百科数据库中的词条也送入bert模型, 得到第二类词向量; 将两类词向量放 在一起进 行聚类, 以维基百科数据库中的词条为中心选取聚类之后得到以所述维基词条为 中心的n‑gram分布, 分别对维基中心词条及其周围的n ‑gram进行过滤, 得到最终的领域词 典。 4.根据权利要求3所述的方法, 其特 征在于, 步骤2包括: 以步骤1中得到的维基词条为候选词, 以维基语料为语料库, 遍历候选词, 每一个词都 相应地抓取维基百科页面的描述以及正文的第一句, 得到的文本和符号的集合作为基础语 料。 5.根据权利要求4所述的方法, 其特征在于, 步骤3包括: 设定句法模板, 截取步骤2得到 的基础语料中的描述部 分和正文文本的第一句话作为候选文本, 用词性标注工具对文本进 行词性打标, 句法模板匹配度高的则判定是有效文本, 通过如下公式计算句法模板匹配度 D: 其中A0、 A1分别为中心词在句法模板中的开始位置和结束位置, D0、 D1分别为文本中词条 名出现的开始位置和结束位置, θ为头实体设定比例值, n为实体词的数量,i为第i个实体的 类别,′i为句法模板中第i个实体的类别。 6.根据权利要求5所述的方法, 其特 征在于, 步骤4包括: 锚文本是维基语料中以超链接的形式标注好的词语序列, 这部分词语序列直接作为候 选实体。 7.根据权利要求6所述的方法, 其特征在于, 步骤5包括: 非锚文本实体, 指的是句子中 在锚文本之外的词语序列中可能存在的实体, 提取非锚文本实体的方法包括: 用命名实体 识别工具对步骤3中得到的数据中的句子进 行打标, 统计实体类型出现的频率, 呈现出长尾 分布, 使得数据集中随着样 本数量的增加, 每个样本带来的收益偏向递减, 采用统计重加权 的方法调整 数据集, 具体的做法为: 按照句子中实体类型组合对样本进 行分类, 得到样 本的 类别, 随后使用Box ‑Cox变换调整数据分布。权 利 要 求 书 1/2 页 2 CN 114707504 A 28.根据权利要求7 所述的方法, 其特 征在于, 步骤6包括: 步骤6‑1, 读取输入字串; 步骤6‑2, 提及检测: 把输入文本按照n ‑gram的方式进行拆解, 根据 步骤1中得到的实体 词n‑gram映射得到提及; 步骤6‑3, 结合wikidata维基知识图谱、 wiki  alias维基别名和EDA英文数据增强工具 对步骤6‑2生成的提及做候选实体生 成, 在维基知识图谱中查询实体对应的编号, 生 成的数 据格式为 【正确实体及其编号; 候选实体1; 候选实体2; 候选实体3; . .. 】 ; 步骤6‑4, 基于wikidata维基知识图谱做 实体消歧: 将步骤6 ‑3生成的候选实体、 正确实 体和步骤3中根据句法模板匹配得到的句子以 【词语序列; 正确实体; 候选实体1; 候选实体 2; 候选实体3; ... 】 的字 符序列格式送入到基于BERT的实体消歧模 型中进行计算; 所述 实体 消歧模型的输入为 【分句的词语序列; 提及】 , 经过b ert模型后, 取输出的512个数值 向量中 的第一个向量作为提及的向量表示; 将所述第一个 向量与步骤1中聚类过程中使用的向量 和得到的候选实体的数值向量进行匹配, 得到候选实体与输入提及之间的关系矩阵; 步骤6‑5, 根据关系矩阵, 选取概 率得分最高的一行对应的实体作为 正确实体。 9.根据权利要求8所述的方法, 其特征在于, 步骤7包括: 基于远程监督的假设, 对步骤6 中得到的正确实体之间的关系进 行标注, 当两个实体之间在wikidata维基知识图谱中存在 关系时, 便判定句 子所表达的语义关系符合维基知识图谱中存在的对应关系, 具体包括如 下步骤: 步骤7‑1, 将步骤4得到的候选实体和步骤5得到的经过Box ‑Cox操作之后的句子为输入 序列, 通过一层神经网络得到实体的表示的数值向量; 步骤7‑2, 将分句作为输入序列, 通过一层神经网络得到分句表示的数值向量; 步骤7‑3, 将实体表示的数值向量和分句表示的数值向量以点积注意力的方式求凸组 合结果, 通过一层softmax预测出关系分类的概 率; 步骤7‑4, 取概率最大的那一行作为实体和分句对的关系。 10.根据权利要求9所述的方法, 其特 征在于, 还 包括步骤8: 步骤8‑1, 经过步骤1~步骤7, 得到一批粗标的数据结果; 步骤8‑2, 设计查询函数对已标注的数据进行采样, 采用基于置信度最低的方法对数据 进行采样, 也 就是选择最大概 率最小的样本进行 标注, 并采样百分之十的数据查看正确率; 步骤8‑3, 将标注的数据重新送进步骤1~步骤8的流程, 当采样出来的数据正确率大于 百分之九十五时, 流 程终止。权 利 要 求 书 2/2 页 3 CN 114707504 A 3

.PDF文档 专利 一种快速构建重叠关系抽取文本数据的方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种快速构建重叠关系抽取文本数据的方法 第 1 页 专利 一种快速构建重叠关系抽取文本数据的方法 第 2 页 专利 一种快速构建重叠关系抽取文本数据的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。