专利一种快速构建重叠关系抽取文本数据的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221020840 5.9 (22)申请日 2022.03.04 (71)申请人南京大学地址 210023 江苏省南京市栖霞区仙林大道163号南京大学 (72)发明人张建兵　王颖　黄书剑　戴新宇　陈家骏　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师胡建华　于瀚文 (51)Int.Cl. G06F 40/289(2020.01) G06F 16/28(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称一种快速构建重叠关系抽取文本数据的方法 (57)摘要本发明提供了一种快速构建重叠关系抽取文本数据的方法，包括：步骤1，构建领域词典；步骤2，获得文本；步骤3，分句并组装数据；步骤4，将锚文本加入候选实体集；步骤5，提取文本中的非锚文本实体，同时调整样本的数据分布；步骤 6，查询实体在维基知识图谱中的实体编号，所述编号作为实体的唯一标识；步骤7，查询实体之间的关系，并用所述关系对分句进行关系标注。本发明重新精确定义了重叠关系数据的类型，提供了一个可以进行研究的数据集，为重叠关系研究做好了数据铺垫。权利要求书2页说明书10页附图4页 CN 114707504 A 2022.07.05 CN 114707504 A 1.一种快速构建重叠关系抽取文本数据的方法，其特征在于，包括以下步骤：步骤1，构建领域词典；步骤2，获得文本；步骤3，分句并组装数据；步骤4，将锚文本加入候选实体集；步骤5，提取文本中的非锚文本实体，同时调整样本的数据分布；步骤6，查询实体在维基知识图谱中的实体编号，所述编号作为实体的唯一标识；步骤7，查询实体之间的关系，并用所述关系对分句进行关系标注。 2.根据权利要求1所述的方法，其特征在于，步骤1包括：采用命名实体识别工具进行词性标注，提取出其中和数据集领域相关的词汇。 3.根据权利要求2所述的方法，其特征在于，步骤1具体包括：获取目标领域的领域文本，以逗号为分隔符对文本进行分句，在得到的分句中统计n ‑gram频率，取频率在所有n ‑ gram中占前 X1的n‑gram的n‑gram作为词典的词条候选集；将得到的n ‑gram作为输入送入到在维基百科上预训练好的bert模型，得到第一类词向量，同时将维基百科数据库中的词条也送入bert模型，得到第二类词向量；将两类词向量放在一起进行聚类，以维基百科数据库中的词条为中心选取聚类之后得到以所述维基词条为中心的n‑gram分布，分别对维基中心词条及其周围的n ‑gram进行过滤，得到最终的领域词典。 4.根据权利要求3所述的方法，其特征在于，步骤2包括：以步骤1中得到的维基词条为候选词，以维基语料为语料库，遍历候选词，每一个词都相应地抓取维基百科页面的描述以及正文的第一句，得到的文本和符号的集合作为基础语料。 5.根据权利要求4所述的方法，其特征在于，步骤3包括：设定句法模板，截取步骤2得到的基础语料中的描述部分和正文文本的第一句话作为候选文本，用词性标注工具对文本进行词性打标，句法模板匹配度高的则判定是有效文本，通过如下公式计算句法模板匹配度 D：其中A0、 A1分别为中心词在句法模板中的开始位置和结束位置， D0、 D1分别为文本中词条名出现的开始位置和结束位置， θ为头实体设定比例值， n为实体词的数量，i为第i个实体的类别，′i为句法模板中第i个实体的类别。 6.根据权利要求5所述的方法，其特征在于，步骤4包括：锚文本是维基语料中以超链接的形式标注好的词语序列，这部分词语序列直接作为候选实体。 7.根据权利要求6所述的方法，其特征在于，步骤5包括：非锚文本实体，指的是句子中在锚文本之外的词语序列中可能存在的实体，提取非锚文本实体的方法包括：用命名实体识别工具对步骤3中得到的数据中的句子进行打标，统计实体类型出现的频率，呈现出长尾分布，使得数据集中随着样本数量的增加，每个样本带来的收益偏向递减，采用统计重加权的方法调整数据集，具体的做法为：按照句子中实体类型组合对样本进行分类，得到样本的类别，随后使用Box ‑Cox变换调整数据分布。权　利　要　求　书 1/2 页 2 CN 114707504 A 28.根据权利要求7 所述的方法，其特征在于，步骤6包括：步骤6‑1，读取输入字串；步骤6‑2，提及检测：把输入文本按照n ‑gram的方式进行拆解，根据步骤1中得到的实体词n‑gram映射得到提及；步骤6‑3，结合wikidata维基知识图谱、 wiki alias维基别名和EDA英文数据增强工具对步骤6‑2生成的提及做候选实体生成，在维基知识图谱中查询实体对应的编号，生成的数据格式为【正确实体及其编号；候选实体1；候选实体2；候选实体3； . .. 】；步骤6‑4，基于wikidata维基知识图谱做实体消歧：将步骤6 ‑3生成的候选实体、正确实体和步骤3中根据句法模板匹配得到的句子以【词语序列；正确实体；候选实体1；候选实体 2；候选实体3； ... 】的字符序列格式送入到基于BERT的实体消歧模型中进行计算；所述实体消歧模型的输入为【分句的词语序列；提及】，经过b ert模型后，取输出的512个数值向量中的第一个向量作为提及的向量表示；将所述第一个向量与步骤1中聚类过程中使用的向量和得到的候选实体的数值向量进行匹配，得到候选实体与输入提及之间的关系矩阵；步骤6‑5，根据关系矩阵，选取概率得分最高的一行对应的实体作为正确实体。 9.根据权利要求8所述的方法，其特征在于，步骤7包括：基于远程监督的假设，对步骤6 中得到的正确实体之间的关系进行标注，当两个实体之间在wikidata维基知识图谱中存在关系时，便判定句子所表达的语义关系符合维基知识图谱中存在的对应关系，具体包括如下步骤：步骤7‑1，将步骤4得到的候选实体和步骤5得到的经过Box ‑Cox操作之后的句子为输入序列，通过一层神经网络得到实体的表示的数值向量；步骤7‑2，将分句作为输入序列，通过一层神经网络得到分句表示的数值向量；步骤7‑3，将实体表示的数值向量和分句表示的数值向量以点积注意力的方式求凸组合结果，通过一层softmax预测出关系分类的概率；步骤7‑4，取概率最大的那一行作为实体和分句对的关系。 10.根据权利要求9所述的方法，其特征在于，还包括步骤8：步骤8‑1，经过步骤1～步骤7，得到一批粗标的数据结果；步骤8‑2，设计查询函数对已标注的数据进行采样，采用基于置信度最低的方法对数据进行采样，也就是选择最大概率最小的样本进行标注，并采样百分之十的数据查看正确率；步骤8‑3，将标注的数据重新送进步骤1～步骤8的流程，当采样出来的数据正确率大于百分之九十五时，流程终止。权　利　要　求　书 2/2 页 3 CN 114707504 A 3

专利 一种快速构建重叠关系抽取文本数据的方法

专利一种快速构建重叠关系抽取文本数据的方法