全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210419758.3 (22)申请日 2022.04.20 (71)申请人 复旦大学 地址 200433 上海市杨 浦区邯郸路2 20号 (72)发明人 员司雨 阳德青 肖仰华  (74)专利代理 机构 上海正旦专利代理有限公司 31200 专利代理师 陆飞 陆尤 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于知识提 示的概念抽取模型 (57)摘要 本发明属于人工智能与知识工程技术领域, 具体为一种基于知识提示的概念抽取模型, 简称 KPCE。 本发明模型包括提示构建器和概念抽取 器; 提示构建器, 给定实体的主题用作双向编码 表示的预训练语言模型, 简称BERT, 的知识引导 提示; 并添加可训练的连续提示, 以增强概念抽 取性能; 概念抽取器利用提示引导BERT以及指针 网络从输入文本中抽取多粒度、 高质量的概念。 本发明使用从现有知识 图谱中获取的主题知识 构建语言提示, 同时考虑神经网络连续性特征, 将可训练的连续提示与上述主题构建的知识提 示结合, 以此提升 大规模预训练语言模型BERT在 概念抽取任务上的性能; 还借助指针网络, 设置 适当的阈值重复抽取文本中同一片段, 实现多粒 度概念的获取。 权利要求书3页 说明书8页 附图1页 CN 114911947 A 2022.08.16 CN 114911947 A 1.一种基于知识提示的概念抽取模型, 其中, 概念抽取任务表述如下: 给定实体e及其 相关的描述性文本x, 要从x中抽取e的一组概念; 根据此模式, 提出基于知识提示的概念抽 取模型, 用于抽取海量概念来提高下游任务的性能, 其特征在于, 通过设计语言提示引导大 规模预训练语言模型更好地利用预训练中获得的知识, 从而提升概念抽取 的性能; 该模型 包括两个模块: 提 示构建器和概念抽取器; 其中: (1)提示构建器: 其中, 给定实体的主题被用 作双向编码表示的预训练语言模型, 简称 BERT, 的知识引导 提示; 此外, 还添加一个可训练的连续 提示, 以增强概念抽取性能; (2)概念抽取器: 基于构 建器的提示, 概念抽取器利用提示引导BERT以及一指针网络从 输入文本中抽取多粒度、 高质量的概念。 2.根据权利要求1所述的基于知识提示的概念抽取模型, 其特征在于, 所述的提示构建 器, 是将BERT作为大规模 预训练语 言模型, 并通过基于语 言提示的范式整合外部知识, 以增 强BERT的概念抽取的效果; 下文中, 粗体小 写字母表示向量, 粗体大写字母表示矩阵; 具体来说, 使用给定实体的主题作为知识引导提示, 它是基于来自现有知识图谱的外 部知识来识别的; 在预训练过程中, 大规模预训练语言模型从大量语料库中挖掘统计关联 性, 并基于共现相关性而不是文本字 符串之间的真实语义关系进 行预测, 因此, 基于大规模 预训练语言模型的概念抽取模型将与实体相关的所有概念都同时抽取; (1.1)知识引导的语言提 示构建; 首先从知识图谱中随机抽取100万个实体, 并得到它们现有的概念, 即上位词; 然后, 选 择实体最多的前100个概念构成典型概念集合, 该集合覆盖知识图谱中超过99.8%的实体; 接下来, 使用谱聚类和自适应K ‑means算法将这些典型概念聚类成几组, 每组对应一个主 题; 为了实现谱聚类, 首 先使用重 叠系数来衡量两个概念之间的相似度: 其中, ent(c1)和ent(c2)分别是概念c1和概念c2的实体集, δ是一个参数, 用于避 免某些 概念在知识图谱中没有实体时分母为零的情况; 依据上述相似度, 构建典型概念的相似度 矩阵 ; 为了确定概念集群的最佳数量 , 计算2到30个集群的轮廓系数 (SC) 和 CalinskiHarabaz指数(CHI), 从中得到最好的聚类数是17; 因此, 将典型概念聚类为17个 组, 并为每个组定义一个主题名称; 为了识别给定实体的主题, 通过基于BERT的分类器将实 体摘要的主题预测为上述17个典型主题之一; 为了训练基于BERT的主题分类器, 随机抽取 40,000个实体及其在知识图谱中的现有概念, 根据概念聚类结果, 确定每个实体的主题; 具 体来说, 将以下 标记作为分类 器的输入: {[CLS]E[ SEP]X[SEP]}    (1) 其中, [CLS]和[SEP]是特殊标记; E={e1, e2, ..., eq}是给定实体e的标记序列, X={x1, x2, ..., xn}是输入文本x的标记序列; 通过对输入标记序列的多头自注意操作, 分类器获取 标记[CLS]的最终隐藏状态, 即 计算主题概 率分布: P(topic)∈R17, 其中, N1是总层数, d1是向量维度; 然后, 将topictext概率最高的主题识别为x的主题, 计 算如下:权 利 要 求 书 1/3 页 2 CN 114911947 A 2H0=EW1+B1,    (2) Hl=transformor ‑encoder(Hl‑1), 1≤l≤N1,    (3) topictext=argmax(P(topici)), 1≤i≤17;     (5) 其中, E∈R(q+n+3) ×d, 是所有输入标记的初始嵌入词向量矩阵, d是嵌入大小; 是第l层的隐藏矩阵, 是第N1层的隐藏矩阵; 是从 获得 的; 此外, 都是可训练的参数; q是向量E的维 度, n是向量X的维度; (1.2)可训练的连续 提示构建; 为了构建连续提示, 使用来自BERT的随机标记; 具体地, 对于给定实体e, 首先从BERT的 词汇表中随机选择m个标记, 构成一个随机标记集, 表示为C={c1, c2, ..., cm}; 假设e的主题 标记序列记为T={t1, t2, ..., tk}, 则C和T的连接作为e的综合提示; 接下来, 将语言提示的 标记序列 与E和X连接起来, 构成抽取模型的完整输入标记序列: {[CLS]CT[ SEP]E[SEP]X[SEP]};    (6) 为了对T、 E和X中的字符进行编码, 采用BERT的词嵌入; 具体使用一个双向长短期记忆 网络(LSTM)和由ReLU激活的两层感知器(MLP)对连续 提示进行编码: OC=BiLSTM(EC),    (7) HC=MLP(OC).    (8) 其中, EC∈Rm×d是C的随机初始化嵌入矩阵, OC和HC是m×d的矩阵; 然后, 将结果输入到公 式(6)中, 得: {emb([CLS])HCemb(T[SEP]E[SEP]X[SEP])},    (9) 其中, HC={h1, h2, ..., hm}是可训练的嵌入组, emb( ·)表示获取BERT词嵌入的操作; 经 过训练, 可以找到超出BERT词汇 表的最优连续 提示。 3.根据权利要求2所述的基于知识提示的概念抽取模型, 其特征在于, 所述的概念抽取 器中, 将公式9输入到基于提示的BERT与指针网络, 得到候选片段即候选概念, 及其相应的 概念置信度分数; 其中, 指 针网络用于抽取多粒度概念; 通过对输入嵌入的多头自注意力操 作, BERT输出最终的隐藏状态, 即 其中d2是向量维度, N2是总层数; 使用 构建指针网络来预测每个字符作为抽取概念的开始位置和结束位置的概率; 使用 pstart, pend∈R(k+m+q+n+4)来表示所有字符 分别是开始位置和结束位置的概 率, 它们被计算为: 其中, B∈R(k+m+q+n+4) ×2, 都是可训练的参数; 为了生成抽取结果, 只考虑实体摘要文本中每个字符的概率, 给定一个抽取片段, 以xi 和xj分别作为其开始位置和结束位置的字符, 则 该抽取片段的置信度分数csij∈R, 计算式 为: 相应地, 指针网络模型生成候选概念的排序列表及其置信度分数, 并输出置信度分数 大于选择阈值的概念;权 利 要 求 书 2/3 页 3 CN 114911947 A 3

.PDF文档 专利 一种基于知识提示的概念抽取模型

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识提示的概念抽取模型 第 1 页 专利 一种基于知识提示的概念抽取模型 第 2 页 专利 一种基于知识提示的概念抽取模型 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。