全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221094649 9.X (22)申请日 2022.08.08 (71)申请人 清华大学深圳国际研究生院 地址 518055 广东省深圳市南 山区西丽 街 道深圳大 学城清华校区A栋二楼 (72)发明人 郑海涛 黄书林 李映辉 江勇  夏树涛 肖喜  (74)专利代理 机构 深圳新创友知识产权代理有 限公司 4 4223 专利代理师 江耀锋 (51)Int.Cl. G06F 40/279(2020.01) G06K 9/62(2022.01) G06F 40/186(2020.01) G06F 40/216(2020.01)G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 一种实体集 合扩展方法及装置 (57)摘要 本发明公开了一种基于生成式模板的实体 集合扩展方法, 包括: S1: 基于候选实体集, 对种 子实体集预扩展得到新种子实体集和新候选实 体集; S2: 基于 上述两个实体集, 对候选实体集预 缩减得到新候选实体集; S3: 将新种子实体集和 S2中的新候选实体集中的实体经过语境模式生 成模块得出上下文模板; S4: 计算种子实体集与 候选实体集中实体对应的上下文模板间的相似 度, 从候选实体集中选出相似度更高的实体加入 种子实体集; 迭代上述步骤, 完成实体集合扩展。 本发明通过语境模式生成模块生成上下文模板, 不再依赖于现有的语料库, 一方面缓解模板与实 体之间的适配问题, 降低合适模板的获取成本, 另一方面, 可迁移性高, 适用于更开放领域的实 体扩展。 权利要求书2页 说明书7页 附图1页 CN 115270781 A 2022.11.01 CN 115270781 A 1.一种基于生成式模板的实体集 合扩展方法, 其特 征在于, 包括如下步骤: S1: 基于候选实体集, 使用预训练语言模型对种子实体集进行预扩展得到新的种子实 体集和新的候选实体集; S2: 基于步骤S1中得到的种子实体集和候选实体集, 使用预训练语言模型对候选实体 集进行预缩减得到新的候选实体集; S3: 将步骤S1中得到的种子实体集和步骤S2中得到的候选实体集中的实体经过语境模 式生成模块得 出对应的上 下文模板; S4: 计算种子实体集中实体对应的上下文模板与候选实体集中实体对应的上下文模板 之间的相似度, 从候选实体集中选出若干个相似度更高的实体加入种子实体集得到新的种 子实体集; S5: 迭代步骤S1至步骤S4, 完成实体集 合扩展任务。 2.根据权利要求1所述的方法, 其特 征在于, 步骤S1中的预扩展包括: S1‑1: 使用预训练语言模型判断候选实体集中的实体与种子实体集的相似度; S1‑2: 将候选实体集中相似度较高的实体加入到种子实体集。 3.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S2中的预缩 减包括: S2‑1: 使用预训练语言模型判断候选实体集中的实体与种子实体集的相似度; S2‑2: 将候选实体集中相似度较低的实体从候选实体集中移除。 4.根据权利要求2 ‑3任一项所述的方法, 其特征在于, 所述使用预训练语言模型判断候 选实体集中的实体与种子实体集的相似度包括如下步骤: S6: 通过计算实体表示之间的余弦距离得到相似度, 其中, 其中, 为种子实体集, 为候选实体集, ec为 中的某个实体, 为 种子实体集中实体的数量, cos(x,y)代表两个实体表示之间的余弦距离, re(e)代表实体表 示, 定义为re(e)=Glove(e), Gl ove表示预训练的词向量。 5.根据权利要求1所述的方法, 其特征在于, 步骤S3 中的语境模式生成模块是由两个独 立的GPT‑2模型在相反的方向上生成实体的前文本和后文本来构建的。 6.根据权利要求5所述的方法, 其特征在于, 所述语境模式生成模块的工作 方法包括如 下步骤: S3‑1: 对常规语料库进行 预处理, 将其中所有的句子进行反向处 理, 得到反向语料库; S3‑2: 使用S11得到 的反向语料库预训练GPT ‑2模型, 使其具有从右到左生成前文本的 能力; S3‑3: 对于一个实体 e, 用e作为指导性文本, 用 来生成反向文本 其中 为反向的GPT ‑2语言模型, 其可以从后向前生成反向的文本, S3‑4: 将反向文本 倒转, 得到上文 使用 和实体e作为指导性文本, 用 来生成下文 其中 为正向的GPT ‑2语言模型, 其可以从前向后生成正向的权 利 要 求 书 1/2 页 2 CN 115270781 A 2文本, S3‑5: 结合步骤S3 ‑3中的上文 实体e和步骤S3 ‑4中的下文 得到实体e的上下 文模板, 其中[MASK]为掩码标记, 被用来获取实体的上 下文表示。 7.根据权利要求6所述的方法, 其特征在于, 步骤S4中相似度的计算方法包括如下步 骤: S4‑1: 对于S1和 S2中经过预扩展的种子实体集和经过预缩减的候选实体集中的每个实 体, 通过所述语境 生成模块自动生成多个上 下文模板; S4‑2: 通过计算上下文表征之间的余弦距离来得到候选实体 和 的上下 文相似度: 其中 为经过预扩展后的种子实体集, 为经过预缩减后的候选实体集, ec为 中的某个实体, rc(ec)代表实体的多个上下文表征的平均值, 由基于转换器的双向编 码器得出。 8.根据权利要求7 所述的方法, 其特 征在于, rc(ec)定义如下: 其中m代表一个实体对应得到了多少个上下文表征, 用于算出实体的多个上下文表征 的平均值, ci(e)为实体e的第i上 下文模板 。 9.根据权利要求1所述的方法, 其特 征在于, 种子实体集中实体初始的数量 为3个。 10.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的 基于生成式模板的实体集 合扩展方法的步骤。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器运行时执行权利要求 1至9任一项 所述的对话信息的基于生 成式模板的实体集 合扩展方法的步骤。权 利 要 求 书 2/2 页 3 CN 115270781 A 3

PDF文档 专利 一种实体集合扩展方法及装置

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体集合扩展方法及装置 第 1 页 专利 一种实体集合扩展方法及装置 第 2 页 专利 一种实体集合扩展方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。