全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210094103.3 (22)申请日 2022.01.26 (71)申请人 言图科技有限公司 地址 430000 湖北省武汉市东湖新 技术开 发区光谷大道3号激光工程设计总部 二期研发楼0 6幢2层12号 (72)发明人 陈波 涂婳  (74)专利代理 机构 北京金智普华知识产权代理 有限公司 1 1401 专利代理师 张晓博 (51)Int.Cl. G06N 5/02(2006.01) G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 16/36(2019.01)G06F 16/33(2019.01) (54)发明名称 一种知识嵌入的方法、 系统、 介质、 设备及数 据处理终端 (57)摘要 本发明属于自然语言中的知识嵌入技术领 域, 公开了一种知识嵌入的方法、 系统、 介质、 设 备及数据处理终端, 根据所有背景知识库的词语 构建一棵Trie树, 给定输入句子, 然后通过AC树 算法查找输入句子中存在的背景知识词语; 将不 同纬度词语转换为字嵌入向量; 生成多维的背景 知识嵌入向量; 将字嵌入向量与多维的背景知识 嵌入向量拼接得到的输入向量输入实体识别模 型。 本发明提供的知识嵌入的方法, 通过将不同 类型、 方式、 长度的知识转为同一向量表示, 可以 应用到任意神经网络模型输入中。 本发明在开源 命名实体识别数据集MSRA、 Resume上分别取得F 1 值95.03、 96.78, 知识嵌入给模型的提升在1~2 个点, 在CoNLL2003、 MSRA、 OntoNotes  4.0数据集 上F1值均取得提升 。 权利要求书2页 说明书7页 附图4页 CN 114912611 A 2022.08.16 CN 114912611 A 1.一种知识嵌入的方法, 其特征在于, 所述知识嵌入的方法包括: 将自然世界中不同类 型、 方式、 长度的知识转为同一向量表示, 为实体识别模型提供背景知识, 利用所述实体识 别模型识别自然 文本中存在的实体。 2.如权利要求1所述的知识嵌入的方法, 其特征在于, 所述知识嵌入的方法包括以下步 骤: 步骤一, 根据所有背景知识库的词语构建一棵Trie树, 给定输入句子, 然后通过AC树算 法查找输入句子中存在的背景知识词语; 步骤二, 将输入句子中存在的背景知识词语按照长度区分纬度, 然后将不同纬度词语 转换为字嵌入向量; 步骤三, 引入词性标签表示词语所属的词性, 生成多维的背景知识嵌入向量; 步骤四, 将字嵌入向量与多维的背景知识嵌入向量拼接得到的输入向量输入实体识别 模型, 利用所述实体识别模型识别自然文本中存在的实体, 输入向量包含输入句 子的特征 信息与背景知识库的词语信息 。 3.如权利要求2所述的知识嵌入的方法, 其特征在于, 所述步骤一利用AC树算法查找获 得所有属于背景知识库包括: 对于输入句 子, 利用AC树查找算法获得所有属于背景知识库 的词语; 根据词语长度进 行划分, 不同长度的词语对应不同维度的嵌入向量信息; 引入词性 标签, 生成多维背景知识嵌入向量; 其中, 所述输入层的词性标签只考虑首字符标签B和无 关标签O, 不包括 I标签。 4.如权利要求2所述的知识嵌入的方法, 其特征在于, 所述背景知识库的词性标签, 包 括:①名词, B‑ming;②动词, B‑dong;③数词, B‑shu;④介词, B‑jie;⑤连词, B‑lian;⑥语 气, B‑yu;⑦助词, B‑zhu;⑧成语, B‑cheng。 5.如权利要求2所述的知识嵌入的方法, 其特征在于, 所述AC树算法, 用于针对给定背 景知识库V和句子S, 找出句子S中所有 背景知识库词语。 6.如权利要求2所述的知识嵌入的方法, 其特征在于, 所述输入层嵌入向量的表达式 为: 其中, Xinput代表输入向量, Xchar代表字向量, Xbackground ‑i代表第i维背景知识向量, 代 表concatenati on操作。 7.如权利要求2所述的知识嵌入的方法, 其特征在于, 所述步骤二字嵌入向量选用300 维的预训练Word2Vec向量, 对应字级别信息; 所述多维背景知识嵌入向量是基于AC树查找 算法生成的, 对应词级别 信息。 8.一种应用如权利要求1~7任意一项所述的知识嵌入的方法的知识嵌入的系统, 其特 征在于, 所述知识嵌入的系统包括: 词语获取模块, 用于根据所有背 景知识库的词语构建一 棵Trie树, 给定 输入句子, 然后通过AC树 算法查找输入句子中存在的背景知识词语; 字嵌入向量生成模块, 用于将输入句子中存在的背景知识词语按照长度区分纬度, 然 后将不同纬度词语转换为字嵌入向量; 多维的背景知识嵌入向量生成模块, 用于引入词性标签表示词语所属的词性, 生成多 维的背景知识嵌入向量; 输入向量生成模块, 用于将字嵌入向量与多维的背景知识嵌入向量拼接得到的输入向权 利 要 求 书 1/2 页 2 CN 114912611 A 2量输入实体识别模型, 输入向量包 含输入句子的特 征信息与背景知识库的词语信息 。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器和处理器, 所述存储器存 储有计算机程序, 所述计算机程序被所述处 理器执行时, 使得 所述处理器执行如下步骤: 利用AC树算法查找获得所有属于背景知识库的词语; 将不同长度的词语生成不同维度 的嵌入向量信息; 引入词性标签, 生成多维背景知识嵌入向量; 将字嵌入向量与多维背景知 识嵌入向量 拼接得到 输入向量。 10.一种计算机可读存储介质, 存储有计算机程序, 所述计算机程序被处理器执行时, 使得所述处理器执行如下步骤: 利用AC树算法查找获得所有属于背景知识库的词语; 将不同长度的词语生成不同维度 的嵌入向量信息; 引入词性标签, 生成多维背景知识嵌入向量; 将字嵌入向量与多维背景知 识嵌入向量 拼接得到 输入向量。 11.一种信息数据处理终端, 其特征在于, 所述信息数据处理终端用于实现如权利要求 8所述的知识嵌入的系统。权 利 要 求 书 2/2 页 3 CN 114912611 A 3

.PDF文档 专利 一种知识嵌入的方法、系统、介质、设备及数据处理终端

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识嵌入的方法、系统、介质、设备及数据处理终端 第 1 页 专利 一种知识嵌入的方法、系统、介质、设备及数据处理终端 第 2 页 专利 一种知识嵌入的方法、系统、介质、设备及数据处理终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。