说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210571520.2 (22)申请日 2022.05.24 (71)申请人 浙江华巽科技有限公司 地址 317609 浙江省台州市玉环市龙溪镇 小山外工业园区 (72)发明人 杨鹏 刘子健 方海生 解然  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) G06N 5/02(2006.01) G06N 5/04(2006.01) (54)发明名称 一种基于知识图谱的生成式常识推理方法 (57)摘要 本发明公开了一种基于知识图谱的生成式 常识推理方法, 具体如下: 从给定文本中提取相 关的关键词信息; 将提取出的关键词输入文本编 码器完成编码, 发掘关键词之间的隐式关联; 将 文本编码器的结果输入知识增强的图编码器, 并 使用知识图谱 更新节点的表示; 将文本编码器的 结果输入文本解码器, 获得解码后的特征; 将知 识增强的图编码器的结果输入知识增强的图解 码器, 获取来自知识的隐式特征; 将文本解码器 与知识增强的图解码器的输出利用注意力机制 进行融合, 得到最终的推理结果。 该方法可在捕 获文本当中单词语义关系的同时, 还能利用知识 图谱获得相关的证据信息进行常识 推理, 提升具 体方法在下游任务当中的表现。 权利要求书6页 说明书7页 附图4页 CN 114817574 A 2022.07.29 CN 114817574 A 1.一种基于知识图谱的生成式常识推理方法, 其特 征在于, 所述方法包括以下步骤: 步骤1: 获取给定文本当中的关键词信 息, 首先通过关键词提取算法获得文本当中包含 的关键词信息, 以实现在特定文本当中寻找推理可以使用的逻辑出发点, 并利用上述关键 词在知识图谱当中寻找关键词之间的路径联系, 构建知识推理图; 步骤2: 获得关键词信息的文本表示, 将步骤1当中获得关键词输入编码器进行文本编 码, 获取上下文相关的语义信息和获得知识增强的文本表示, 并在知识图谱的实体编码基 础上使用图神经网络实现实体节点表示更新, 对实体之间的关系也进行动态更新; 步骤3: 根据编码结果对当前词产生的潜在值进行特征表示, 使用解码器对步骤2获得 的文本表示进行解码, 预测特定位置的词汇信息, 获得来自文本和知识的具体特 征信息; 步骤4: 使用步骤3获得的信息进行生成推理结果并进行模型训练。 2.根据权利要求1所述的基于知识图谱的生成式常识推理方法, 其特征在于, 所述步骤 1具体如下: 利用给定文本提取关键词并构建推理图, 该步骤实施分为以下子步骤: 步骤1‑1, 根据给定关键词语序列 从q中提取n个关键词 并将这些关键词应用到下文所述具体步骤当中, 首先, 使用Natural   Language  Toolkit(NLTK)对这些文本进行预处理, 包括分词、 词性标注、 词形还原等操作, 并去除句 子当中的停用 词和标点符号等特殊字符, 实现提升文本特征质量的效果, 接着本 文通过n‑gram对文本当中的单词进行处理生成单词元组, 并使用下划线 “_”将同一元组中 的单词进行连接成为组合, 再根据TF ‑IDF算法评估这些组合在语句当中的重要性, 选出重 要性前n和前m的组合拆分后作为 最终的关键词; tfidfi,j=tfi,j×idfi           (3) 其中ni,j为元组ti在路径dj当中出现的次数, ∑knk,j为路径dj当中三元组的数量之和, | {j:ti∈dj}|为三元组ti出现的总路径数量, |D|为所有路径的总数; 子步骤1‑2, 针对子步骤1 ‑1当中提取出的关键词信息, 利用迪杰斯特拉算法找到两个 关键词对应节点在知识图谱当中的路径信息, 迪杰斯特拉算法 的思想为: 设图G=(V,E)是 一个有向图, 其中V是顶点集合, E是边集合, 把图中顶 点集合V分为两部分, 第一组为已求出 最短路径的顶点集合(用S表示, 初始时S中只有源点, 以后每求出一条最短路径, 就将顶点 加入到S中, 直到所有顶点都加入到S中, 算法结束), 第二组为其余未求出最短路径的顶点 集合(用U表示), 按最短路径的长度次序 依次将第二组中的顶点加入到第一组中, 具体方法 如下: (1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点, 实体之间的关 系视为有向图当中的边, 相邻节点之间距离为1; (2)选择一个问题关键词作为源点v, 初始时, S中只有源点, 即S={v}, v的距离为0(到 自己的距离为0), U包含除v外的所有其他顶点, v与U中顶点u距离为1(若v到u存在边)或∞ (v到u不存在边);权 利 要 求 书 1/6 页 2 CN 114817574 A 2(3)从U中选取一个距离v最小的顶点 k加入到S中; (4)以k为新考虑的中间点, 修改U中各顶点的距离, 若从源点v经过顶点k到顶点u的距 离比原来距离(不经过顶点k)短, 则修改顶点u的距离, 修改后的距离值为顶 点k的距离加上 1; (5)重复(3)、 (4)直到所有的顶点都加入到S中; (6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查 询。 3.根据权利要求1所述的基于知识图谱的生成式常识推理方法, 其特征在于, 所述步骤 2具体如下: 步骤2, 利用步骤1处理后的基于知识图谱的生成式常识推理方法进行训练, 该 步骤的实施分为以下子步骤: 子步骤2‑1, 使用文本编码器进行编码, 该编码器由多个相同的编码层组成, 每一个编 码层又可分为两个子层, 分别是多头注意力层(Multi ‑head Self‑Attention  Layer)和全 连接前馈神经网络层(Fu lly Connected  Feed‑Forward Network Layer), 经过每一层计算 后再使用残差连接和层归一 化探索深层次的语义信息, 计算方式如公式(4) ‑(6)所示, MultiHead(Q, K, V)=Co ncat(head1,…, headh)Wo       (4) headi=Attention(QWiQ, KWiK, VWiV)        (5) 其中Wo、 WiQ、 WiK、 WiV为待学习的模型参数, dk为向量维度, Q、 K、 V为对应的注意力向量, 有一个关键词序列 其中 表示该序列中的第i个词, 首先进行词 嵌入与位置编码, 词嵌入将该关键词序列转变为特征空间的词向量表示, 而位置编码则为 词向量提供位置信息; 然后 将编码后的信息输入编 码器层当中; 在经过N层编码器层叠进 行 深层次的上 下文文本语义特 征提取之后, 获得对应关键词的语义向量表示eq={x1,…,xn}; 子步骤2‑2, 使用知识增强的图编码器编码, 使用知识增强的图编码器是为了将知识图 谱中的知识信息引入单词表示之中, 提升其感知外部信息所包含常识知识的能力, 并通过 图神经网络结构更新节点的表示信息, 图神经网络按其图状结构利用知识图谱当中的实体 相关信息进行节点更新, 将各类知识图谱当中蕴含的隐式关系信息嵌入单词原本的语义表 示当中, 记eq={x1,…,xn}为上一层文本编码器的输出, 即作为本知识增强图编码器的输 入, 其加上知识推理图 一起获得更新后的单词表示 记 中xi对应的节点i的特征表示为ni, 将文本编码器输出eq与节点表示相结合, 利用图 神经网络的信息流动机制, 聚合相邻节点的特征信息并更新中心节点的特征表示, 获得包 含更多信息的节点表示, 使用对属 性向量进行投影的方法解决不同向量维度 空间的问题, 具体的初始化方法如公式(7)、 (8)所示, 其中Wproj、 bproj为待学习的算 法参数, [; ]为拼接操作, eij为节点i与节点j之间关系的向权 利 要 求 书 2/6 页 3 CN 114817574 A 3

.PDF文档 专利 一种基于知识图谱的生成式常识推理方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的生成式常识推理方法 第 1 页 专利 一种基于知识图谱的生成式常识推理方法 第 2 页 专利 一种基于知识图谱的生成式常识推理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。