专利 一种基于知识图谱的生成式常识推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210571520.2 (22)申请日 2022.05.24 (71)申请人浙江华巽科技有限公司地址 317609 浙江省台州市玉环市龙溪镇小山外工业园区 (72)发明人杨鹏　刘子健　方海生　解然　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师杜静静 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) G06N 5/02(2006.01) G06N 5/04(2006.01) (54)发明名称一种基于知识图谱的生成式常识推理方法 (57)摘要本发明公开了一种基于知识图谱的生成式常识推理方法，具体如下：从给定文本中提取相关的关键词信息；将提取出的关键词输入文本编码器完成编码，发掘关键词之间的隐式关联；将文本编码器的结果输入知识增强的图编码器，并使用知识图谱更新节点的表示；将文本编码器的结果输入文本解码器，获得解码后的特征；将知识增强的图编码器的结果输入知识增强的图解码器，获取来自知识的隐式特征；将文本解码器与知识增强的图解码器的输出利用注意力机制进行融合，得到最终的推理结果。该方法可在捕获文本当中单词语义关系的同时，还能利用知识图谱获得相关的证据信息进行常识推理，提升具体方法在下游任务当中的表现。权利要求书6页说明书7页附图4页 CN 114817574 A 2022.07.29 CN 114817574 A 1.一种基于知识图谱的生成式常识推理方法，其特征在于，所述方法包括以下步骤：步骤1：获取给定文本当中的关键词信息，首先通过关键词提取算法获得文本当中包含的关键词信息，以实现在特定文本当中寻找推理可以使用的逻辑出发点，并利用上述关键词在知识图谱当中寻找关键词之间的路径联系，构建知识推理图；步骤2：获得关键词信息的文本表示，将步骤1当中获得关键词输入编码器进行文本编码，获取上下文相关的语义信息和获得知识增强的文本表示，并在知识图谱的实体编码基础上使用图神经网络实现实体节点表示更新，对实体之间的关系也进行动态更新；步骤3：根据编码结果对当前词产生的潜在值进行特征表示，使用解码器对步骤2获得的文本表示进行解码，预测特定位置的词汇信息，获得来自文本和知识的具体特征信息；步骤4：使用步骤3获得的信息进行生成推理结果并进行模型训练。 2.根据权利要求1所述的基于知识图谱的生成式常识推理方法，其特征在于，所述步骤 1具体如下：利用给定文本提取关键词并构建推理图，该步骤实施分为以下子步骤：步骤1‑1，根据给定关键词语序列从q中提取n个关键词并将这些关键词应用到下文所述具体步骤当中，首先，使用Natural Language Toolkit(NLTK)对这些文本进行预处理，包括分词、词性标注、词形还原等操作，并去除句子当中的停用词和标点符号等特殊字符，实现提升文本特征质量的效果，接着本文通过n‑gram对文本当中的单词进行处理生成单词元组，并使用下划线 “_”将同一元组中的单词进行连接成为组合，再根据TF ‑IDF算法评估这些组合在语句当中的重要性，选出重要性前n和前m的组合拆分后作为最终的关键词； tfidfi,j＝tfi,j×idfi (3) 其中ni,j为元组ti在路径dj当中出现的次数， ∑knk,j为路径dj当中三元组的数量之和， | {j:ti∈dj}|为三元组ti出现的总路径数量， |D|为所有路径的总数；子步骤1‑2，针对子步骤1 ‑1当中提取出的关键词信息，利用迪杰斯特拉算法找到两个关键词对应节点在知识图谱当中的路径信息，迪杰斯特拉算法的思想为：设图G＝(V,E)是一个有向图，其中V是顶点集合， E是边集合，把图中顶点集合V分为两部分，第一组为已求出最短路径的顶点集合(用S表示，初始时S中只有源点，以后每求出一条最短路径，就将顶点加入到S中，直到所有顶点都加入到S中，算法结束)，第二组为其余未求出最短路径的顶点集合(用U表示)，按最短路径的长度次序依次将第二组中的顶点加入到第一组中，具体方法如下： (1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点，实体之间的关系视为有向图当中的边，相邻节点之间距离为1； (2)选择一个问题关键词作为源点v，初始时， S中只有源点，即S＝{v}， v的距离为0(到自己的距离为0)， U包含除v外的所有其他顶点， v与U中顶点u距离为1(若v到u存在边)或∞ (v到u不存在边)；权　利　要　求　书 1/6 页 2 CN 114817574 A 2(3)从U中选取一个距离v最小的顶点 k加入到S中； (4)以k为新考虑的中间点，修改U中各顶点的距离，若从源点v经过顶点k到顶点u的距离比原来距离(不经过顶点k)短，则修改顶点u的距离，修改后的距离值为顶点k的距离加上 1； (5)重复(3)、 (4)直到所有的顶点都加入到S中； (6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查询。 3.根据权利要求1所述的基于知识图谱的生成式常识推理方法，其特征在于，所述步骤 2具体如下：步骤2，利用步骤1处理后的基于知识图谱的生成式常识推理方法进行训练，该步骤的实施分为以下子步骤：子步骤2‑1，使用文本编码器进行编码，该编码器由多个相同的编码层组成，每一个编码层又可分为两个子层，分别是多头注意力层(Multi ‑head Self‑Attention Layer)和全连接前馈神经网络层(Fu lly Connected Feed‑Forward Network Layer)，经过每一层计算后再使用残差连接和层归一化探索深层次的语义信息，计算方式如公式(4) ‑(6)所示， MultiHead(Q， K， V)＝Co ncat(head1，…， headh)Wo (4) headi＝Attention(QWiQ， KWiK， VWiV) (5) 其中Wo、 WiQ、 WiK、 WiV为待学习的模型参数， dk为向量维度， Q、 K、 V为对应的注意力向量，有一个关键词序列其中表示该序列中的第i个词，首先进行词嵌入与位置编码，词嵌入将该关键词序列转变为特征空间的词向量表示，而位置编码则为词向量提供位置信息；然后将编码后的信息输入编码器层当中；在经过N层编码器层叠进行深层次的上下文文本语义特征提取之后，获得对应关键词的语义向量表示eq＝{x1,…,xn}；子步骤2‑2，使用知识增强的图编码器编码，使用知识增强的图编码器是为了将知识图谱中的知识信息引入单词表示之中，提升其感知外部信息所包含常识知识的能力，并通过图神经网络结构更新节点的表示信息，图神经网络按其图状结构利用知识图谱当中的实体相关信息进行节点更新，将各类知识图谱当中蕴含的隐式关系信息嵌入单词原本的语义表示当中，记eq＝{x1,…,xn}为上一层文本编码器的输出，即作为本知识增强图编码器的输入，其加上知识推理图一起获得更新后的单词表示记中xi对应的节点i的特征表示为ni，将文本编码器输出eq与节点表示相结合，利用图神经网络的信息流动机制，聚合相邻节点的特征信息并更新中心节点的特征表示，获得包含更多信息的节点表示，使用对属性向量进行投影的方法解决不同向量维度空间的问题，具体的初始化方法如公式(7)、 (8)所示，其中Wproj、 bproj为待学习的算法参数， [； ]为拼接操作， eij为节点i与节点j之间关系的向权　利　要　求　书 2/6 页 3 CN 114817574 A 3

专利 一种基于知识图谱的生成式常识推理方法

专利一种基于知识图谱的生成式常识推理方法