(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210571520.2
(22)申请日 2022.05.24
(71)申请人 浙江华巽科技有限公司
地址 317609 浙江省台州市玉环市龙溪镇
小山外工业园区
(72)发明人 杨鹏 刘子健 方海生 解然
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 杜静静
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/28(2019.01)
G06N 5/02(2006.01)
G06N 5/04(2006.01)
(54)发明名称
一种基于知识图谱的生成式常识推理方法
(57)摘要
本发明公开了一种基于知识图谱的生成式
常识推理方法, 具体如下: 从给定文本中提取相
关的关键词信息; 将提取出的关键词输入文本编
码器完成编码, 发掘关键词之间的隐式关联; 将
文本编码器的结果输入知识增强的图编码器, 并
使用知识图谱 更新节点的表示; 将文本编码器的
结果输入文本解码器, 获得解码后的特征; 将知
识增强的图编码器的结果输入知识增强的图解
码器, 获取来自知识的隐式特征; 将文本解码器
与知识增强的图解码器的输出利用注意力机制
进行融合, 得到最终的推理结果。 该方法可在捕
获文本当中单词语义关系的同时, 还能利用知识
图谱获得相关的证据信息进行常识 推理, 提升具
体方法在下游任务当中的表现。
权利要求书6页 说明书7页 附图4页
CN 114817574 A
2022.07.29
CN 114817574 A
1.一种基于知识图谱的生成式常识推理方法, 其特 征在于, 所述方法包括以下步骤:
步骤1: 获取给定文本当中的关键词信 息, 首先通过关键词提取算法获得文本当中包含
的关键词信息, 以实现在特定文本当中寻找推理可以使用的逻辑出发点, 并利用上述关键
词在知识图谱当中寻找关键词之间的路径联系, 构建知识推理图;
步骤2: 获得关键词信息的文本表示, 将步骤1当中获得关键词输入编码器进行文本编
码, 获取上下文相关的语义信息和获得知识增强的文本表示, 并在知识图谱的实体编码基
础上使用图神经网络实现实体节点表示更新, 对实体之间的关系也进行动态更新;
步骤3: 根据编码结果对当前词产生的潜在值进行特征表示, 使用解码器对步骤2获得
的文本表示进行解码, 预测特定位置的词汇信息, 获得来自文本和知识的具体特 征信息;
步骤4: 使用步骤3获得的信息进行生成推理结果并进行模型训练。
2.根据权利要求1所述的基于知识图谱的生成式常识推理方法, 其特征在于, 所述步骤
1具体如下: 利用给定文本提取关键词并构建推理图, 该步骤实施分为以下子步骤:
步骤1‑1, 根据给定关键词语序列
从q中提取n个关键词
并将这些关键词应用到下文所述具体步骤当中, 首先, 使用Natural
Language Toolkit(NLTK)对这些文本进行预处理, 包括分词、 词性标注、 词形还原等操作,
并去除句 子当中的停用 词和标点符号等特殊字符, 实现提升文本特征质量的效果, 接着本
文通过n‑gram对文本当中的单词进行处理生成单词元组, 并使用下划线 “_”将同一元组中
的单词进行连接成为组合, 再根据TF ‑IDF算法评估这些组合在语句当中的重要性, 选出重
要性前n和前m的组合拆分后作为 最终的关键词;
tfidfi,j=tfi,j×idfi (3)
其中ni,j为元组ti在路径dj当中出现的次数, ∑knk,j为路径dj当中三元组的数量之和, |
{j:ti∈dj}|为三元组ti出现的总路径数量, |D|为所有路径的总数;
子步骤1‑2, 针对子步骤1 ‑1当中提取出的关键词信息, 利用迪杰斯特拉算法找到两个
关键词对应节点在知识图谱当中的路径信息, 迪杰斯特拉算法 的思想为: 设图G=(V,E)是
一个有向图, 其中V是顶点集合, E是边集合, 把图中顶 点集合V分为两部分, 第一组为已求出
最短路径的顶点集合(用S表示, 初始时S中只有源点, 以后每求出一条最短路径, 就将顶点
加入到S中, 直到所有顶点都加入到S中, 算法结束), 第二组为其余未求出最短路径的顶点
集合(用U表示), 按最短路径的长度次序 依次将第二组中的顶点加入到第一组中, 具体方法
如下:
(1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点, 实体之间的关
系视为有向图当中的边, 相邻节点之间距离为1;
(2)选择一个问题关键词作为源点v, 初始时, S中只有源点, 即S={v}, v的距离为0(到
自己的距离为0), U包含除v外的所有其他顶点, v与U中顶点u距离为1(若v到u存在边)或∞
(v到u不存在边);权 利 要 求 书 1/6 页
2
CN 114817574 A
2(3)从U中选取一个距离v最小的顶点 k加入到S中;
(4)以k为新考虑的中间点, 修改U中各顶点的距离, 若从源点v经过顶点k到顶点u的距
离比原来距离(不经过顶点k)短, 则修改顶点u的距离, 修改后的距离值为顶 点k的距离加上
1;
(5)重复(3)、 (4)直到所有的顶点都加入到S中;
(6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查
询。
3.根据权利要求1所述的基于知识图谱的生成式常识推理方法, 其特征在于, 所述步骤
2具体如下: 步骤2, 利用步骤1处理后的基于知识图谱的生成式常识推理方法进行训练, 该
步骤的实施分为以下子步骤:
子步骤2‑1, 使用文本编码器进行编码, 该编码器由多个相同的编码层组成, 每一个编
码层又可分为两个子层, 分别是多头注意力层(Multi ‑head Self‑Attention Layer)和全
连接前馈神经网络层(Fu lly Connected Feed‑Forward Network Layer), 经过每一层计算
后再使用残差连接和层归一 化探索深层次的语义信息, 计算方式如公式(4) ‑(6)所示,
MultiHead(Q, K, V)=Co ncat(head1,…, headh)Wo (4)
headi=Attention(QWiQ, KWiK, VWiV) (5)
其中Wo、 WiQ、 WiK、 WiV为待学习的模型参数, dk为向量维度, Q、 K、 V为对应的注意力向量,
有一个关键词序列
其中
表示该序列中的第i个词, 首先进行词
嵌入与位置编码, 词嵌入将该关键词序列转变为特征空间的词向量表示, 而位置编码则为
词向量提供位置信息; 然后 将编码后的信息输入编 码器层当中; 在经过N层编码器层叠进 行
深层次的上 下文文本语义特 征提取之后, 获得对应关键词的语义向量表示eq={x1,…,xn};
子步骤2‑2, 使用知识增强的图编码器编码, 使用知识增强的图编码器是为了将知识图
谱中的知识信息引入单词表示之中, 提升其感知外部信息所包含常识知识的能力, 并通过
图神经网络结构更新节点的表示信息, 图神经网络按其图状结构利用知识图谱当中的实体
相关信息进行节点更新, 将各类知识图谱当中蕴含的隐式关系信息嵌入单词原本的语义表
示当中, 记eq={x1,…,xn}为上一层文本编码器的输出, 即作为本知识增强图编码器的输
入, 其加上知识推理图
一起获得更新后的单词表示
记
中xi对应的节点i的特征表示为ni, 将文本编码器输出eq与节点表示相结合, 利用图
神经网络的信息流动机制, 聚合相邻节点的特征信息并更新中心节点的特征表示, 获得包
含更多信息的节点表示, 使用对属 性向量进行投影的方法解决不同向量维度 空间的问题,
具体的初始化方法如公式(7)、 (8)所示,
其中Wproj、 bproj为待学习的算 法参数, [; ]为拼接操作, eij为节点i与节点j之间关系的向权 利 要 求 书 2/6 页
3
CN 114817574 A
3
专利 一种基于知识图谱的生成式常识推理方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:05上传分享