(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211024484.4
(22)申请日 2022.08.25
(71)申请人 山东科技大 学
地址 266590 山东省青岛市经济技 术开发
区前湾港路579号
(72)发明人 杨洪娟 田刚
(74)专利代理 机构 安徽靖天专利代理事务所
(普通合伙) 34275
专利代理师 杨宝洞
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于双向长短期记忆模型与知识图谱
的文本分类方法
(57)摘要
本发明提供了一种基于双向长短期记忆模
型与知识图谱检索相结合的文本分类方法, 该方
法通过使用注意力机制根据任务从知识图谱中
检索相关的先验支持事实, 并将其与从训练数据
中学到的特征一起纳入特征空间对文本进行分
类。 它首先通过使用GloVe工具生成句子的词嵌
入模型, 然后分别放入知识图谱检索模块与双向
长短期记忆网络BiLS TM中, 后将检索模型的输 出
与BiLSTM模型的输 出进行拼合得到最终分类。 与
传统方法相比, 通过使用知识图谱的方法准确率
有着明显的改善。 最后在20New sgroups文本分类
数据集上评估我们的模型, 实验 结果证明了其有
效性。
权利要求书2页 说明书6页 附图1页
CN 115391532 A
2022.11.25
CN 115391532 A
1.一种基于双向长短期记忆模型与知识图谱检索相结合的文本分类方法, 其特征在
于, 包括以下步骤:
步骤1: 收集数据集文档, 将标签定义为二十类。 按照数据集中数据的分布将数据分为
训练集与测试集;
步骤2: 对训练组与测试组进行文本预处理: 使用GloVe词嵌入工具将训练组与测试组
中的内容训练成词嵌入模 型, 并将词嵌入向量放入双向长 短期记忆神经网络BiLSTM得到特
征向量;
步骤3: 将步骤2中的词嵌入向量输入至知识图谱检索模块中, 得到其输出 特征向量;
步骤4: 将步骤2中的BiLSTM输出特征向量与步骤3中的知识图谱检索模块输出的特征
向量使用一个多层感知器MLP拼接在一 起, 使用激活函数 得到其最终分类。
2.根据权利要求1所述的一种基于双向长短期记忆模型与知识图谱检索相结合的文本
分类方法, 其特征在于, 步骤1 中数据集收集了18 000条新闻文档, 均匀分为20个不同主题的
新闻组集 合; 按照8 :1的比例划分为训练集和 测试集。
3.根据权利要求1所述的一种基于双向长短期记忆模型与知识图谱检索相结合的文本
分类方法, 其特 征在于, 所述 步骤3, 具体包括以下子步骤:
步骤3.1: 使用Glove词 嵌入工具处理每个句子 的词嵌入, 将该词 嵌入作为BiLSTM的输
入和知识图谱检索模块的输入;
步骤3.2: 将得到的词嵌入送入BiLSTM模块中进行编码得到向量o, 然后从向量o形成上
下文向量C, 其过程如式(1)(2)(3)所示:
ht=f(xt,ht‑1) (1)
其中xt为当前输入, ht‑1为上一个 状态的传递,f为非线性 函数;
其中T为序列长度;
C=ReLU(oTW) (3)
其中W为权重参数, ReLU为激活函数;
步骤3.3: 步骤2.2中使用分别的BiLSTM通过相同的过程形成两个不 同的上下文向量,
分别用于实体 检索CE与关系检索CR;
步骤3.4: 将知识图谱中的实体与关系生成空间注意力; 对于实体向量ei注意力与关系
向量ri注意力如公式(4)(5)给 出:
其中|E|为知识图谱中的实体 个数,|R|为知识图谱中的关系个数;
步骤3.5: 最终检索的实体和关系向量是通过加权总和与各个检索到的实体/关系向量
的注意力值 来计算的, 如式(6)(7)所示:
权 利 要 求 书 1/2 页
2
CN 115391532 A
2步骤3.6: 将步骤3.5中得到的实体向量e和关系向量r通过知识图谱嵌入技术DKRL形成
知识图谱嵌入, 作为 步骤4中的输入t。
4.根据权利要求1所述的一种基于双向长短期记忆模型与知识图谱检索相结合的文本
分类方法, 其特 征在于, 所述 步骤4, 如式(8)所示:
y=softmax(Fc(t,b)) (8)
其中softmax为激活函数, Fc为MLP多层感知器, b为 步骤2的输出, t为 步骤3的输出。权 利 要 求 书 2/2 页
3
CN 115391532 A
3
专利 一种基于双向长短期记忆模型与知识图谱的文本分类方法
安全报告 >
其他 >
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:25上传分享