(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210419204.3
(22)申请日 2022.04.20
(71)申请人 扬州大学
地址 225009 江苏省扬州市大 学南路88号
(72)发明人 朱毅 周鑫柯 李云 强继朋
袁运浩
(74)专利代理 机构 南京苏科专利代理有限责任
公司 32102
专利代理师 董旭东 季雯
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于关键词筛选和注意力机制的极短
文本分类方法
(57)摘要
本发明公开了一种基于关键词筛选和注意
力机制的极短文本分类方法, 包括: (1) 设计和实
现关键词筛选算法, 通过知识图谱引入额外知识
来优化极短文本的特征表示; (2) 通过带有注意
力机制的双向长短期记忆模型(Attention ‑
based BiLSTM)得到极短文本的表示; (3) 构建两
种对于额外知识的注意力机制, 以学习得到更加
重要和相关的知识; (4) 最终将极短文本表示与
额外知识相结合, 用softmax分类器在极短文本
数据集上进行分类, 并得到分类结果。 本发明提
高了表示学习和特征提取的效果, 提升了数据集
分类的准确性, 具有较高的鲁棒 性和实用性。
权利要求书3页 说明书6页 附图1页
CN 114722206 A
2022.07.08
CN 114722206 A
1.一种基于关键词筛选和注意力机制的极短文本分类方法, 其特征在于, 包括以下步
骤:
1)设计和实现关键词筛选算法, 通过知识图谱引入额外知识来优化极短文本的特征表
示;
2)通过带有注意力机制的双向长短期记 忆模型得到极短文本的表示;
3)构建两种对于额外知识的注意力机制, 以学习得到更加重要和相关的知识;
4)最终将极短文本表示与额外知识相结合, 用softmax分类器在极短文本数据集上进
行分类, 并得到分类结果。
2.根据权利要求1所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其
特征在于, 所述 步骤1)具体包括:
1.1)使用Rake关键词提取算法对输入的关键词进行选择, 使用分隔符将极短文本分为
若干短语, 所述短语作为最终提取出 的关键词的候选词, 每个短语通过空格分为若干个单
词, 通过给每个单词赋予一个得分, 通过累加得到每个短语的得分, 最后 将得分最高的选做
关键词; 单词得分公式为:
wordScore= wordDegre e(w)/wordFrequency(w)
其中wordDe gree表示该单词每与一个单词共现在一个短语中度就加1, wordFrequency
表示该单词出现的总次数;
1.2)用知识图谱引入关键词的相关概念, 从知识图谱Probase中获取关键词的概念作
为额外知识, 使用知识图谱Pr obase的api接口, 对关键词进行概念的搜索, 将 搜索到的概念
组合成概念的集 合。
3.根据权利要求2所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其
特征在于, 所述 步骤2)具体包括:
2.1)词和字级的嵌入: 将输入的极短文本表示为{(x1,y1),(x2,y2),...(xn,yn)}, 其中n
是极短文本中所有文本的数量, yi∈{1,2,...c}, c是标签的数量; 采用字和词两种嵌入方
式来进行特征表示学习, 使用卷积神经网络获得每个单词的字嵌入, 通过word2vec来获得
词嵌入, 词向量和 字向量的维数都是d/2, 最后将字向量和词向量连接在一起获得d维的词
表示;
2.2)极短文本的表示: 在步骤2.1)获得的词表示被视为d维的词向量序列(x1,x2,…,
xn), 其中n为极短文本的长度; 将词向量序列输入到Attention ‑based BiLSTM获得相应的
表示; BiLSTM包含了前向和后向的网络用于处 理极短文本, 如公式(1)和公式(2)所示:
接着将每一个
和
连接在一起得到一个隐状态ht; 因此, 所有的hts被定义为
如公式(3)所示:
H=(h1,h2,…,hn) (3)
其中, u是BiLSTM每个方向上的隐元个数, n是词向量的个数; 然后通过公式(4)计算注
意力权重:权 利 要 求 书 1/3 页
2
CN 114722206 A
2其中, αi表示每个词的注意力权重, f是网络的激活函数, softmax是用来规范化每个词
的权重;
是权重矩阵,
是权重向量, 其中da是超参数, b1是偏置向
量, hi表示第i个词的隐状态;
最终hi的加权和就得到 了极短文本的表示zs, 如公式(5)所示:
4.根据权利要求3所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其
特征在于, 所述 步骤3)具体包括:
3.1)构建第一种概念注意力机制: 将步骤1.2)得到的概念的集合进行概念和字级的嵌
入, 得到d维的概念向量(c1,c2,…,cm), 其中m为概念的数量; 第一种概念注 意力机制是用来
计算第i个概念和极 短文本zs的语义相似度, 计算公式如(6)所示:
其中, βi表示第i个概念对于极短文本的注意力权重, f是网络的激活函数;
是权重矩阵,
是权重向量, 其中db是超参数, b2是偏置向量;
3.2)构建第 二种概念注意力机制: 第二种概念注意力 机制是用来计算每个概念对于整
个概念集 合的重要性, 计算公式如(7)所示:
其中, δi表示第i个概念对于概念集的注意力权重, f是网络的激活函数;
是权重矩阵,
是权重向量, 其中dc是超参数, b3是偏置向量;
3.3)将两种概念注意力权重相结合: 将βi和 δi通过公式(8)相结合得到最终的注意力权
重:
μi=softmax( λ βi+(1‑λ )δi) (8)
其中, μi表示第i个概念最终的概念权重, λ是权衡参数来调节两种注意力权重的重要
性;
3.4)概念表示: 将步骤3.3)得到的最终的概念权重 μi和步骤3.1)得到的概念向量(c1,
c2,…,cm)根据公式(9)进行加权和得到概念表示zc:
其中, ci表示第i个概念的概念向量。
5.根据权利要求4所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其
特征在于, 所述 步骤4)具体包括:
4.1)将极短文本表示与额外知识相结合: 将步骤2.2)获得的极短文本表示zs与步骤
3.4)获得的概念表示zc相结合得到 输出z, 并将z 输入到一个全连接层中;
4.2)训练softmax分类器在极短文本数据 集上进行分类: 用测试极短文本数据 集训练,
在softmax中:权 利 要 求 书 2/3 页
3
CN 114722206 A
3
专利 一种基于关键词筛选和注意力机制的极短文本分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:51:55上传分享