全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210419204.3 (22)申请日 2022.04.20 (71)申请人 扬州大学 地址 225009 江苏省扬州市大 学南路88号 (72)发明人 朱毅 周鑫柯 李云 强继朋  袁运浩  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 董旭东 季雯 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于关键词筛选和注意力机制的极短 文本分类方法 (57)摘要 本发明公开了一种基于关键词筛选和注意 力机制的极短文本分类方法, 包括: (1) 设计和实 现关键词筛选算法, 通过知识图谱引入额外知识 来优化极短文本的特征表示; (2) 通过带有注意 力机制的双向长短期记忆模型(Attention ‑ based BiLSTM)得到极短文本的表示; (3) 构建两 种对于额外知识的注意力机制, 以学习得到更加 重要和相关的知识; (4) 最终将极短文本表示与 额外知识相结合, 用softmax分类器在极短文本 数据集上进行分类, 并得到分类结果。 本发明提 高了表示学习和特征提取的效果, 提升了数据集 分类的准确性, 具有较高的鲁棒 性和实用性。 权利要求书3页 说明书6页 附图1页 CN 114722206 A 2022.07.08 CN 114722206 A 1.一种基于关键词筛选和注意力机制的极短文本分类方法, 其特征在于, 包括以下步 骤: 1)设计和实现关键词筛选算法, 通过知识图谱引入额外知识来优化极短文本的特征表 示; 2)通过带有注意力机制的双向长短期记 忆模型得到极短文本的表示; 3)构建两种对于额外知识的注意力机制, 以学习得到更加重要和相关的知识; 4)最终将极短文本表示与额外知识相结合, 用softmax分类器在极短文本数据集上进 行分类, 并得到分类结果。 2.根据权利要求1所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其 特征在于, 所述 步骤1)具体包括: 1.1)使用Rake关键词提取算法对输入的关键词进行选择, 使用分隔符将极短文本分为 若干短语, 所述短语作为最终提取出 的关键词的候选词, 每个短语通过空格分为若干个单 词, 通过给每个单词赋予一个得分, 通过累加得到每个短语的得分, 最后 将得分最高的选做 关键词; 单词得分公式为: wordScore= wordDegre e(w)/wordFrequency(w) 其中wordDe gree表示该单词每与一个单词共现在一个短语中度就加1, wordFrequency 表示该单词出现的总次数; 1.2)用知识图谱引入关键词的相关概念, 从知识图谱Probase中获取关键词的概念作 为额外知识, 使用知识图谱Pr obase的api接口, 对关键词进行概念的搜索, 将 搜索到的概念 组合成概念的集 合。 3.根据权利要求2所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其 特征在于, 所述 步骤2)具体包括: 2.1)词和字级的嵌入: 将输入的极短文本表示为{(x1,y1),(x2,y2),...(xn,yn)}, 其中n 是极短文本中所有文本的数量, yi∈{1,2,...c}, c是标签的数量; 采用字和词两种嵌入方 式来进行特征表示学习, 使用卷积神经网络获得每个单词的字嵌入, 通过word2vec来获得 词嵌入, 词向量和 字向量的维数都是d/2, 最后将字向量和词向量连接在一起获得d维的词 表示; 2.2)极短文本的表示: 在步骤2.1)获得的词表示被视为d维的词向量序列(x1,x2,…, xn), 其中n为极短文本的长度; 将词向量序列输入到Attention ‑based BiLSTM获得相应的 表示; BiLSTM包含了前向和后向的网络用于处 理极短文本, 如公式(1)和公式(2)所示: 接着将每一个 和 连接在一起得到一个隐状态ht; 因此, 所有的hts被定义为 如公式(3)所示: H=(h1,h2,…,hn)                  (3) 其中, u是BiLSTM每个方向上的隐元个数, n是词向量的个数; 然后通过公式(4)计算注 意力权重:权 利 要 求 书 1/3 页 2 CN 114722206 A 2其中, αi表示每个词的注意力权重, f是网络的激活函数, softmax是用来规范化每个词 的权重; 是权重矩阵, 是权重向量, 其中da是超参数, b1是偏置向 量, hi表示第i个词的隐状态; 最终hi的加权和就得到 了极短文本的表示zs, 如公式(5)所示: 4.根据权利要求3所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其 特征在于, 所述 步骤3)具体包括: 3.1)构建第一种概念注意力机制: 将步骤1.2)得到的概念的集合进行概念和字级的嵌 入, 得到d维的概念向量(c1,c2,…,cm), 其中m为概念的数量; 第一种概念注 意力机制是用来 计算第i个概念和极 短文本zs的语义相似度, 计算公式如(6)所示: 其中, βi表示第i个概念对于极短文本的注意力权重, f是网络的激活函数; 是权重矩阵, 是权重向量, 其中db是超参数, b2是偏置向量; 3.2)构建第 二种概念注意力机制: 第二种概念注意力 机制是用来计算每个概念对于整 个概念集 合的重要性, 计算公式如(7)所示: 其中, δi表示第i个概念对于概念集的注意力权重, f是网络的激活函数; 是权重矩阵, 是权重向量, 其中dc是超参数, b3是偏置向量; 3.3)将两种概念注意力权重相结合: 将βi和 δi通过公式(8)相结合得到最终的注意力权 重: μi=softmax( λ βi+(1‑λ )δi)               (8) 其中, μi表示第i个概念最终的概念权重, λ是权衡参数来调节两种注意力权重的重要 性; 3.4)概念表示: 将步骤3.3)得到的最终的概念权重 μi和步骤3.1)得到的概念向量(c1, c2,…,cm)根据公式(9)进行加权和得到概念表示zc: 其中, ci表示第i个概念的概念向量。 5.根据权利要求4所述的一种基于关键词筛选和注意力机制的极短文本分类方法, 其 特征在于, 所述 步骤4)具体包括: 4.1)将极短文本表示与额外知识相结合: 将步骤2.2)获得的极短文本表示zs与步骤 3.4)获得的概念表示zc相结合得到 输出z, 并将z 输入到一个全连接层中; 4.2)训练softmax分类器在极短文本数据 集上进行分类: 用测试极短文本数据 集训练, 在softmax中:权 利 要 求 书 2/3 页 3 CN 114722206 A 3

.PDF文档 专利 一种基于关键词筛选和注意力机制的极短文本分类方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于关键词筛选和注意力机制的极短文本分类方法 第 1 页 专利 一种基于关键词筛选和注意力机制的极短文本分类方法 第 2 页 专利 一种基于关键词筛选和注意力机制的极短文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。