全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210929704.1 (22)申请日 2022.08.03 (71)申请人 江西理工大 学 地址 341000 江西省赣州市红旗大道86号 (72)发明人 廖列法 张燕琴 张文豪  (74)专利代理 机构 深圳市励知致远知识产权代 理有限公司 4 4795 专利代理师 贾永华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/18(2012.01) (54)发明名称 提高多层 级专利文本分类效果的方法、 设备 及存储介质 (57)摘要 本申请提供一种基于BERT ‑ALMG模型提高多 层级专利文本分类效果的方法、 电子设备及存储 介质, 包括: 构建专利分类所对应的标签集合, 并 针对每一个标签 建立标签特征向量; 获取待分类 的专利文本; 对专利文本进行分析, 得到专利文 本的文本 特征向量; 分析文本特征向量和标签特 征向量之间的关系, 得到专利文本的标签文本向 量; 对标签文本向量进行多粒度特征卷积操作, 以对专利文本进行分类。 针对中文专利多层级分 类任务, 利用BERT预训练模型充分捕获长文本的 上下文语义特征, 解决中文专利文本篇幅冗长、 专业词汇语义难以理解的问题。 标签注意力模块 充分挖掘了标签语义信息, 利用矩阵动态更新与 层级内容密切相关的标签文本向量, 能对层级结 构充分建模。 权利要求书2页 说明书12页 附图5页 CN 115238076 A 2022.10.25 CN 115238076 A 1.一种基于BERT ‑ALMG模型提高多层级专利文本分类效果的方法, 其特 征在于, 包括: 构建专利分类所对应的标签集 合, 并针对每一个标签建立标签特 征向量; 获取待分类的专利文本; 对所述专利文本进行分析, 得到所述专利文本的文本特 征向量; 分析所述文本特征向量和所述标签特征向量之间的关系, 得到所述专利文本的标签文 本向量; 对所述标签文本向量进行多粒度特 征卷积操作, 以对所述专利文本进行分类。 2.如权利要求1所述的方法, 其特征在于, 所述对所述专利文本进行分析, 得到所述专 利文本的文本特 征向量包括: 采用BERT预训练模型的文本特征表示层 分析专利文本上下文的句法语义特征, 得到所 述专利文本的文本特 征向量。 3.如权利要求2所述的方法, 其特征在于, BERT预训练模型包含两个预训练任务: 掩码 语言模型和下一个句子预测; 所述掩码语言模型将输入的词语部分进行掩码, 通过双向深层的Transformer模型还 原被掩码的词语, 学习上 下文敏感的文本表示; 下一个句子预测任务通过判断句子之间是否相邻, 学习不同句子之间的蕴含关系, 从 而得到专利文本上 下文的句法语义特 征。 4.如权利要求1所述的方法, 其特征在于, 所述分析所述文本特征向量和所述标签特征 向量之间的关系, 得到所述专利文本的标签文本向量包括: 将所述文本特征向量与所述标签特征向量通过桥接向量映射到用一个空间维度中, 得 到标签力注意力矩阵; 将所述文本特征向量与所述标签力注意力矩阵经激活函数处理后得到对应的局部文 本向量; 上层局部文本向量与标签特征向量进行归一化操作, 再与本层局部文本向量进行矩阵 点乘操作, 得到标签文本向量。 5.如权利要求4所述的方法, 其特征在于, 将所述文本特征向量与所述标签特征向量通 过桥接向量映射到用一个空间维度中, 得到标签力注意力矩阵包括: 将所述文本特征向量经过单层感知机线性变换, 再与桥接向量进行矩阵相乘得到第 一 关系矩阵; 将所述标签特征向量经过单层感知机线性变换, 再与桥接向量进行矩阵相乘得到第 二 关系矩阵; 通过所述第一关系矩阵和所述第二关系矩阵得到标签力注意力矩阵。 6.如权利要求1所述的方法, 其特征在于, 在对所述标签文本向量进行多粒度 特征卷积 操作时, 针对不同层级使用不同粒度的卷积核, 处于第一层级的标签文本 向量采用第一宽 度的卷积核, 处于第二层级的标签文本 向量采用第二宽度的卷积核, 所述第一层级高于所 述第二层级, 所述第一宽度大于所述第二宽度。 7.如权利要求1所述的方法, 其特征在于, 所述对所述标签文本向量进行多粒度 特征卷 积操作, 以对所述专利文本进行分类包括: 对所述标签文本向量进行多粒度特 征卷积操作, 得到 显著特征;权 利 要 求 书 1/2 页 2 CN 115238076 A 2根据所述显著特征预测所述专利文本属于相应层级的概率, 进而对所述专利文本进行 分类。 8.如权利要求1所述的方法, 其特征在于, 所述对所述标签文本向量进行多粒度 特征卷 积操作, 得到 显著特征包括: 对词窗口进行一维卷积 操作得到相应的特 征, 再进行最大池化操作得到 显著特征。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 一个或多个处 理器; 存储器; 以及 一个或多个应用程序, 其中所述一个或多个应用程序被存储于所述存储器中, 并配置 为由所述处 理器执行以实现权利要求1至8任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 被处理器进行加载, 以执 行权利要求1至8任一项所述的方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115238076 A 3

PDF文档 专利 提高多层级专利文本分类效果的方法、设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 提高多层级专利文本分类效果的方法、设备及存储介质 第 1 页 专利 提高多层级专利文本分类效果的方法、设备及存储介质 第 2 页 专利 提高多层级专利文本分类效果的方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。