(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211283553.3
(22)申请日 2022.10.20
(71)申请人 暨南大学
地址 510632 广东省广州市黄埔大道西6 01
号
(72)发明人 黄斐然 刘文骁 支庭荣
(74)专利代理 机构 广州汇盈知识产权代理事务
所(普通合伙) 44603
专利代理师 邓有才
(51)Int.Cl.
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06F 16/31(2019.01)
G06F 40/30(2020.01)
(54)发明名称
基于BERT的多 任务新闻分类方法及装置
(57)摘要
本发明实施例涉及 文本分类技术领域, 公开
了一种基于BERT的多任务新闻分类方法, 包括:
获取新闻的原始文本数据; 将所述原始文本数据
进行数据清洗; 将所述待分类文本信息输入编码
层, 得到所述原始文本数据的特征向量; 将所述
特征向量输入注意力层; 将所述特征向量与超参
数作点乘, 得到注意力层输出结果; 将所述注意
力层输出结果输入前馈神经网络层进行归一化
处理, 得到各类新闻文本的独有特征向量; 将所
述独有特征向量进行联合学习, 得到各类新闻任
务的联合损失函数结果; 根据联合损失函数结果
输出新闻分类结果。 本发明通过BERT模型对新闻
文本数据进行处理, 采用多任务新闻分类任务进
行联合训练, 提高新闻分类的准确度和适用性。
权利要求书2页 说明书7页 附图4页
CN 115357720 A
2022.11.18
CN 115357720 A
1.一种基于BERT的多任务 新闻分类方法, 其特 征在于, 包括:
获取新闻的原 始文本数据;
将所述原 始文本数据进行 数据清洗, 得到待分类文本信息;
将所述待分类文本信息 输入编码层, 得到所述原 始文本数据的特 征向量;
将所述特征向量输入注意力层; 将所述特征向量与超参数作点乘, 得到注意力层输出
结果;
将所述注意力层输出结果输入前馈神经网络层进行归一化处理, 得到各类新闻文本的
独有特征向量;
将所述独有特 征向量进行 联合学习, 得到各类新闻任务的联合损失函数 结果;
根据联合损失函数 结果输出新闻分类结果。
2.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述原始
文本数据进行 数据清洗, 包括:
将所述原 始文本数据拆分成若干条长度小于预设值的子文本;
将长度小于预设值的所述原 始文本数据利用特殊符号进行补齐;
将所述原 始文本数据中的特殊字符和标签元 素进行去除;
将所述原 始文本数据中的表情符号 转换成相应的中文释义。
3.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述特征
向量与所述超参数作点乘, 得到注意力层输出 结果, 包括:
将所述特 征向量与超参数进行点乘运 算, 生成向量 Query、 向量K ey和向量Value;
将所述向量 Query、 向量K ey和向量Value输入注意力函数, 得到Value相似度的权 重;
注意力函数表示如下:
,
其中T表示矩阵的转置操作,
表示矩阵向量的维度, Q表示向量Query, K表示向量Key,
V表示向量Value。
4.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述注意
力层输出结果输入前馈神经网络层进行归一化处理, 得到各类新闻文本的独有特征向量,
包括:
将所述注意力层输出 结果利用L2范 数进行归一 化处理;
通过残差模块缓解网络退化, 更新浅层网络参数, 得到 输入结果;
将所述输入结果 集成到语义特 征向量中;
获取所述语义特征向量中的信 息, 将其中的新闻文本类别和对应种类的新闻文本语料
进行下游微调, 得到各类新闻文本的独有特 征向量。
5.如权利要求4所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述新闻文本类
别包括: 动态新闻类、 典型新闻类、 综合 新闻类和述评新闻类。
6.如权利要求1所述的基于BERT的多任务 新闻分类方法, 其特 征在于: 还 包括:
对带遮罩的语言任务进行 预训练;
对次句预测任务进行 预训练;权 利 要 求 书 1/2 页
2
CN 115357720 A
2所述对带遮罩的语言任务进行 预训练, 包括:
在BERT模型中将样本序列中以15%的概率随机遮蔽一些原有符号, 并将所述原有符号
分别以80%、 10%和10%的概 率替换成特殊标记、 随机标记和原有符号;
将多头自注意力机制层里的向量矩阵进行混淆;
所述对次句预测任务进行 预训练, 包括:
输入新闻文本句子对 (第一句子,第二句子) , 将第二句子以预设概率替换成语料库中
的其他子句, 其 余的保持不变;
通过语义特征向量输出一个全局特征表示标签, 判断第 二句子是否是第 一句子的下一
句。
7.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述根据 联合损
失函数结果输出新闻分类结果, 包括:
设定一个损失阈值;
判断所述联合损失函数结果是否超过所述损失阈值; 若是, 则继续迭代, 重新计算联合
损失函数 结果; 若否, 输出新闻分类结果。
8.一种基于BERT的多任务 新闻分类方法的装置, 其特 征在于, 包括:
文本提取模块: 用于获取新闻的原 始文本数据;
文本清洗模块: 用于多原始文本数据进行清洗, 包括对长文本进行截断、 对短文本进行
补齐、 清除特殊字符以及将表情符号 转换成中文释义;
数据处理模块: 用于将已经进行数据清洗的文本数据通过BERT模型进行数据处理, 并
得到联合损失函数 结果;
分类判断模块: 用于根据联合损失函数 结果判断并输出新闻的类型。
9.一种电子设备, 其特征在于, 包括: 存储有可执行程序代码的存储器; 与所述存储器
耦合的处理器; 所述处理器调用所述存储器中存储的所述可执行程序代码, 用于执行权利
要求1至7任一项所述的基于BERT的多任务 新闻分类方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程
序, 其中, 所述计算机程序使得计算机执行权利要求1至7任一项所述的基于BERT的多任务
新闻分类方法。权 利 要 求 书 2/2 页
3
CN 115357720 A
3
专利 基于BERT的多任务新闻分类方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:23上传分享