(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210507391.0
(22)申请日 2022.05.10
(71)申请人 昆明理工大 学
地址 650093 云南省昆明市五华区一 二—
大街文昌巷68号
(72)发明人 王红斌 张卓 李辉 文永华
线岩团
(74)专利代理 机构 昆明合盛知识产权代理事务
所(普通合伙) 53210
专利代理师 王丹丹
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 40/194(2020.01)G06N 3/08(2006.01)
(54)发明名称
一种基于对比学习的新闻文本与评论相关
性分析方法
(57)摘要
本发明公开了一种基于对比学习的新闻文
本与评论相关性分析方法, 首先对文本进行分词
和词性标注等处理, 生成候选关键词, 计算候选
关键词与文本的相似度, 提取关键词; 文本的关
键词序列与标题进行拼接得到新闻文本的表示;
关键词和标题序列传递给BERT预训练模型的
encoder两次, 通过应用独立采样的dropoutmask
获得两个作为正样本的嵌入, 同时同一个b atch
里剩余新闻的两次嵌入作为负样 本; 交叉熵和相
对熵损失函数对 预训练模型进行微调。 本发明提
出的方法对于新闻文本与评论的相似度计算有
很好的效果, 通过合适的关键词数量与标题拼接
可以提高相似度计算的准确率; 在公共数据集上
实验验证, 该方法不仅适用于新闻文本与评论数
据集, 而且也具有一定的泛化能力。
权利要求书3页 说明书10页 附图2页
CN 115146629 A
2022.10.04
CN 115146629 A
1.一种基于对比学习的新闻文本与评论相关性分析 方法, 其特 征在于, 包括以下步骤:
Step1: 使用分词工具对新闻文本进行分词、 去除停止词和词性标注操作, 将新闻文本
拆分为带有词性标注的词序列,然后使用正则表达式对词 序列进行匹配, 组成名词短语, 将
这些短语作为 候选关键词;
Step2: 将新 闻文本分成m个句子, 使用BERT预训练模型对每一个句子进行编码, 得到句
子的向量表示
并使用嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词
NPi的词向量
Step3: 通过余弦相似度计算得到每一个候选关键词与文本的相似度, 然后通过
softmax归一化, 并结合候选关键词 与新闻标题的相似度, 得到所有关键词 与新闻文本的相
似度, 接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为 新闻文本的表示D;
Step4、 使用dropout方法对BERT预训练模型进行随机失活, 并使用该模型对新闻文本
的表示Di进行处理; 训练过程种使用对比学习方法微调预训练模型的参数, 模型训练完成
后, 使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码, 获得新闻文本的
向量和评论的向量, 之后通过计算向量之间的相似度得到评论与新闻文本的相似度, 最后
通过设定的相似度阈值对评论进行筛 选。
2.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法, 其特
征在于, 所述Step1的具体步骤为:
模型的输入为完整 的新闻文本, 使用清华大学的THULAC分词工具进行处理, 实现对新
闻文本的分词与词性标注, 将新闻文本转化为词的序列W=(w1,w2,…,wn); 然后使用正则表
达式对相 邻位置的形容词 与名词、 名词 与动词等进 行拼接, 组成名词短语, 将这些短语作为
候选关键词NP=(NP1,NP2,…,NPi)。
3.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法, 其特
征在于, 所述Step2的具体步骤为:
设置MSL(minimum sequence length)为最小序列长度, 将新闻文本分成大于或等于
MSL的m个句子S=(S1,S2,…,Sm); 对于每一个句子, 使用BERT预训练模型获得句子的向量表
示
由于BERT预训练模型的self ‑attention机制, 同一个词在不同的语境有着不同的词
嵌入; 因此, 通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词嵌
入; 候选关键词NPi的词嵌入如公式(1)所示:
其中NPi表示当前关键词, Sj表示包含当前关键词的句子,
表示当前关键词NPi在第j
个句子中的词嵌入, n表示包 含当前关键词NPi的句子总数。
4.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法, 其特
征在于: 所述Step3的具体步骤为:
Step3.1: 对于每 个候选关键词NPi, 通过公式(2)计算单个候选关键词与文本的相似度:权 利 要 求 书 1/3 页
2
CN 115146629 A
2公式(2)中,
表示关键词NPi的词向量, Vd表示文档的向量,
表示第j个句子的向
量, 本文使用当前关键词 与文章所有句子的余弦相似度的和作为当前关键词与新闻文本的
相似度;
Step3.2: 对于关键词候选集里的所有关键词, 通过公式(2)得到每一个候选关键词与
文本的相 似度, 最后通过softmax归一化, 并结合关键词与新闻标题的相 似度, 得到所有关
键词与新闻文本的相似度; 公式如(6)、 (7)所示:
其中, VTitle表示新闻标题的向量, 通过引入超参数
使最终得到 的关键词与标题的相
关程度更高;
Step3.3: 得到候选关键词与新闻文本的相似度后, 选取相似度最高的k个词作为新闻
文本的关键词; 最后将新闻标题与提取 的k个关键词拼接得到的文本作为新闻文本的表示
D,公式如(8)所示;
其中, title表示 新闻文本的标题, w表示关键词,
表示拼接操作; 通过关键词序列 与标
题拼接, 从而在不丢失语义信息的情况 下, 将较长的新闻文本转换成较短的文本 。
5.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法, 其特
征在于: 所述Step4的具体步骤为:
Step4.1: 使用dropout方法对BERT预训练模型进行随机失活, 并使用该模型对同一篇
新闻文本的表示Di处理两次, 得到当前新闻文本的两个不同嵌入表示
然后把
作为
的正样本, 而负样本为同一个训练batch里的其他新闻文本的嵌入表示
其
中j≠i且jmax=batch size; 完成正负 样本的构建后, 模型的训练目标如公式(9)所示;
权 利 要 求 书 2/3 页
3
CN 115146629 A
3
专利 一种基于对比学习的新闻文本与评论相关性分析方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:18上传分享