专利一种基于对比学习的新闻文本与评论相关性分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210507391.0 (22)申请日 2022.05.10 (71)申请人昆明理工大学地址 650093 云南省昆明市五华区一二— 大街文昌巷68号 (72)发明人王红斌　张卓　李辉　文永华　线岩团　 (74)专利代理机构昆明合盛知识产权代理事务所(普通合伙) 53210 专利代理师王丹丹 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/194(2020.01)G06N 3/08(2006.01) (54)发明名称一种基于对比学习的新闻文本与评论相关性分析方法 (57)摘要本发明公开了一种基于对比学习的新闻文本与评论相关性分析方法，首先对文本进行分词和词性标注等处理，生成候选关键词，计算候选关键词与文本的相似度，提取关键词；文本的关键词序列与标题进行拼接得到新闻文本的表示；关键词和标题序列传递给BERT预训练模型的 encoder两次，通过应用独立采样的dropoutmask 获得两个作为正样本的嵌入，同时同一个b atch 里剩余新闻的两次嵌入作为负样本；交叉熵和相对熵损失函数对预训练模型进行微调。本发明提出的方法对于新闻文本与评论的相似度计算有很好的效果，通过合适的关键词数量与标题拼接可以提高相似度计算的准确率；在公共数据集上实验验证，该方法不仅适用于新闻文本与评论数据集，而且也具有一定的泛化能力。权利要求书3页说明书10页附图2页 CN 115146629 A 2022.10.04 CN 115146629 A 1.一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，包括以下步骤： Step1：使用分词工具对新闻文本进行分词、去除停止词和词性标注操作，将新闻文本拆分为带有词性标注的词序列,然后使用正则表达式对词序列进行匹配，组成名词短语，将这些短语作为候选关键词； Step2：将新闻文本分成m个句子，使用BERT预训练模型对每一个句子进行编码，得到句子的向量表示并使用嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词 NPi的词向量 Step3：通过余弦相似度计算得到每一个候选关键词与文本的相似度，然后通过 softmax归一化，并结合候选关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度，接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D； Step4、使用dropout方法对BERT预训练模型进行随机失活，并使用该模型对新闻文本的表示Di进行处理；训练过程种使用对比学习方法微调预训练模型的参数，模型训练完成后，使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码，获得新闻文本的向量和评论的向量，之后通过计算向量之间的相似度得到评论与新闻文本的相似度，最后通过设定的相似度阈值对评论进行筛选。 2.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，所述Step1的具体步骤为：模型的输入为完整的新闻文本，使用清华大学的THULAC分词工具进行处理，实现对新闻文本的分词与词性标注，将新闻文本转化为词的序列W＝(w1,w2,…,wn)；然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接，组成名词短语，将这些短语作为候选关键词NP＝(NP1,NP2,…,NPi)。 3.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，所述Step2的具体步骤为：设置MSL(minimum sequence length)为最小序列长度，将新闻文本分成大于或等于 MSL的m个句子S＝(S1,S2,…,Sm)；对于每一个句子，使用BERT预训练模型获得句子的向量表示由于BERT预训练模型的self ‑attention机制，同一个词在不同的语境有着不同的词嵌入；因此，通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词嵌入；候选关键词NPi的词嵌入如公式(1)所示：其中NPi表示当前关键词， Sj表示包含当前关键词的句子，表示当前关键词NPi在第j 个句子中的词嵌入， n表示包含当前关键词NPi的句子总数。 4.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于：所述Step3的具体步骤为： Step3.1：对于每个候选关键词NPi，通过公式(2)计算单个候选关键词与文本的相似度：权　利　要　求　书 1/3 页 2 CN 115146629 A 2公式(2)中，表示关键词NPi的词向量， Vd表示文档的向量，表示第j个句子的向量，本文使用当前关键词与文章所有句子的余弦相似度的和作为当前关键词与新闻文本的相似度； Step3.2：对于关键词候选集里的所有关键词，通过公式(2)得到每一个候选关键词与文本的相似度，最后通过softmax归一化，并结合关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度；公式如(6)、 (7)所示：其中， VTitle表示新闻标题的向量，通过引入超参数使最终得到的关键词与标题的相关程度更高； Step3.3：得到候选关键词与新闻文本的相似度后，选取相似度最高的k个词作为新闻文本的关键词；最后将新闻标题与提取的k个关键词拼接得到的文本作为新闻文本的表示 D,公式如(8)所示；其中， title表示新闻文本的标题， w表示关键词，表示拼接操作；通过关键词序列与标题拼接，从而在不丢失语义信息的情况下，将较长的新闻文本转换成较短的文本。 5.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于：所述Step4的具体步骤为： Step4.1：使用dropout方法对BERT预训练模型进行随机失活，并使用该模型对同一篇新闻文本的表示Di处理两次，得到当前新闻文本的两个不同嵌入表示然后把作为的正样本，而负样本为同一个训练batch里的其他新闻文本的嵌入表示其中j≠i且jmax＝batch size；完成正负样本的构建后，模型的训练目标如公式(9)所示；权　利　要　求　书 2/3 页 3 CN 115146629 A 3

专利 一种基于对比学习的新闻文本与评论相关性分析方法

专利一种基于对比学习的新闻文本与评论相关性分析方法