专利 一种基于文本聚类的视频弹幕与评论主题融合的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211017927.7 (22)申请日 2022.08.24 (71)申请人西南财经大学地址 611130 四川省成都市温江区柳台大道555号 (72)发明人熊文军　陈思为　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师杜静静 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/951(2019.01) G06F 40/242(2020.01) G06F 40/284(2020.01) (54)发明名称一种基于文本聚类的视频弹幕与评论主题融合的方法 (57)摘要本发明涉及一种基于文本聚类的视频弹幕与评论主题融合的方法，所述方法包括以下步骤：步骤1：编写pyt hon程序爬取视频下方的评论及弹幕的文本内容；步骤2：根据自定义词典及扩展停用词对数据进行预处理；步骤3：运用 BERTopic模型处理评论数据得到其主题；步骤 4：运用基于TF ‑IDF的k‑means算法处理弹幕数据得到其主题簇；步骤5：利用衡量主题之间及词与词之间的相似度从而实现 “求同存异 ”的模型融合。本发明考虑了视频中蕴含的两种数据内容，并创新性地通过衡量主题之间及词与词之间的相似度实现多源数据的融合，可以更加全面地获取用户对整个视频的关注点。此外，发明中两种聚类均可训练出最佳簇数，无需人工提前设定。权利要求书4页说明书9页附图2页 CN 115470344 A 2022.12.13 CN 115470344 A 1.一种基于文本聚类的视频弹幕与评论主题融合的方法，其特征在于，所述方法包括以下步骤：步骤1：编写pytho n程序爬取视频下方的评论及弹幕的文本内容；步骤2：根据自定义词典及扩展停用词对数据进行预处理；步骤3：运用BERTopic模型处理评论数据得到其主题；步骤4：运用基于TF ‑IDF的k‑means算法处理弹幕数据得到其主题簇；步骤5：利用衡量主题之间及词与词之间的相似度从而实现 “求同存异 ”的模型融合；其中步骤5具体如下：步骤5‑1：通过计算余弦相似度，求得各个簇代表的词向量之间的相似度，设置相似度阈值，当相似度大于等于阈值时则认为簇之间相似，反之则不同，把被认为相似的簇输入到下一步，同时将与其余任何簇都不同的簇存放在集合C中；步骤5‑2：融合相似簇的主题词，首先选取一对相似簇，设置其中一个簇为基准簇，调用 Synonyms中文近义词工具包把相似簇中各自词输入程序，获得对应词的距离分数，设置距离分数阈值，当距离分数大于等于阈值时则认为两者为近义词，反之则不同，若两词被判断为近义词则只保留基准簇中的该词，若两词不同且不同词出现在基准词中则保留不变，若两词不同且出现在比较簇中则将该词添加到基准簇中，比较完成后将该基准簇存放入集合 C中；步骤5‑3：将每一对相似簇进行步骤5 ‑2的操作；步骤5‑4：输出集合C为对聚类主题进行融合的最终结果。 2.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法，其特征在于：关于步骤1中通过python的爬虫相关库，实现HTTP请求操作，得到服务器响应，获取到网页源代码，分析网页结构，分别提取视频下方的评论及弹幕并保存。 3.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法，其特征在于：步骤2中预处理过程中运用正则表达式匹配文本去除特殊符号、多余空白、转化繁体字，构建自定义词典使词能更准确地划分，使用扩展的停用词表去除文本中无意义或不重要的词，根据文本的特性，构建自定义词典，自定义词典中的词语是根据当前流行的网络用语及节目、人物名字人工添加，停用词是文本中经常出现的一些衔接语句的词或者对分析没有用处的词。 4.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法，其特征在于：步骤3由BERTopic主题模型处理评论文本，算法大致包括3个阶段：使用BERT进行文档嵌入、文档聚类、创建主题表示得到主题簇，具体如下：步骤3‑1：使用BERT模型将句子转换，从一组文档中创建文档嵌入，模型是针对多种语言进行的预训练，对于创建文档或句子嵌入都非常有用；步骤3‑2：由于聚类算法难以在高维空间中对数据进行聚类，在对文档进行聚类之前，需要降低生成的嵌入的维数， Umap算法主要包括两阶段，第一阶段构建模糊拓扑，运用最近邻算法对于空间中的每个点xi的k最近邻集合有{xi1， xi2， ...， xik}， ρi代表每个点与最近邻集合的最小距离， σi为各点的标准差， pij代表所求概率，根据式(1) ‑(4)得到ρi、 σi以及pij： ρi＝min{d(xi， xij)|1≤j≤k， d(xi， xij)＞0} (1)权　利　要　求　书 1/4 页 2 CN 115470344 A 2pij＝pi|j+pj|i‑pi|jpj|i (4) 第二阶段是简单地优化低维表示，使其具有尽可能接近的模糊拓扑表示，如式(5)所示，通常默认的参数a≈1.93， b≈0.79，并将式(6)的交叉熵公式作为代价函数训练； gij＝(1+a(yi‑yj)2b)‑1 (5) 步骤3‑3：使用HDBSCAN对降维的嵌入进行聚类，运用式(7)衡量点与点之间的距离，运用层次聚类的思想，使用最小生成树构建点与点之间的层次模型，并且为了控制生成的簇不要过小，限制了最小生成树剪枝的最小子树，其分裂度量方式是将每个点的密度度量定义为其中ε是该点和剩余聚类中点之间的最短距离；簇的生成密度定义为λbirth是这个簇生成时分裂边的导数，最后一个簇的密度由式(8)求得，通过HDBSCAN实现最大化簇之间的距离及最小化簇内距离， dmreach‑k(a， b)＝max{corek(a)， corek(b)， dis tan ve(1， b)} (7) 步骤3‑4：使用c‑TF‑IDF对主题进行提取和删减，利用最大边际相关法(MMR)计算查询文本和搜索文档之间的相似度，并对文档进行排序，提高词的连贯性和多样性， c ‑TF‑IDF是一种基于类的TF ‑IDF方法，其中c是已识别的聚类， c ‑TF‑IDF计算得分的公式为式(9)，其中 tfx表示词x在簇c中出现的频率， fx是词x在所有簇中出现的频率， A表示每个簇的平均词汇个数，最大边际相关法计算公式为式(10)，其中Q指查询文本， C指搜索文档集合， R为一个已经求得的以相关度为基础的初始集合， di在集合C中， dj在集合R中， argmax表示搜索返回的K 个句子的索引， 5.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法，其特征在于：步骤4运用基于T F‑IDF的k‑means算法算法处理弹幕文本，模型采用相对于中心点的距离作为指标，通过不断地迭代将数据分为输入K个类，步骤4‑1：使用TF ‑IDF权重的哈希向量化表示，向量化将文本文档集合转换为数字集合特征向量，文档由单词出现来描述，同时完全忽略文档中单词的相对位置信息， T F‑IDF认为权　利　要　求　书 2/4 页 3 CN 115470344 A 3

专利 一种基于文本聚类的视频弹幕与评论主题融合的方法

专利一种基于文本聚类的视频弹幕与评论主题融合的方法