(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211017927.7
(22)申请日 2022.08.24
(71)申请人 西南财经 大学
地址 611130 四川省成 都市温江区柳台大
道555号
(72)发明人 熊文军 陈思为
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 杜静静
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 16/951(2019.01)
G06F 40/242(2020.01)
G06F 40/284(2020.01)
(54)发明名称
一种基于文本聚类的视频弹幕与评论主题
融合的方法
(57)摘要
本发明涉及一种基于文本聚类的视频弹幕
与评论主题融合的方法, 所述方法包括以下步
骤: 步骤1: 编写pyt hon程序爬 取视频下方的评论
及弹幕的文本内容; 步骤2: 根据自定义词典及扩
展停用词对数据进行预处理; 步骤3: 运用
BERTopic模型处理评论数据得到其主题; 步骤 4:
运用基于TF ‑IDF的k‑means算法处理弹幕数据得
到其主题簇; 步骤5: 利用衡量主题之间及词与词
之间的相似度从而实现 “求同存异 ”的模型融合。
本发明考虑了视频中蕴含的两种数据内容, 并创
新性地通过衡量主题之间及词与词之间的相似
度实现多源 数据的融合, 可以更加全面地获取用
户对整个视频的关注点。 此外, 发明中两种聚类
均可训练出最佳簇数, 无需人工提前设定 。
权利要求书4页 说明书9页 附图2页
CN 115470344 A
2022.12.13
CN 115470344 A
1.一种基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于, 所述方法包括
以下步骤:
步骤1: 编写pytho n程序爬取视频 下方的评论及弹幕的文本内容;
步骤2: 根据自定义词典及扩展停用词对数据进行 预处理;
步骤3: 运用BERTopic模型处 理评论数据得到其主题;
步骤4: 运用基于TF ‑IDF的k‑means算法处 理弹幕数据得到其主题簇;
步骤5: 利用衡量主题之间及词与词之间的相似度从而实现 “求同存异 ”的模型融合;
其中步骤5具体如下:
步骤5‑1: 通过计算余弦相似度, 求得各个簇代表的词向量之间的相似度, 设置相似度
阈值, 当相似度大于等于阈值时则认 为簇之间相似, 反之则不同, 把被认为相似的簇输入到
下一步, 同时将与其 余任何簇都不同的簇存放在集 合C中;
步骤5‑2: 融合相似簇的主题词, 首先选取一对相似簇, 设置其中一个簇为基准簇, 调用
Synonyms中文近义词工具包把相似簇中各自词输入程序, 获得对应词的距离分数, 设置距
离分数阈值, 当距离 分数大于等于阈值时则认为两者为近义词, 反之则不同, 若两词被判断
为近义词则只保留基准簇中的该词, 若两词不同且不同词出现在基准词中则 保留不变, 若
两词不同且出现在比较簇中则将该词添加到基准簇中, 比较完成后 将该基准簇存放入集合
C中;
步骤5‑3: 将每一对相似簇进行步骤5 ‑2的操作;
步骤5‑4: 输出集 合C为对聚类主题进行融合的最终结果。
2.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 关
于步骤1中通过python的爬虫相关库, 实现HTTP请求操作, 得到服务器响应, 获取到网页源
代码, 分析网页结构, 分别提取视频 下方的评论及弹幕并保存。
3.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 步
骤2中预处理过程中运用正则表达式匹配文本去除特殊符号、 多余空白、 转化繁体字, 构建
自定义词典使词能更准确 地划分, 使用扩展的停用 词表去除文本中无意义或不重要的词,
根据文本的特性, 构建自定义词典, 自定义词典中的词语是根据当前流行 的网络用语及节
目、 人物名字人工添加, 停用 词是文本中经常出现的一些衔接语句的词或者对分析没有用
处的词。
4.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 步
骤3由BERTopic主题模 型处理评论文本, 算法大致包括3个阶段: 使用BERT进行文档嵌入、 文
档聚类、 创建主题 表示得到主题簇, 具体如下:
步骤3‑1: 使用BERT模型将句子转换, 从一组文档中创建文档嵌入, 模型是针对多种语
言进行的预训练, 对于创建文档或句子嵌入都 非常有用;
步骤3‑2: 由于聚类算法难以在高维空间中对数据进行聚类, 在对文档进行聚类之前,
需要降低生成的嵌入的维数, Umap算法主要包括两阶段, 第一阶段构建模糊拓扑, 运用最近
邻算法对于空间中的每个点xi的k最近邻集合有{xi1, xi2, ..., xik}, ρi代表每个点与 最近邻
集合的最小距离, σi为各点的标准差, pij代表所求概率, 根据式(1) ‑(4)得到ρi、 σi以及pij:
ρi=min{d(xi, xij)|1≤j≤k, d(xi, xij)>0} (1)权 利 要 求 书 1/4 页
2
CN 115470344 A
2pij=pi|j+pj|i‑pi|jpj|i (4)
第二阶段是简单地优化低维表示, 使其具有尽可能接近的模糊拓扑表示, 如式(5)所
示, 通常默认的参数a≈1.93, b≈0.79, 并将式(6)的交叉熵公式作为代价 函数训练;
gij=(1+a(yi‑yj)2b)‑1 (5)
步骤3‑3: 使用HDBSCAN对降维的嵌入进行聚类, 运用式(7)衡量点与点之间的距离, 运
用层次聚类的思想, 使用最小生成树构建点与点之间的层次模型, 并且为了控制生成的簇
不要过小, 限制 了最小生成树剪枝的最小子树, 其分裂度量方式是将每个点的密度度量定
义为
其中ε是该点和剩余聚类中点之间的最短距离; 簇的生成密度定义为λbirth是
这个簇生成时分裂边的导数, 最后一个簇的密度由式(8)求得, 通过HDBSCAN实现最大化簇
之间的距离及最小化簇内距离,
dmreach‑k(a, b)=max{corek(a), corek(b), dis tan ve(1, b)} (7)
步骤3‑4: 使用c‑TF‑IDF对主题进行提取和删减, 利用最大边际相关法(MMR)计算查询
文本和搜索 文档之间的相似度, 并对文档进行排序, 提高词的连贯性和多样性, c ‑TF‑IDF是
一种基于类的TF ‑IDF方法, 其中c是已识别的聚类, c ‑TF‑IDF计算得分的公 式为式(9), 其中
tfx表示词x在簇c中出现的频率, fx是词x在所有簇 中出现的频率, A表示每个簇的平均词汇
个数, 最大边际相关法计算公式为式(10), 其中Q指查询文本, C指搜索 文档集合, R为一个已
经求得的以相关度为基础的初始集合, di在集合C中, dj在集合R中, argmax表示搜索返回的K
个句子的索引,
5.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 步
骤4运用基于T F‑IDF的k‑means算法算法处理弹幕文本, 模 型采用相对于中心点的距离作为
指标, 通过不断地迭代将数据分为输入K个 类,
步骤4‑1: 使用TF ‑IDF权重的哈希向量化表示, 向量化将文本文档集合转换为数字集合
特征向量, 文档由单词出现来描述, 同时完全忽略文档中单词的相对位置信息, T F‑IDF认为权 利 要 求 书 2/4 页
3
CN 115470344 A
3
专利 一种基于文本聚类的视频弹幕与评论主题融合的方法
安全报告 >
其他 >
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:45上传分享