(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211017927.7 (22)申请日 2022.08.24 (71)申请人 西南财经 大学 地址 611130 四川省成 都市温江区柳台大 道555号 (72)发明人 熊文军 陈思为  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/951(2019.01) G06F 40/242(2020.01) G06F 40/284(2020.01) (54)发明名称 一种基于文本聚类的视频弹幕与评论主题 融合的方法 (57)摘要 本发明涉及一种基于文本聚类的视频弹幕 与评论主题融合的方法, 所述方法包括以下步 骤: 步骤1: 编写pyt hon程序爬 取视频下方的评论 及弹幕的文本内容; 步骤2: 根据自定义词典及扩 展停用词对数据进行预处理; 步骤3: 运用 BERTopic模型处理评论数据得到其主题; 步骤 4: 运用基于TF ‑IDF的k‑means算法处理弹幕数据得 到其主题簇; 步骤5: 利用衡量主题之间及词与词 之间的相似度从而实现 “求同存异 ”的模型融合。 本发明考虑了视频中蕴含的两种数据内容, 并创 新性地通过衡量主题之间及词与词之间的相似 度实现多源 数据的融合, 可以更加全面地获取用 户对整个视频的关注点。 此外, 发明中两种聚类 均可训练出最佳簇数, 无需人工提前设定 。 权利要求书4页 说明书9页 附图2页 CN 115470344 A 2022.12.13 CN 115470344 A 1.一种基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于, 所述方法包括 以下步骤: 步骤1: 编写pytho n程序爬取视频 下方的评论及弹幕的文本内容; 步骤2: 根据自定义词典及扩展停用词对数据进行 预处理; 步骤3: 运用BERTopic模型处 理评论数据得到其主题; 步骤4: 运用基于TF ‑IDF的k‑means算法处 理弹幕数据得到其主题簇; 步骤5: 利用衡量主题之间及词与词之间的相似度从而实现 “求同存异 ”的模型融合; 其中步骤5具体如下: 步骤5‑1: 通过计算余弦相似度, 求得各个簇代表的词向量之间的相似度, 设置相似度 阈值, 当相似度大于等于阈值时则认 为簇之间相似, 反之则不同, 把被认为相似的簇输入到 下一步, 同时将与其 余任何簇都不同的簇存放在集 合C中; 步骤5‑2: 融合相似簇的主题词, 首先选取一对相似簇, 设置其中一个簇为基准簇, 调用 Synonyms中文近义词工具包把相似簇中各自词输入程序, 获得对应词的距离分数, 设置距 离分数阈值, 当距离 分数大于等于阈值时则认为两者为近义词, 反之则不同, 若两词被判断 为近义词则只保留基准簇中的该词, 若两词不同且不同词出现在基准词中则 保留不变, 若 两词不同且出现在比较簇中则将该词添加到基准簇中, 比较完成后 将该基准簇存放入集合 C中; 步骤5‑3: 将每一对相似簇进行步骤5 ‑2的操作; 步骤5‑4: 输出集 合C为对聚类主题进行融合的最终结果。 2.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 关 于步骤1中通过python的爬虫相关库, 实现HTTP请求操作, 得到服务器响应, 获取到网页源 代码, 分析网页结构, 分别提取视频 下方的评论及弹幕并保存。 3.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 步 骤2中预处理过程中运用正则表达式匹配文本去除特殊符号、 多余空白、 转化繁体字, 构建 自定义词典使词能更准确 地划分, 使用扩展的停用 词表去除文本中无意义或不重要的词, 根据文本的特性, 构建自定义词典, 自定义词典中的词语是根据当前流行 的网络用语及节 目、 人物名字人工添加, 停用 词是文本中经常出现的一些衔接语句的词或者对分析没有用 处的词。 4.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 步 骤3由BERTopic主题模 型处理评论文本, 算法大致包括3个阶段: 使用BERT进行文档嵌入、 文 档聚类、 创建主题 表示得到主题簇, 具体如下: 步骤3‑1: 使用BERT模型将句子转换, 从一组文档中创建文档嵌入, 模型是针对多种语 言进行的预训练, 对于创建文档或句子嵌入都 非常有用; 步骤3‑2: 由于聚类算法难以在高维空间中对数据进行聚类, 在对文档进行聚类之前, 需要降低生成的嵌入的维数, Umap算法主要包括两阶段, 第一阶段构建模糊拓扑, 运用最近 邻算法对于空间中的每个点xi的k最近邻集合有{xi1, xi2, ..., xik}, ρi代表每个点与 最近邻 集合的最小距离, σi为各点的标准差, pij代表所求概率, 根据式(1) ‑(4)得到ρi、 σi以及pij: ρi=min{d(xi, xij)|1≤j≤k, d(xi, xij)>0}    (1)权 利 要 求 书 1/4 页 2 CN 115470344 A 2pij=pi|j+pj|i‑pi|jpj|i    (4) 第二阶段是简单地优化低维表示, 使其具有尽可能接近的模糊拓扑表示, 如式(5)所 示, 通常默认的参数a≈1.93, b≈0.79, 并将式(6)的交叉熵公式作为代价 函数训练; gij=(1+a(yi‑yj)2b)‑1   (5) 步骤3‑3: 使用HDBSCAN对降维的嵌入进行聚类, 运用式(7)衡量点与点之间的距离, 运 用层次聚类的思想, 使用最小生成树构建点与点之间的层次模型, 并且为了控制生成的簇 不要过小, 限制 了最小生成树剪枝的最小子树, 其分裂度量方式是将每个点的密度度量定 义为 其中ε是该点和剩余聚类中点之间的最短距离; 簇的生成密度定义为λbirth是 这个簇生成时分裂边的导数, 最后一个簇的密度由式(8)求得, 通过HDBSCAN实现最大化簇 之间的距离及最小化簇内距离, dmreach‑k(a, b)=max{corek(a), corek(b), dis tan ve(1, b)}   (7) 步骤3‑4: 使用c‑TF‑IDF对主题进行提取和删减, 利用最大边际相关法(MMR)计算查询 文本和搜索 文档之间的相似度, 并对文档进行排序, 提高词的连贯性和多样性, c ‑TF‑IDF是 一种基于类的TF ‑IDF方法, 其中c是已识别的聚类, c ‑TF‑IDF计算得分的公 式为式(9), 其中 tfx表示词x在簇c中出现的频率, fx是词x在所有簇 中出现的频率, A表示每个簇的平均词汇 个数, 最大边际相关法计算公式为式(10), 其中Q指查询文本, C指搜索 文档集合, R为一个已 经求得的以相关度为基础的初始集合, di在集合C中, dj在集合R中, argmax表示搜索返回的K 个句子的索引, 5.如权利要求1所述基于文本聚类的视频弹幕与评论主题融合的方法, 其特征在于: 步 骤4运用基于T F‑IDF的k‑means算法算法处理弹幕文本, 模 型采用相对于中心点的距离作为 指标, 通过不断地迭代将数据分为输入K个 类, 步骤4‑1: 使用TF ‑IDF权重的哈希向量化表示, 向量化将文本文档集合转换为数字集合 特征向量, 文档由单词出现来描述, 同时完全忽略文档中单词的相对位置信息, T F‑IDF认为权 利 要 求 书 2/4 页 3 CN 115470344 A 3

.PDF文档 专利 一种基于文本聚类的视频弹幕与评论主题融合的方法

安全报告 > 其他 > 文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本聚类的视频弹幕与评论主题融合的方法 第 1 页 专利 一种基于文本聚类的视频弹幕与评论主题融合的方法 第 2 页 专利 一种基于文本聚类的视频弹幕与评论主题融合的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:38:45上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。