专利 视频中的场景聚类方法、装置及相关设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111649894.3 (22)申请日 2021.12.3 0 (71)申请人北京爱奇艺科技有限公司地址 100080 北京市海淀区海淀北一街2号 11层1101 (72)发明人毕泊　 (74)专利代理机构北京银龙知识产权代理有限公司 11243 代理人黄灿 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/762(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称视频中的场景聚类方法、装置及相关设备 (57)摘要本发明实施例提供一种视频中的场景聚类方法，包括：获取视频中的多帧图像；对多帧图像进行分类识别，获取多帧图像中的景点图像；对景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；对标记后的景点图像进行特征提取，获得景点聚类特征数据集；基于景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。本发明实施例通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。权利要求书2页说明书12页附图3页 CN 114299435 A 2022.04.08 CN 114299435 A 1.一种视频中的场景聚类方法，其特征在于，包括：获取视频中的多帧图像；对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像；对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集；基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。 2.根据权利要求1中所述的方法，其特征在于，所述对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像包括：对所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获取所述多帧图像中的景点图像。 3.根据权利要求2中所述的方法，其特征在于，所述对所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获取所述多帧图像中的景点图像之前还包括：获取创建的分类模型；通过预设的训练样本对所述分类模型进行训练，所述训练样本包括第一景点样本图像和第一非景点样本图像；将训练好的分类模型确定为所述第一深度学习模型。 4.根据权利要求1中所述的方法，其特征在于，所述对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集包括：将所述标记后的景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集。 5.根据权利要求4中所述的方法，其特征在于，所述将所述标记后的景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集之前还包括：获取创建的特征提取模型；通过样本图像对所述特征提取模型进行训练，所述样本图像基于第二景点样本图像进行图像增广后生成；将训练好的特征提取模型确定为所述第二深度学习模型。 6.根据权利要求5 中所述的方法，其特征在于，所述通过样本图像对所述特征提取模型进行训练，所述样本图像基于所述第二景点样本图像进行图像处理后生成包括：将样本图像输入到所述特征提取模型中提取样本特征；基于所述样本特征生成场景分类特征库；根据所述场景分类特征库与分类函数对所述特征提取模型进行训练获取残差网络参数，所述分类函数基于所述地标特征库生成；基于所述残差网络对所述特征提取模型进行更新。 7.根据权利要求1至6中任一项中所述的方法，其特征在于，所述基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果包括：基于所述景点聚类特征数据集获取多个场景分类聚类簇，所述场景分类聚类簇与所述场景分类标签相匹配；对所述多个场景分类聚类簇中任意两个场景分类聚类簇进行相关性计算，获取相关性数值，其中，所述任意两个场景分类聚类簇具有相同场景分类标签；权　利　要　求　书 1/2 页 2 CN 114299435 A 2若所述相关性数值小于或等于预设阈值，则将所述两个场景分类聚类簇合并为新的场景分类聚类簇，所述新的场景分类聚类簇包括至少两个所述场景分类标签；重复所述任意两个场景分类聚类簇进行相关性计算，直到所述任意两个场景分类聚类簇的相关性数值均大于所述预设阈值，获得各场景分类标签对应的聚类结果。 8.一种视频中的场景聚类装置，其特征在于，包括：获取模块，用于获取视频中的多帧图像；识别模块，用于对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像；分类模块，用于对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；提取模块，用于对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集；分析模块，用于基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。 9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求 1至7中任一项所述的视频中的场景聚类方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的视频中的场景聚类方法的步骤。权　利　要　求　书 2/2 页 3 CN 114299435 A 3

专利 视频中的场景聚类方法、装置及相关设备

专利视频中的场景聚类方法、装置及相关设备