专利 基于通用框架的多任务联邦学习场景识别方法及相关组件

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210619797.8 (22)申请日 2022.06.02 (65)同一申请的已公布的文献号申请公布号 CN 114694015 A (43)申请公布日 2022.07.01 (73)专利权人深圳市万物云科技有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人常可欣　袁戟　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师谭穗平 (51)Int.Cl. G06V 20/00(2022.01) G06V 20/40(2022.01)G06V 10/764(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 21/60(2013.01) G06F 21/62(2013.01) (56)对比文件 CN 113435608 A,2021.09.24 CN 101315 663 A,2008.12.03 审查员董雪 (54)发明名称基于通用框架的多任务联邦学习场景识别方法及相关组件 (57)摘要本发明公开了基于通用框架的多任务联邦学习场景识别方法及相关组件。该方法包括获取每一场景中的数据集，其中数据集为图像数据集或视频数据集；从云端获取当前全局模型参数至每一场景边端，并使用每一场景的数据集进行本地训练，得到对应每一场景的本地模型；将每一场景的本地模型的参数进行同态加密，并上传至云端；对每一场景的本地模型的参数进行解密并输出各场景分类结果，根据当前训练的所述本地模型更新全局模型。本发明利用联邦学习算法保护不同场景下的数据隐私，无需对不同训练任务的训练数据集进行参数调整，可直接基于通用框架对图像和/或视频识别进行协同训练，有效减少了算法平台整体训练成本，可应对多元化的服务场景。权利要求书3页说明书6页附图4页 CN 114694015 B 2022.08.30 CN 114694015 B 1.一种基于通用框架的多任务联邦学习场景识别方法，其特征在于，包括：获取每一场景中的数据集，其中数据集为图像数据集和/或视频数据集；从云端获取当前全局模型参数至每一场景边端，并使用每一场景的数据集进行本地训练，得到对应每一场景的本地模型；将每一场景的本地模型的参数进行同态加密，并上传至云端；对每一场景的本地模型的参数进行解密并输出各场景分类结果；根据当前训练的所述本地模型更新全局模型；其中，所述从云端获取当前全局模型参数至每一场景边端，并使用每一场景的数据集进行本地训练，得到对应每一场景的本地模型，包括：对所述图像数据集进行分块并得到图像块，和/或对所述视频数据集进行分段并得到视频段；对所述图像块和/或视频段进行标注处理，包括按公式对每一所述图像块和/或按公式对每一所述视频段进行序列位置信息编号，并插入对应的分类号，其中XN表示图像块或视频段， IMG表示图像识别模型， VID表示视频识别模型， Zcls表示所述图像块或视频段的序列位置信息， E表示数据输入后的嵌入算子， P表示插入所述图像块或视频段的分类信息；将标注处理后的所述图像块和/或视频段输入通用模型，利用当前全局模型参数，通过交替的方式进行图像识别任务和/或视频识别任务的协同训练，并输出对应每一场景的本地模型。 2.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法，其特征在于，所述对所述图像数据集进行分块并得到图像块，包括：根据公式，将 H×W×C 格式的图片进行分块，并展平成序列，其中N表示数量， H ×W表示图像数据集中的原图像像素，表示原图像分块后的一个图像块的像素， C表示图像的通道数量。 3.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法，其特征在于，所述对所述视频数据集进行分段并得到视频段，包括：根据公式，将格式的视频进行分段，并展平成序列，其中F表示视频数据集的视频帧数， f表示原视频分段后的一个视频段的视频帧数，表示原视频抽帧后的每帧图像的像素，表示每帧图像分块后的一个图像块的像素， N表示数量， C表示图像的通道数量。 4.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法，其特征在于，所述将标注处理后的所述图像块和/或视频段输入通用模型，利用当前全局模型参数，通过交替的方式进行图像识别任务和/或视频识别任务的协同训练，并输出对应每一场景的本地模型，包括：按如下公式进行模型训练：权　利　要　求　书 1/3 页 2 CN 114694015 B 2；；其中， Zl‑1表示上一轮训练结果， Zl表示Zl‑1经过通用模型内L个交互层后的输出结果，表示上一轮训练结果Zl‑1经过交互层中MSA多头自注意力机制后的训练结果， l表示交互层数，， MSA表示多头自注意力机制， MLP表示多层感知器模块， LN表示线性输出；经过个交互层后，按如下公式输出每一场景的本地模型：；其中，表示模型模态包括图像和视频，表示通用模型的不同模态经L个交互层后的图像块或视频段的序列位置信息。 5.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法，其特征在于，所述根据当前训练的所述本地模型更新全局模型，包括：按如下公式更新全局模型：；其中，表示第s+1轮的全局模型，表示第s+1轮的本地模型， nc表示本轮训练中本地模型的数据量，表示参与本轮训练的所有本地模型的总数据量，表示第s轮训练参与更新的用户集合， c表示参与当前更新的其中一个用户，每轮模型更新c会遍历整个集合。 6.一种基于通用框架的多任务联邦学习场景识别装置，其特征在于，包括：数据获取单元，用于获取每一场景中的数据集，其中数据集为图像数据集或视频数据集；训练单元，用于从云端获取当前全局模型参数至每一场景边端，并使用每一场景的数据集进行本地训练，得到对应每一场景的本地模型；加密单元，用于将每一场景的本地模型的参数进行同态加密，并上传至云端；分类单元，用于对每一场景的本地模型的参数进行解密并输出各场景分类结果；更新单元，用于根据当前训练的所述本地模型更新全局模型；其中，所述训练单元包括：对所述图像数据集进行分块并得到图像块，和/或对所述视频数据集进行分段并得到视频段；对所述图像块和/或视频段进行标注处理，包括按公式对每一所述图像块和/或按公式对每一所述视频段进行序列位置信息编号，并插入对权　利　要　求　书 2/3 页 3 CN 114694015 B 3

专利 基于通用框架的多任务联邦学习场景识别方法及相关组件

专利基于通用框架的多任务联邦学习场景识别方法及相关组件