(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210619797.8 (22)申请日 2022.06.02 (65)同一申请的已公布的文献号 申请公布号 CN 114694015 A (43)申请公布日 2022.07.01 (73)专利权人 深圳市万物云科技有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 常可欣 袁戟  (74)专利代理 机构 深圳市精英专利事务所 44242 专利代理师 谭穗平 (51)Int.Cl. G06V 20/00(2022.01) G06V 20/40(2022.01)G06V 10/764(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 21/60(2013.01) G06F 21/62(2013.01) (56)对比文件 CN 113435608 A,2021.09.24 CN 101315 663 A,2008.12.03 审查员 董雪 (54)发明名称 基于通用 框架的多任务联邦学习场景识别 方法及相关组件 (57)摘要 本发明公开了基于通用框架的多任务联邦 学习场景识别方法及相关组件。 该方法包括获取 每一场景中的数据集, 其中数据集为图像数据集 或视频数据集; 从云端获取当前全局模型参数至 每一场景边端, 并使用每一场景的数据集进行本 地训练, 得到对应每一场景的本地模型; 将每一 场景的本地模 型的参数进行同态加密, 并上传至 云端; 对每一场景的本地模型的参数进行解密并 输出各场景分类结果, 根据当前训练的所述本地 模型更新全局模 型。 本发明利用联邦学习算法保 护不同场景下的数据隐私, 无需对不同训练任务 的训练数据集进行参数调整, 可直接基于通用框 架对图像和/或视频识别进行协 同训练, 有效减 少了算法平台整体训练成本, 可应对多元化的服 务场景。 权利要求书3页 说明书6页 附图4页 CN 114694015 B 2022.08.30 CN 114694015 B 1.一种基于通用框架的多任务联邦学习场景识别方法, 其特 征在于, 包括: 获取每一场景中的数据集, 其中数据集 为图像数据集和/或视频 数据集; 从云端获取当前全局模型参数至每一场景边端, 并使用每一场景的数据集进行本地训 练, 得到对应 每一场景的本地模型; 将每一场景的本地模型的参数进行同态加密, 并上传至云端; 对每一场景的本地模型的参数进行解密并输出 各场景分类结果; 根据当前训练的所述本地模型 更新全局模型; 其中, 所述从云端获取当前全局模型参数至每一场景边端, 并使用每一场景的数据集 进行本地训练, 得到对应 每一场景的本地模型, 包括: 对所述图像数据集进行分块并得到 图像块, 和/或对所述视频数据集进行分段并得到 视频段; 对所述图像块和/或视频段进行标注处理, 包括按公式 对每一所述图像块和/或按公式 对每一所述视频段进行 序列位置信息编号, 并插入对应的分类号, 其中XN表示图像块或视频段, IMG表示图像识别 模型, VID表示视频识别模型, Zcls表示所述图像块或视频段的序列位置信息, E表示数据输 入后的嵌入算子, P表示插 入所述图像块或视频 段的分类信息; 将标注处理后的所述图像块和/或视频段输入通用模型, 利用当前全局模型参数, 通过 交替的方式进行图像识别任务和/或视频识别任务的协同训练, 并输出对应每一场景 的本 地模型。 2.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于, 所述对所述图像数据集进行分块并得到图像块, 包括: 根 据 公 式 , 将 H×W×C 格 式 的 图 片 进 行 分 块 , 并 展 平 成 序 列 , 其中N表示数量, H ×W表示图像数据集中的原图像像素, 表示 原图像分块后的一个图像块的像素, C表示图像的通道数量。 3.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于, 所述对所述视频 数据集进行分段并得到 视频段, 包括: 根据公式 , 将 格式的视频进行分段, 并展平成序列 , 其中F表示视频数据集的视频帧数, f表示原视频分段后的一个 视频段的视频帧数, 表示原视频抽帧后的每帧图像的像素, 表示每帧图 像分块后的一个图像块的像素, N表示数量, C表示图像的通道数量。 4.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于, 所述将标注处理后的所述图像块和/或视频段输入通用模型, 利用当前全局模型参数, 通过 交替的方式进行图像识别任务和/或视频识别任务的协同训练, 并输出对应每一场景 的本 地模型, 包括: 按如下公式进行模型训练:权 利 要 求 书 1/3 页 2 CN 114694015 B 2; ; 其中, Zl‑1表示上一轮训练结果, Zl表示Zl‑1经过通用模型内L个交互层后的输出结果, 表示上一轮训练结果Zl‑1经过交互层中MSA多头自注意力机制后的训练结果, l表示交互 层数, , MSA表示多头自注意力机制, MLP表示多层感知器模块, LN表示线性 输出; 经过 个交互层后, 按如下公式输出每一场景的本地模型: ; 其中, 表示模型模态包括图像和视频, 表示通用模型的不同 模态经L个交 互层后的图像块或视频 段的序列位置信息 。 5.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于, 所述根据当前训练的所述本地模型 更新全局模型, 包括: 按如下公式更新全局模型: ; 其中, 表示第s+1轮的全局模型, 表示第s+1轮的本地模型, nc表示本轮训练 中本地模型的数据量, 表示参与本轮训练的所有本地模型的总数据量, 表示第s轮 训练参与更新的用户集合, c表示参与当前更新的其中一个用户, 每轮模型更新c会遍历整 个 集合。 6.一种基于通用框架的多任务联邦学习场景识别装置, 其特 征在于, 包括: 数据获取单元, 用于获取每一场景中的数据集, 其中数据集为图像数据集或视频数据 集; 训练单元, 用于从云端获取当前全局模型参数至每一场景边端, 并使用每一场景的数 据集进行本地训练, 得到对应 每一场景的本地模型; 加密单元, 用于将每一场景的本地模型的参数进行同态加密, 并上传至云端; 分类单元, 用于对每一场景的本地模型的参数进行解密并输出 各场景分类结果; 更新单元, 用于根据当前训练的所述本地模型 更新全局模型; 其中, 所述训练单 元包括: 对所述图像数据集进行分块并得到 图像块, 和/或对所述视频数据集进行分段并得到 视频段; 对所述图像块和/或视频 段进行标注处理, 包括按公式 对每一所述图像块和/或按公式 对每一所述视频段进行序列位置信息编号, 并插入对权 利 要 求 书 2/3 页 3 CN 114694015 B 3

.PDF文档 专利 基于通用框架的多任务联邦学习场景识别方法及相关组件

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于通用框架的多任务联邦学习场景识别方法及相关组件 第 1 页 专利 基于通用框架的多任务联邦学习场景识别方法及相关组件 第 2 页 专利 基于通用框架的多任务联邦学习场景识别方法及相关组件 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-07 20:38:51上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。