(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210619797.8
(22)申请日 2022.06.02
(65)同一申请的已公布的文献号
申请公布号 CN 114694015 A
(43)申请公布日 2022.07.01
(73)专利权人 深圳市万物云科技有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 常可欣 袁戟
(74)专利代理 机构 深圳市精英专利事务所
44242
专利代理师 谭穗平
(51)Int.Cl.
G06V 20/00(2022.01)
G06V 20/40(2022.01)G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06F 21/60(2013.01)
G06F 21/62(2013.01)
(56)对比文件
CN 113435608 A,2021.09.24
CN 101315 663 A,2008.12.03
审查员 董雪
(54)发明名称
基于通用 框架的多任务联邦学习场景识别
方法及相关组件
(57)摘要
本发明公开了基于通用框架的多任务联邦
学习场景识别方法及相关组件。 该方法包括获取
每一场景中的数据集, 其中数据集为图像数据集
或视频数据集; 从云端获取当前全局模型参数至
每一场景边端, 并使用每一场景的数据集进行本
地训练, 得到对应每一场景的本地模型; 将每一
场景的本地模 型的参数进行同态加密, 并上传至
云端; 对每一场景的本地模型的参数进行解密并
输出各场景分类结果, 根据当前训练的所述本地
模型更新全局模 型。 本发明利用联邦学习算法保
护不同场景下的数据隐私, 无需对不同训练任务
的训练数据集进行参数调整, 可直接基于通用框
架对图像和/或视频识别进行协 同训练, 有效减
少了算法平台整体训练成本, 可应对多元化的服
务场景。
权利要求书3页 说明书6页 附图4页
CN 114694015 B
2022.08.30
CN 114694015 B
1.一种基于通用框架的多任务联邦学习场景识别方法, 其特 征在于, 包括:
获取每一场景中的数据集, 其中数据集 为图像数据集和/或视频 数据集;
从云端获取当前全局模型参数至每一场景边端, 并使用每一场景的数据集进行本地训
练, 得到对应 每一场景的本地模型;
将每一场景的本地模型的参数进行同态加密, 并上传至云端;
对每一场景的本地模型的参数进行解密并输出 各场景分类结果;
根据当前训练的所述本地模型 更新全局模型;
其中, 所述从云端获取当前全局模型参数至每一场景边端, 并使用每一场景的数据集
进行本地训练, 得到对应 每一场景的本地模型, 包括:
对所述图像数据集进行分块并得到 图像块, 和/或对所述视频数据集进行分段并得到
视频段;
对所述图像块和/或视频段进行标注处理, 包括按公式
对每一所述图像块和/或按公式
对每一所述视频段进行
序列位置信息编号, 并插入对应的分类号, 其中XN表示图像块或视频段, IMG表示图像识别
模型, VID表示视频识别模型, Zcls表示所述图像块或视频段的序列位置信息, E表示数据输
入后的嵌入算子, P表示插 入所述图像块或视频 段的分类信息;
将标注处理后的所述图像块和/或视频段输入通用模型, 利用当前全局模型参数, 通过
交替的方式进行图像识别任务和/或视频识别任务的协同训练, 并输出对应每一场景 的本
地模型。
2.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于,
所述对所述图像数据集进行分块并得到图像块, 包括:
根 据 公 式
, 将 H×W×C 格 式 的 图 片 进 行 分 块 , 并 展 平 成 序 列
, 其中N表示数量, H ×W表示图像数据集中的原图像像素,
表示
原图像分块后的一个图像块的像素, C表示图像的通道数量。
3.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于,
所述对所述视频 数据集进行分段并得到 视频段, 包括:
根据公式
, 将
格式的视频进行分段, 并展平成序列
, 其中F表示视频数据集的视频帧数, f表示原视频分段后的一个
视频段的视频帧数,
表示原视频抽帧后的每帧图像的像素,
表示每帧图
像分块后的一个图像块的像素, N表示数量, C表示图像的通道数量。
4.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于,
所述将标注处理后的所述图像块和/或视频段输入通用模型, 利用当前全局模型参数, 通过
交替的方式进行图像识别任务和/或视频识别任务的协同训练, 并输出对应每一场景 的本
地模型, 包括:
按如下公式进行模型训练:权 利 要 求 书 1/3 页
2
CN 114694015 B
2;
;
其中, Zl‑1表示上一轮训练结果, Zl表示Zl‑1经过通用模型内L个交互层后的输出结果,
表示上一轮训练结果Zl‑1经过交互层中MSA多头自注意力机制后的训练结果, l表示交互
层数,
, MSA表示多头自注意力机制, MLP表示多层感知器模块, LN表示线性
输出;
经过
个交互层后, 按如下公式输出每一场景的本地模型:
;
其中,
表示模型模态包括图像和视频,
表示通用模型的不同
模态经L个交 互层后的图像块或视频 段的序列位置信息 。
5.根据权利要求1所述的基于通用框架的多任务联邦学习场景识别方法, 其特征在于,
所述根据当前训练的所述本地模型 更新全局模型, 包括:
按如下公式更新全局模型:
;
其中,
表示第s+1轮的全局模型,
表示第s+1轮的本地模型, nc表示本轮训练
中本地模型的数据量,
表示参与本轮训练的所有本地模型的总数据量,
表示第s轮
训练参与更新的用户集合, c表示参与当前更新的其中一个用户, 每轮模型更新c会遍历整
个
集合。
6.一种基于通用框架的多任务联邦学习场景识别装置, 其特 征在于, 包括:
数据获取单元, 用于获取每一场景中的数据集, 其中数据集为图像数据集或视频数据
集;
训练单元, 用于从云端获取当前全局模型参数至每一场景边端, 并使用每一场景的数
据集进行本地训练, 得到对应 每一场景的本地模型;
加密单元, 用于将每一场景的本地模型的参数进行同态加密, 并上传至云端;
分类单元, 用于对每一场景的本地模型的参数进行解密并输出 各场景分类结果;
更新单元, 用于根据当前训练的所述本地模型 更新全局模型;
其中, 所述训练单 元包括:
对所述图像数据集进行分块并得到 图像块, 和/或对所述视频数据集进行分段并得到
视频段;
对所述图像块和/或视频 段进行标注处理, 包括按公式
对每一所述图像块和/或按公式
对每一所述视频段进行序列位置信息编号, 并插入对权 利 要 求 书 2/3 页
3
CN 114694015 B
3
专利 基于通用框架的多任务联邦学习场景识别方法及相关组件
安全报告 >
其他 >
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:51上传分享