专利一种基于联邦学习的字幕生成方法、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211192216.3 (22)申请日 2022.09.28 (71)申请人季华实验室地址 528200 广东省佛山市南海区桂城街道环岛南路28号 (72)发明人李祯其　胡尧　温志庆　 (74)专利代理机构佛山市海融科创知识产权代理事务所(普通合伙) 44377 专利代理师夏雪梅 (51)Int.Cl. H04L 9/40(2022.01) H04N 21/462(2011.01) H04N 21/488(2011.01) G06N 20/00(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于联邦学习的字幕生成方法、电子设备及存储介质 (57)摘要本申请涉及字幕生成技术领域，具体提供了一种基于联邦学习的字幕生成方法、电子设备及存储介质，方法包括以下步骤：构建多任务模型，多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；基于本地数据对多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据由不同多任务模型上传的参数集合构建全局模型；从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型；利用优化后的多任务模型生成字幕；该方法能够有效地提高本地数据的私密性。权利要求书2页说明书10页附图1页 CN 115277264 A 2022.11.01 CN 115277264 A 1.一种基于联邦学习的字幕生成方法，用于生成字幕，其特征在于，所述基于联邦学习的字幕生成方法包括：构建训练多任务模型，所述多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；基于本地数据对所述多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使所述服务器基于联邦学习根据由不同多任务模型多个轮次上传的参数集合构建全局模型；从服务器中获取所述全局模型，并利用所述全局模型优化多轮次训练后的多任务模型；利用优化后的多任务模型生成字幕。 2.根据权利要求1所述的基于联邦学习的字幕生成方法，其特征在于，所述利用所述全局模型优化多轮次训练后的多任务模型的步骤包括：基于本地数据获取所述全局模型的全局特征；根据所述全局特征和所述多任务模型的本地特征建立自适应迁移策略；根据所述自适应迁移策略获取不同任务的全局特征和不同任务的本地特征之间的特征迁移损失；根据所述多任务模型的多任务目标函数和所述特征迁移损失建立总体任务目标函数；更新所述总体任务目标函数以优化多轮次训练后的多任务模型。 3.根据权利要求2所述的基于联邦学习的字幕生成方法，其特征在于，所述自适应迁移策略包括外迁移函数和内迁移函数，所述外迁移函数用于将所述全局特征向所述本地特征迁移，所述内迁移函数用于将所述全局特征对应的维度向所述本地特征对应的维度迁移。 4.根据权利要求3所述的基于联邦学习的字幕生成方法，其特征在于，所述外迁移函数、所述内迁移函数和所述自适应迁移策略的构建过程包括步骤：基于元神经网络参数设定外迁移权重和内迁移权重；根据所述外迁移权重、所述全局特征和所述多任务模型的本地特征构建外迁移函数；根据所述内迁移权重、所述全局特征和所述本地特征构建内迁移函数；根据所述外迁移函数和所述内迁移函数建立所述自适应迁移策略。 5.根据权利要求2所述的基于联邦学习的字幕生成方法，其特征在于，所述更新所述总体任务目标函数的步骤包括：基于反向传播算法更新所述总体任务目标函数的参数集合以最小化所述总体任务目标函数的总体任务损失。 6.根据权利要求4所述的基于联邦学习的字幕生成方法，其特征在于，所述更新所述总体任务目标函数的步骤包括：固定所述元神经网络参数，基于反向传播算法更新所述自适应迁移策略的参数集合以最小化特征迁移损失；基于反向传播算法更新所述多任务目标函数的参数集合以最小化所述总体任务目标函数的总体任务损失。 7.根据权利要求1所述的基于联邦学习的字幕生成方法，其特征在于，所述本地数据包括中文音频数据、英文音频数据、与所述中文音频数据对应的中英文字幕数据和与所述英权　利　要　求　书 1/2 页 2 CN 115277264 A 2文音频数据对应的中英文字幕数据，所述多任务模型用于根据输入音频数据生成中文字幕和/或英文字幕。 8.根据权利要求7所述的基于联邦学习的字幕生成方法，其特征在于，所述中文音频数据和所述英文音频数据均为包括音频信息和唇动信息的视频信息。 9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求 1‑8任一项所述方法中的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1 ‑8任一项所述方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115277264 A 3

专利 一种基于联邦学习的字幕生成方法、电子设备及存储介质

专利一种基于联邦学习的字幕生成方法、电子设备及存储介质