全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211051820.4 (22)申请日 2022.08.31 (71)申请人 中电信数智科技有限公司 地址 100036 北京市海淀区复兴 路33号13 层东塔13层13 08室 (72)发明人 张磊  (74)专利代理 机构 北京知汇林知识产权代理事 务所(普通 合伙) 11794 专利代理师 杨华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/151(2020.01) G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种媒体数据处理方法、 系统、 计算机设备 及存储介质 (57)摘要 本申请涉及一种媒体数据处理方法、 系统、 计算机设备和存储介质, 包括以下步骤: 获取媒 体数据文本, 按照预定规则将所述媒体数据文本 转 换 为 多 个 等 长 数 字 序 列数 据集 ; 基 于 transformer模块、 CNN模 块及LSTM模块建立混合 神经网络, 所述tran sformer模 块包括ENCODER和 DECODER, 所述CNN模块包含5层或8层卷积层, 卷 积层之间为平均池化层; 将所述等长数字序列数 据集按照8:2的比例划分为正、 负数据集, 使用所 述正、 负数据集训练所述混合神经网络。 本发明 中通过对媒体数据文本进行预处理, 能够提升文 本的特征度, 通过混合神经网络能够提升数据的 特征层次, 获得准确的分类结果。 权利要求书2页 说明书10页 附图3页 CN 115422356 A 2022.12.02 CN 115422356 A 1.一种媒体数据处 理方法, 其特 征在于, 包括以下步骤: 获取媒体数据文本, 按照预定规则将所述媒体数据文本转换为多个等长数字序列 数据 集; 基于trans former模块、 CNN模块及 LSTM模块建立混合神经网络, 所述trans former模块 包括ENCODER和DE CODER, 所述CN N模块包含5层或8层卷积层, 卷积层之间为平均池化层; 将所述等长数字序列数据集按照8:2的比例划分为正、 负数据集, 使用所述正、 负数据 集训练所述混合神经网络 。 2.根据权利要求1所述的一种媒体数据处理方法, 其特征在于: 所述预定规则包括, 若 所述媒体数据文本为非英文 文本, 则翻译为英文 文本。 3.根据权利要求2所述的一种媒体数据处理方法, 其特征在于: 所述预定规则包括: 将 英文字母转换为数字 。 4.根据权利要求2或3所述的一种媒体数据处理方法, 其特征在于: 所述预定规则包括 将字符转换为数字, 其中字符包括无 形字符和有形字符。 5.根据权利要求1所述的一种媒体数据处理方法, 其特征在于: 所述CNN模块包括: 第1 层CNN, Max_len参数配置值为20, hidden_dim隐藏层配置为45, kernel_size参数为3, bias 参数为True, 第1层神经网络采用平均池化的操作, CNN完成第1层卷积后, 准确进入第2层卷 积之前, 需要对数据进行平均池化操作, 然后进入第2层CN N; 第2层CNN, Max_len参数配置值为45, hidden_dim隐藏层配置为75, kernel_size参数为 3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_mode 参数为False,count_include_pad参数为True, 第2层神经网络采用平均池化的操作, 输入 第3层CNN; 第3层CNN, Max_len参数配置值为75, hidden_dim隐藏层配置为105, kernel_size参数 为3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_ mode参数为False,count_include_pad参数为True, 第3层神经网络采用平均池化的操作, 然后输入第4层CN N; 第4层CNN, Max_len参数配置值为105, hidden_dim隐藏层配置为135, kernel_size参数 为3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_ mode参数为False,count_include_pad参数为True, 第4层神经网络采用平均池化的操作, 输入第5层CN N; 第5层CNN, Max_len参数配置值为135, hidden_dim隐藏层配置为165, kernel_size参数 为3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_ mode参数为False,count_i nclude_pad参数为True。 6.根据权利要求1所述的一种媒体数据处理方法, 其特征在于: 所述transformer模块 的具有用于对所述 等长数字序列数据集进行滑窗处 理的Self  attention模块。 7.根据权利要求1 ‑6之一所述的媒体数据处理方法, 其特征在于, 所述预定规则包括随 机约束机制, 所述随机约束机制用于在媒体数据文本中使用特殊数字替换 特殊字符。 8.一种媒体数据处 理系统, 其特 征在于, 包括: 数据预处理模块, 用于获取媒体数据文本, 按照预定规则将所述媒体数据文本转换为 多个等长数字序列数据集;权 利 要 求 书 1/2 页 2 CN 115422356 A 2建模模块, 用于基于transformer模块、 CNN模块及LSTM模块建立混合神经网络, 所述 transformer模块包括ENCODER和DECODER, 所述CNN模块包含5层或8层卷积层, 卷积层之间 为平均池化层; 模型训练模块, 用于将所述等长数字序列数据集按照8:2的比例划分为正、 负数据集, 使用所述 正、 负数据集训练所述混合神经网络 。 9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器, 所述处理器用于运行程 序, 其中, 所述 程序运行时执 行权利要求1 ‑7中任意一项所述的媒体数据处 理方法。 10.一种非易失性存储介质, 该非易失性存储介质存储有计算机程序, 其特征在于, 所 述计算机程序被处理器执行时实现如上述权利要求1 ‑7任一项所述的媒体数据处理方法的 步骤。权 利 要 求 书 2/2 页 3 CN 115422356 A 3

.PDF文档 专利 一种媒体数据处理方法、系统、计算机设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种媒体数据处理方法、系统、计算机设备及存储介质 第 1 页 专利 一种媒体数据处理方法、系统、计算机设备及存储介质 第 2 页 专利 一种媒体数据处理方法、系统、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。