(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211051820.4
(22)申请日 2022.08.31
(71)申请人 中电信数智科技有限公司
地址 100036 北京市海淀区复兴 路33号13
层东塔13层13 08室
(72)发明人 张磊
(74)专利代理 机构 北京知汇林知识产权代理事
务所(普通 合伙) 11794
专利代理师 杨华
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/151(2020.01)
G06F 40/58(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种媒体数据处理方法、 系统、 计算机设备
及存储介质
(57)摘要
本申请涉及一种媒体数据处理方法、 系统、
计算机设备和存储介质, 包括以下步骤: 获取媒
体数据文本, 按照预定规则将所述媒体数据文本
转 换 为 多 个 等 长 数 字 序 列数 据集 ; 基 于
transformer模块、 CNN模 块及LSTM模块建立混合
神经网络, 所述tran sformer模 块包括ENCODER和
DECODER, 所述CNN模块包含5层或8层卷积层, 卷
积层之间为平均池化层; 将所述等长数字序列数
据集按照8:2的比例划分为正、 负数据集, 使用所
述正、 负数据集训练所述混合神经网络。 本发明
中通过对媒体数据文本进行预处理, 能够提升文
本的特征度, 通过混合神经网络能够提升数据的
特征层次, 获得准确的分类结果。
权利要求书2页 说明书10页 附图3页
CN 115422356 A
2022.12.02
CN 115422356 A
1.一种媒体数据处 理方法, 其特 征在于, 包括以下步骤:
获取媒体数据文本, 按照预定规则将所述媒体数据文本转换为多个等长数字序列 数据
集;
基于trans former模块、 CNN模块及 LSTM模块建立混合神经网络, 所述trans former模块
包括ENCODER和DE CODER, 所述CN N模块包含5层或8层卷积层, 卷积层之间为平均池化层;
将所述等长数字序列数据集按照8:2的比例划分为正、 负数据集, 使用所述正、 负数据
集训练所述混合神经网络 。
2.根据权利要求1所述的一种媒体数据处理方法, 其特征在于: 所述预定规则包括, 若
所述媒体数据文本为非英文 文本, 则翻译为英文 文本。
3.根据权利要求2所述的一种媒体数据处理方法, 其特征在于: 所述预定规则包括: 将
英文字母转换为数字 。
4.根据权利要求2或3所述的一种媒体数据处理方法, 其特征在于: 所述预定规则包括
将字符转换为数字, 其中字符包括无 形字符和有形字符。
5.根据权利要求1所述的一种媒体数据处理方法, 其特征在于: 所述CNN模块包括: 第1
层CNN, Max_len参数配置值为20, hidden_dim隐藏层配置为45, kernel_size参数为3, bias
参数为True, 第1层神经网络采用平均池化的操作, CNN完成第1层卷积后, 准确进入第2层卷
积之前, 需要对数据进行平均池化操作, 然后进入第2层CN N;
第2层CNN, Max_len参数配置值为45, hidden_dim隐藏层配置为75, kernel_size参数为
3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_mode
参数为False,count_include_pad参数为True, 第2层神经网络采用平均池化的操作, 输入
第3层CNN;
第3层CNN, Max_len参数配置值为75, hidden_dim隐藏层配置为105, kernel_size参数
为3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_
mode参数为False,count_include_pad参数为True, 第3层神经网络采用平均池化的操作,
然后输入第4层CN N;
第4层CNN, Max_len参数配置值为105, hidden_dim隐藏层配置为135, kernel_size参数
为3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_
mode参数为False,count_include_pad参数为True, 第4层神经网络采用平均池化的操作,
输入第5层CN N;
第5层CNN, Max_len参数配置值为135, hidden_dim隐藏层配置为165, kernel_size参数
为3, bias参数为True; 平均池化配置为参数stride参数为None,padding参数为0,ceil_
mode参数为False,count_i nclude_pad参数为True。
6.根据权利要求1所述的一种媒体数据处理方法, 其特征在于: 所述transformer模块
的具有用于对所述 等长数字序列数据集进行滑窗处 理的Self attention模块。
7.根据权利要求1 ‑6之一所述的媒体数据处理方法, 其特征在于, 所述预定规则包括随
机约束机制, 所述随机约束机制用于在媒体数据文本中使用特殊数字替换 特殊字符。
8.一种媒体数据处 理系统, 其特 征在于, 包括:
数据预处理模块, 用于获取媒体数据文本, 按照预定规则将所述媒体数据文本转换为
多个等长数字序列数据集;权 利 要 求 书 1/2 页
2
CN 115422356 A
2建模模块, 用于基于transformer模块、 CNN模块及LSTM模块建立混合神经网络, 所述
transformer模块包括ENCODER和DECODER, 所述CNN模块包含5层或8层卷积层, 卷积层之间
为平均池化层;
模型训练模块, 用于将所述等长数字序列数据集按照8:2的比例划分为正、 负数据集,
使用所述 正、 负数据集训练所述混合神经网络 。
9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器, 所述处理器用于运行程
序, 其中, 所述 程序运行时执 行权利要求1 ‑7中任意一项所述的媒体数据处 理方法。
10.一种非易失性存储介质, 该非易失性存储介质存储有计算机程序, 其特征在于, 所
述计算机程序被处理器执行时实现如上述权利要求1 ‑7任一项所述的媒体数据处理方法的
步骤。权 利 要 求 书 2/2 页
3
CN 115422356 A
3
专利 一种媒体数据处理方法、系统、计算机设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:46上传分享