全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211004207.7 (22)申请日 2022.08.22 (71)申请人 杭州数智政通科技有限公司 地址 310000 浙江省杭州市余杭区五常街 道溪沁街258号浙江 (杭州) 知识产权 创新产业园3幢6 05室 (72)发明人 周祥 贺庆 尹皓  (74)专利代理 机构 杭州浙言专利代理事务所 (普通合伙) 33370 专利代理师 袁宏伦 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于大数据的文本分析方法及装置 (57)摘要 本发明公开了一种基于大数据的文本分析 方法及装置, 采集文本大数据, 并对所述文本大 数据进行部分批注, 得到目标文本; 对所述目标 文本进行数据预处理, 所述数据预处理包括数据 清理、 数据变换和数据规约, 得到模型数据; 将所 述模型数据划分为训练集、 测试集和验证集, 并 利用所述训练集构建深度信念网络模 型; 根据所 述验证集验证得到深度信念网络模 型, 用以分析 所述文本 大数据。 深度信念网络模 型学习到了数 据的内在特征, 得到了接近全局最优的初始权 重, 有效避免了网络模型因随机初始化权重参 数, 代价函数易收敛到局部最优的问题, 使得模 型无论是在分类还是回归 方面, 都表现出绝佳的 性能。 权利要求书2页 说明书7页 附图2页 CN 115470773 A 2022.12.13 CN 115470773 A 1.一种基于大 数据的文本分析 方法, 其特 征在于, 包括: 采集文本大 数据, 并对所述文本大 数据进行部分批注, 得到目标文本; 对所述目标文本进行数据预处理, 所述数据预处理包括数据清理、 数据变换和数据规 约, 得到模型 数据; 将所述模型数据划分为训练集、 测试集和验证集, 并利用所述训练集构建深度信念网 络模型; 根据所述验证集验证得到深度信念网络模型, 用以分析 所述文本大 数据。 2.根据权利要求1所述的一种基于大数据的文本分析方法, 其特征在于, 所述数据 预处 理的步骤 包括: 步骤一: 建立目标函数: 其中, ζ(x, θ )表示训练神经网络的优化目标, θ表示网络参数, x表示单个数据样本, 在N 个数据点的数据集X, {xi}N i=1中; 步骤二: 再将公式(1)通过一阶优化进行优化, 其中, 随着目标数据集B上的参数θ沿负 梯度下降тk, 其中тk表示下降梯度的步长, k 为大于1的整数, 公式表示 为: 步骤三: 去 除小批量随机梯度下降对应采样数据点带来的影响, 以达到消除随机抽样 数据带来的误差, 提高模型的精度, 更新方程 为: 3.根据权利要求1所述的一种基于大数据的文本分析方法, 其特征在于, 所述构建深度 信念网络模型的步骤, 包括: (1)从输入层开始, 每相邻的两层节点构成一个RBM; 首先用CD算法训练第一层RBM, 得 到第一层RBM的参数; 然后固定该RBM的参数, 将当前RBM的输出作为下一个RBM的输入, 继续 训练下一层RBM, 直到所有RBM训练完成, 得到所述深度信念网络的初始参数; (2)以第(1)步得到的初始参数构建一个相同结构的人工神经网络模型, 然后用带标签 的数据来反向微调整个模型, 得到所述深度信念网络模型 的最终参数, 所述带标签的数据 表示预先设定的数据, 用于在训练模型时逐层渗透以得到符合一定要求的深度信念网络模 型。 4.根据权利要求1所述的一种基于大数据的文本分析方法, 其特征在于, 所述对所述文 本大数据进行部分批注包括人工批注或使用文本关键词提取算法从所述文本大数据中提 取出关键词, 并过 滤包括停用词在内的错 误关键词。 5.一种基于大 数据的文本分析系统, 其特 征在于, 包括: 采集模块: 用于采集文本大 数据, 并对所述文本大 数据进行部分批注, 得到目标文本; 数据预处理模块: 用于对所述目标文本进行数据预处理, 所述数据预处理包括数据清 理、 数据变换和数据规约, 得到模型 数据;权 利 要 求 书 1/2 页 2 CN 115470773 A 2训练模块: 用于将所述模型数据划分为训练集、 测试集和验证集, 并利用所述训练集构 建深度信念网络模型; 分析模块: 用于根据所述验证集验证得到深度信念网络模型, 用以分析所述文本大数 据。 6.根据权利要求5所述的一种基于大数据的文本分析装置, 其特征在于, 所述数据 预处 理模块包括: 步骤一: 建立目标函数: 其中, ζ(x, θ )表示训练神经网络的优化目标, θ表示网络参数, x表示单个数据样本, 在N 个数据点的数据集X, {xi}N i=1中; 步骤二: 再将公式(1)通过一阶优化进行优化, 其中, 随着目标数据集B上的参数θ沿负 梯度下降тk, 其中тk表示下降梯度的步长, k 为大于1的整数, 公式表示 为: 步骤三: 去 除小批量随机梯度下降对应采样数据点带来的影响, 以达到消除随机抽样 数据带来的误差, 提高模型的精度, 更新方程 为: 7.根据权利要求5所述的一种基于大数据的文本分析装置, 其特征在于, 所述训练模块 包括: (1)从输入层开始, 每相邻的两层节点构成一个RBM; 首先用CD算法训练第一层RBM, 得 到第一层RBM的参数; 然后固定该RBM的参数, 将当前RBM的输出作为下一个RBM的输入, 继续 训练下一层RBM, 直到所有RBM训练完成, 得到所述深度信念网络的初始参数; (2)以第(1)步得到的初始参数构建一个相同结构的人工神经网络模型, 然后用带标签 的数据来反向微调整个模型, 得到所述深度信念网络模型 的最终参数, 所述带标签的数据 表示预先设定的数据, 用于在训练模型时逐层渗透以得到符合一定要求的深度信念网络模 型。 8.根据权利要求5所述的一种基于大数据的文本分析装置, 其特征在于, 所述采集模块 包括人工批注或使用文本关键词提取算法从所述文本大数据中提取出关键词, 并过滤包括 停用词在内的错 误关键词。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器用于存储一条或多条 计算机指令, 其中, 所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~4 中任一项所述的一种基于大 数据的文本分析 方法。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序使计 算机执行时实现如权利要求1~4中任一项所述的一种基于大 数据的文本分析 方法。权 利 要 求 书 2/2 页 3 CN 115470773 A 3

PDF文档 专利 一种基于大数据的文本分析方法及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的文本分析方法及装置 第 1 页 专利 一种基于大数据的文本分析方法及装置 第 2 页 专利 一种基于大数据的文本分析方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。