(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211169793.0 (22)申请日 2022.09.22 (71)申请人 生态环境部南京环境科 学研究所 地址 210042 江苏省南京市玄武区蒋 王庙 街8号 (72)发明人 李旭伟 邓绍坡 孔令雅 豆叶枝  谢文逸 刘国强 王梦杰  (74)专利代理 机构 北京彦开专利代理事务所 (普通合伙) 16149 专利代理师 杨艳秋 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01)G06F 16/25(2019.01) (54)发明名称 一种基于污染场地同介质多批次海量数据 的整合统计方法 (57)摘要 本发明提供了一种基于污染场地同介质多 批次海量数据的整合统计方法, 属于污染场地数 据处理技术领域。 整合统计方法包括以下步骤: S1、 获取污染场地数据; S2、 特征指标识别及更 新; S3、 数据归纳整合与数据统计分析; S4、 输出 整合统计后的污染场地数据。 本发 明解决了传统 的场地环境数据获取、 合并、 清洗和挖掘方法难 以满足海量数据处理要求的问题, 具有大大加快 数据处理速度、 节约时间和经济成本的优点。 权利要求书2页 说明书6页 附图1页 CN 115495499 A 2022.12.20 CN 115495499 A 1.一种基于污染场地同介质多批次海量数据的整合统计方法, 其特征在于, 包括以下 步骤: S1、 获取海量的污染场地数据 将污染场地数据分为特征指标、 与特征指标对应的指标数据, 将污染场地数据进行重 分布后, 再将表现为数字形式的字符串类型 的指标数据转化为数据类型, 最后按照特征指 标与指标 数据的对应方式存 储污染场地数据; S2、 特征指标识别及更新 确定整合统计后输出的特征指标, 并通过输出的特征指标对存储污染场 地数据中特征 指标进行识别及更新; S3、 污染场地数据的归纳整合与统计分析 通过检索栏选择定位条件, 根据定位条件对污染场地数据归纳整合, 再通过将stream 流形式的污染场地数据作为math函数的输入参数, 完成对归纳 整合后的污染场地数据的批 量统计分析, 得到整合统计后的污染场地数据; S4、 输出整合统计后的污染场地数据。 2.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其 特征在于, 所述步骤S1 中, 污染场地数据的格式为excel, 所述步骤S5中, 整合统计后的污染 场地数据的格式为excel。 3.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其 特征在于, 所述特 征指标包括检测指标、 检出限、 单位。 4.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其 特征在于, 所述 步骤S1还 包括: 下载污染场地数据输入模板, 再将污染场地数据写入污染场地数据输入模板, 通过文 件输出流读取excel格式的污染场地数据并进行格式判定, 在 满足格式要求后, 将所有 数据 存入hssfWorkbook, 等待进一步处理。 5.如权利要求4所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其 特征在于, 所述 步骤S1还 包括: 新建两个数据存储list, 其中一个数据存储list用于存储数据结构为areaList的数 据, 另一个数据存储list用于存储数据结构为fullList的数据, 其中, 数据结构为list的数 据对应excel中每个sheet的特征指标, 数据结构为areaList/fullList的数据对应每个 excel中每个sh eet的全部指标数据, 再创建用于存放sheet 基础数据的sh eetList, sheet 基 础数据为she et名称、 she et首行和首列内的数据, 污染场地数据存 储的操作过程 为: 通过双层循环遍历excel格式的污染场地数据, 按照excel中sheet的顺序, 对每个 sheet的每行数据进行读取, 将每个sheet中特征指标名称进行去空去重操作后存入 areaList中, 将每 个sheet中全部指标 数据存入fullList中。 6.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其 特征在于, 所述步骤S3中, 定位条件包括: 检索栏选择的限定条件、 污染场地数据输入模板 内置的特 征指标位置 。 7.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其权 利 要 求 书 1/2 页 2 CN 115495499 A 2特征在于, 所述步骤S 3中, 通过将stream流形式的污染场地数据作为math函数的输入参数, 包括以下内容: math函数中平均值的计算公式: list.stream().mapToDouble(BigDecimal:: doubleValue).average().getAsDouble(), 平均值的计算公式将输入参数设定为是一组 数据集合list, 并运用steam流的maptoDouble的方法, 将数据进行map映射, 然后调取 average求平均值的接口直接进行计算, 最后通过getAsDouble的方式直接将结果转换成 double类型, math函数中最大值和最小值的计算公式: list.stream().reduce(list.get(0), BigDecimal::max), 最大值和最小值的计算公式运用stream流式计算, 调用reduce方法取 到一组数的最大值和最小值, math函数中方差和标准差的计算方式: 采用先计算和, 再计算平均值的方式, 最后求取 方差和标准差 。 8.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其 特征在于, 所述步骤S 3中, 批量统计 分析包括: 求平均值、 求最大值和最小值、 求方差和求标 准差。 9.一种数据处理设备, 用于执行如权利要求1 ‑8所述的一种基于污染场地同介质多批 次海量数据的整合统计方法, 其特 征在于, 包括: 用于提供污染场地数据输入模板的模板下载模块(101), 所述模板下载模块(101)提供 的输入模板格式为excel, 用于导入污染场地数据的导入模块(102), 所述导入模块(102)的数据输入格式为 excel, 用于确定整合统计后的输出 特征指标的特 征指标管理模块(10 3), 用于根据所述特征指标管理模块(103)确定的输出特征指标, 对所述数据存储模块处 理后的特 征指标进行识别及更新的数据整理模块(104), 用于在污染场 地数据导入后, 按照特征指标与指标数据的对应方式存储污染场 地数据 的数据存储模块(105), 所述数据存储模块(105)新建两个数据存储list, 其中一个数据存 储list用于存储数据结构为areaList 的数据, 另一个数据存储list用于存储数据结构为 fullList的数据, 其中, 数据结构为list的数据对应excel中每个sheet的特征指标, 数据结构为 areaList/fullList的数据对应 每个excel中每 个sheet的全部指标 数据, 用于展示所述数据整理模块(104)处理特征指标识别及更新后所有污染场地数据的数 据展示模块(10 6), 所述数据展示模块(10 6)还提供用于 选择定位条件的检索栏, 用于根据所述定位条件完成污染场地数据归纳整合、 批量统计分析的数据计算模块 (107), 所述数据计算模块(107)将stream流形式的污染场地数据作为math函数的输入参 数, 优化了math函数中平均值、 最大值、 最小值、 方差、 标准差的计算方式, 用于导出处理后的污染场地数据的导出模块(108), 所述导出模块(108)的数据输出格 式为excel。权 利 要 求 书 2/2 页 3 CN 115495499 A 3

.PDF文档 专利 一种基于污染场地同介质多批次海量数据的整合统计方法

安全报告 > 其他 > 文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于污染场地同介质多批次海量数据的整合统计方法 第 1 页 专利 一种基于污染场地同介质多批次海量数据的整合统计方法 第 2 页 专利 一种基于污染场地同介质多批次海量数据的整合统计方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-07 20:38:22上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。