ICS35.240.70
CCSB07DB61111
杨凌农业高新技术产业示范区地方标准
DB6111/T197—2023
智慧农业园区数据处理技术规范
TechnicalSpecificationsforDataProcessingofIntelligent
AgricultureParks
2023-04-27发布 2023-05-27实施
杨凌示范区市场监督管理局 发布
DB6111/T197-2023
I前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件由西北农林科技大学信息工程学院提出。
本文件由杨凌示范区农业标准化技术委员会归口。
本文件起草单位:西北农林科技大学(信息工程学院、信息化管理处)、陕西省农村科技开发中心、
杨凌耘尚田园网络科技有限公司、杨凌乾泰电子科技有限责任公司、杨凌现代农业产业标准化研究推广
服务中心。
本文件主要起草人:刘斌、耿楠、蒲攀、周兆永、张宏鸣、李书琴、黄铝文、刘运松、耿耀
君、李梅、张海曦、卫星、邓希廉、李皓、马军妮、文立红。
本文件首次发布。
DB6111/T197-2023
1智慧农业园区数据处理技术规范
1范围
本文件规定了基于物联网系统的智慧农业园数据处理的相关术语和定义、处理流程及技术要求。
本文件适用于智慧农业园的数据规范处理、数据分析、数据可视化管理。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T36344-2018信息技术数据质量评价指标
GB/T37025-2018信息安全技术物联网数据传输安全技术要求
QX/T628-2021常规高空气象观测数据处理方法
3术语和定义
下列术语和定义适用于本文件。
3.1
农业大数据bigdataofagriculture
在农业生产、经营、管理、服务等环节中产生的海量的,具备多样性、高增长率、真实性及一定价
值的数据集。
3.2
数据处理dataprocessing
为从大量杂乱无章、难于直接理解的数据中抽取并推导到对特定人群有价值、有意义的信息,而进
行的数据采集、存储、检索、加工、变换和传输等活动。
3.3
数据增强dataaugmentation
一种为提升数据利用价值,用有限数据创造出尽可能多有用信息的数据扩充技术。
3.4
监测预警monitoringandearlywarning
通过监测、汇集、抽取相关信息数据,结合风险评估分析,将可能出现的结果直观展现给决策者,
提醒作出预先处置的活动。
3.5
特征衍生featurederivatives
利用现有的数据特征,组合构建出新的数据特征的技术手段。也称特征构建。
3.6
特征选择featureselection
按系统特定指标最优化目标,从原始特征中选择出最有效特征的过程。也称特征子集选择或属性选
择(Attributeselection)。
DB6111/T197-2023
24处理流程
4.1数据预处理
4.1.1数据清洗
4.1.1.1检验重复性数据需要根据具体场景、数据特点和问题需求,确定重复性数据的定义、检验方
法以及工具,并记录检验结果。
4.1.1.2异常值采用删除、替换、离群值检测等方法处理。其中离群值检测可以采用箱线图、3σ准则、
聚类等统计方法处理。
4.1.1.3重复值采用删除、合并、标记等方法处理。其中合并可以采用相似度匹配、聚类等方法处理。
4.1.1.4不一致值采用规范化、转换、匹配等方法处理。其中规范化可以采用大小写转换、数据类型
转换等方法处理。
4.1.1.5格式不一致采用规范化、转换、格式化等方法处理。其中规范化可以采用格式化字符串、正
则表达式等方法处理。
4.1.1.6噪声数据处理包括但不限于以下方法:
a)采用分箱法、聚类法、回归法等处理噪声数据。
b)采用分箱法将原始数据划分为若干区间,统计每个区间内的样本数量并计算样本占比,然后
平滑处理每个区间的样本占比,将平滑后的数据作为处理后的结果,用于后续的分析和建模。
c)采用聚类法根据一定的相似性度量分组原始数据,计算每个组的中心点,并根据中心点重新
分配数据点到各个组中,迭代执行上述步骤直到满足停止条件为止。最终得到的聚类结果可
以用于分析和建模,去除噪声数据对后续分析和建模的影响。
d)采用回归法包括建立一个回归模型,通过拟合已知数据的函数关系,预测未知数据,并评估
和调整预测结果,得到更准确的预测结果。在建立回归模型时,需要去除或修正噪声数据,
提高模型的预测精度。
4.1.1.7清洗处理的数据再次传输应符合GB/T37025-2018的安全传输规定。
4.1.1.8高空气象数据的处理应符合QX/T628-2021的规定。
4.1.2数据补全
a)均值/中位数/众数填充:对于数值型数据,可以使用均值、中位数或众数来填充缺失值。
b)固定值填充:对于某些特殊的数据,可以使用固定值来填充缺失值。
c)向前/向后填充:对于时间序列数据,可以使用向前或向后的值来填充缺失值。
d)插值法填充:可以使用插值法来填充缺失值,例如线性插值、多项式插值等。
e)建模预测填充:可以使用其他变量建立模型,预测缺失值。
4.1.3数据融合
采用深度学习模型提取多个数据源的数据信息特征(园区小气候数据、种植环境数据、图像数据和
农技知识数据),融合特征级、决策级,提升数据的有效性和准确性。
4.1.4数据变换
4.1.4.1图像数据按照目标程度划分为一般或严重状态,通过数字图像处理技术生成充足的数据集,
按照3:1:1的比例划分为训练集、验证集和测试集。
4.1.4.2园区小气候数据和种植环境数据,采用特征衍生和特征选择作预处理。特征选择分别基于最
大信息系数的最小冗余、最大相关指标过滤粗筛特征,再基于嵌入法选择。
DB6111-T 197-2023 智慧农业园区数据处理技术规范 杨凌区
安全标准 >
国标 >
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-05-17 10:45:06上传分享