全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211029674.5 (22)申请日 2022.08.26 (71)申请人 哈尔滨工业大 学 (深圳) 地址 518000 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 付希明 刘川意 韩培义 庄荣飞  (74)专利代理 机构 深圳市添源创鑫知识产权代 理有限公司 4 4855 专利代理师 覃迎峰 (51)Int.Cl. G06F 30/20(2020.01) G06F 40/18(2020.01) (54)发明名称 针对表格数据的仿真数据生成方法、 装置及 电子设备 (57)摘要 本发明公开了一种针对表格数据的仿真数 据生成方法、 装置及电子设备, 所述方法包括: 获 取累计分布表及逆累计分布表; 根据累计分布表 对原始数据做变换, 获取变换后每一列均值和列 协方差矩阵; 根据获取每一列均值和列协方差矩 阵生成联合高斯分布数据, 最后通过查逆累计分 布表仿真数据生成。 本发明针对表格数据的仿真 数据生成, 适用于集中场景和分布式场景, 生成 仿真数据技术效率高, 所需时间短, 同时, 在分布 式情况下的生成数据质量高, 尤其是联邦情况和 非平衡情况下的仿真数据质量仍然能够满足下 游任务和数据探索的需求。 权利要求书3页 说明书9页 附图3页 CN 115455668 A 2022.12.09 CN 115455668 A 1.一种针对表格数据的仿真数据生成方法, 在集中场景下, 针对 m行n列的原始表格数 据, 表示第i行第 列位置的数据, 表示第 列数据, 其特征在于, 所述方法包括以下 步骤: 获取累计分布表及逆累计分布表: 将每一列数据 进行区间划分, 统计每一个区间内 的数据的个数, 计算得到每个区间 h的概率 , 即数据 中的元素取值在第 h个区间内的概 率为 , 根据概率 得到第 列累计分布表 的值 , 其中 , 根据第 列累 计分布表的值 生成第 列的逆累计分布 表 ; 获取每一列均值和列协方差矩阵: 对每一列数据 , 根据累计分布表 变换得到数据 , 令 为 第i行位置的数据, , 其中 为高斯分布的逆累计分布函 数, 表示查累计分布表, 每一列的均值 为: , 令 , 根据 得到 列协方差矩阵 为: ; 生成联合高斯分布数据: 从均值为 , 协方差为 的联合高斯分布 中采样得到 联合高斯分布数据 ; 仿真数据生成:  对每一列 查询逆累计分布表, 具体为: 记第 i行第 列位置的仿真数 据为 , , 表示查逆累计分布表, 为高斯分布的累计分布函数, 得到的 为生成的仿真数据。 2.根据权利要求1所述的针对表格数据的仿真数据生成方法, 其特征在于, 所述逆累计 分布表 的取值是累计分布 表 的概率值对应区间内的任意 一个值。 3.根据权利要求1所述的针对表格数据的仿真数据生成方法, 其特征在于, 所述生成联 合高斯分布数据的替代方法如下: 采用标准 正态分布独立 地从高斯分布采样得到 , 每个元素  ; 对 做变换 仿射得 到 列之间 有关 联关 系的 联 合高 斯分 布数 据 , 其中 通过Cholesky分解 得到。 4.一种针对表格数据的仿真数据生成方法, 在分布式场景下, 有 个数据节点, 第 个数 据节点持有 行数据, 总共有 行数据, 每一行数据有 列, 第 个数据节点的第 i行 第 列数据记为 , 其特征在于, 所述方法包括以下步骤: 获取累计分布表及逆累计分布表: 统计每个数据节点 中离散列 的取值为 a的个数为 , 汇聚 个数据节点, 得到 列取值为 a的个数为 , 得到全局概率分布 , 根据全局概率分布 得到累计分布表 , 其中 , 根据累计分布表生成对应 的逆累计分布 表 ; 获取全局每一列均值和列协方差矩阵: 对每一列数据 , 根据累计分布表 得到数据 , 令 为 第i行位置的数据, , 其中 为高斯分布的逆累计分布函权 利 要 求 书 1/3 页 2 CN 115455668 A 2数, 表示查累计分布表, 每个节点 在本地计算 和 , 并同步进行汇 聚, 其中 表示节点 的 , 令 , 得到全局每一列均值 , 列协方差矩阵 的元 素 ; 生成联合高斯分布数据: 从均值为 , 协方差为 的联合高斯分布 中采样得到 联合高斯分布数据 ; 仿真数据生成:  对每一列 查询逆累计分布表, 具体为: 记第 i行第 列位置的仿真数 据为 , , 表示查逆累计分布表, 为高斯分布的累计分布函数, 得到的 为生成的仿真数据。 5.根据权利要求4所述的针对表格数据的仿真数据生成方法, 其特征在于, 所述生成联 合高斯分布数据的替代方法如下: 采用标准 正态分布独立 地从高斯分布采样得到 , 每个元素  ; 对 做变换 仿射得 到 列之间 有关 联关 系的 联 合高 斯分 布数 据 , 其中 通过Cholesky分解 得到。 6.一种针对表格数据的仿真数据生成装置, 所述装置运行在集中场景下, 针对 m行n列 的原始表格数据, 表示第i行第 列位置的数据, 表示第 列数据, 其特征在于, 所述 装置包括: 获取累计分布表及逆累计分布表单元, 用于将每一列数据 进行区间划分, 统计每一 个区间内的数据的个数, 计算得到每个区间 h的概率 , 即数据 中的元素取值在第 h个区 间内的概率为 , 根据概率 得到第 列累计分布表 的值 , 其中 , 根 据第 列累计分布 表的值 生成第 列的逆累计分布 表 ; 获取每一列均值和列协方差矩阵单元, 用于对每一列数据 , 根据累计分布表 变换 得到数据 , 令 为 第i行位置的数据, , 其中 为高斯分布的逆累 计分布函数, 表示查累计分布表, 每一列的均值 为: , 令 , 根 据 得到列协方差矩阵 为: ; 生成联合高斯分布数据单元, 用于从均值为 , 协方差为 的联合高斯分布 中 采样得到联合高斯分布数据 ; 仿真数据生成单元, 用于对每一列 查询逆累计分布表, 具体为: 记第 i行第 列位置的 仿真数据为 , , 表示查逆累计分布表, 为高斯分布的累计分布函数, 得到的 为生成的仿真数据。 7.根据权利要求6所述的针对表格数据的仿真数据生成装置, 其特征在于, 所述生成联 合高斯分布数据单 元的另一种实现方法为: 采用标准 正态分布独立 地从高斯分布采样得到 , 每个元素  ; 对 做变换 仿射得 到 列之间 有关 联关 系的 联 合高 斯分 布数 据权 利 要 求 书 2/3 页 3 CN 115455668 A 3

.PDF文档 专利 针对表格数据的仿真数据生成方法、装置及电子设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 针对表格数据的仿真数据生成方法、装置及电子设备 第 1 页 专利 针对表格数据的仿真数据生成方法、装置及电子设备 第 2 页 专利 针对表格数据的仿真数据生成方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:43:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。