全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210985285.3 (22)申请日 2022.08.17 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2号 申请人 大连凌空数据科技有限公司 (72)发明人 杨光飞 李文丽 钱翔宇 关晓微  (74)专利代理 机构 辽宁鸿文知识产权代理有限 公司 21102 专利代理师 许明章 王海波 (51)Int.Cl. G06K 9/62(2022.01) G06F 17/18(2006.01) G06Q 50/00(2012.01) G06Q 50/26(2012.01) (54)发明名称 一种基于局部离群因子与符号回归的自动 断点检测方法 (57)摘要 本发明属于不连续函数回归技术领域, 涉及 一种基于局部离群因子与符号回归的自动断点 检测方法, 首先利用局部离群因子方法确定数据 集中的候选断点个数位置, 然后根据候选断点生 成候选断点组, 最后基于 符号回归算法对候选断 点组进行拟合, 选择拟合度最高的断点作为输出 结果。 本发明的方法能自动识别断点个数和位 置。 通过构造候选断点与切分数据集, 利用LOF算 法的异常值检测功能, 可全面精 准地识别数据集 中存在的断点, 可拟合复杂分布数据。 基于符号 回归算法进行拟合, 实现数据分布假设、 解释性 强、 拟合度高的数据建模。 计算速度快。 基于LOF 算法的断点检测过程, 只需将数据集的每个点遍 历一次, 无冗余计算过程。 权利要求书1页 说明书9页 附图1页 CN 115329875 A 2022.11.11 CN 115329875 A 1.一种基于局部 离群因子与符号回归的自动断点检测方法, 其特 征在于, 步骤如下: (1)对于给定数据集, 设定基本参数, 生成初始断点与对应初始数据集 对于给定的二维数据集D={(x0, y0), (x1, y1), ..., (xN, yN)}, 其中x为自变量, y为因变 量; 设置三个基本参数: 带宽bandwidth、 0<bandwidth<1, 离群比例outlier、 0<outlier <bandwidth/2, 和阈值threshold、 0≤threshold≤1; 计算二维数据集的长度N, 设定计数 器i初始值 为0; 令初始断点bpi=x[N*bandwidth/2+i], 对应初始数据集di=D[i: N*(bandwidth/2+ outlier)+i]; (2)根据生成的初始数据集与LOF算法 返回候选断点 将初始数据集di作为LOF算法的输入, LOF算法的输出将正常数据点标记为1, 离群点标 记为‑1; 计算LOF算法输出结果res中, 后N*outlier中值为 ‑1的个数与N*outlier的比值, 记为 score, 即score=sum(res[ ‑N*outlier: ]== ‑1)/N*outlier; 对score进行判断, 若score ≥threshlod, 判断断点bpi为候选断点; 以此类推, 令i=i+1, 直至i=N ‑N*(bandwidth/2+ outlier), 计算完所有断点; (3)根据候选断点 生成符号回归数据集 计算候选断点的数量numbp, 将候选断点的数量按照从1至numbp进行排列组合, 生成候选 断点组bpcandidat e; 根据每一个候选断点组对原始二维数据集D进行切分, 生成对应的切分数 据集Dkj, 其中, {k∈R|1≤k≤len(bpcandidate)}, {j∈R|0≤j≤numbp}; 其中, k为排列组合后, 候选断点组中每个候选断点下标, j为数据集被候选断点切分后, 每个切分数据集的下标; 根据符号回归输出结果, 返回拟合优度最小的候选断点与其对应函数利用SR算法分别对切 分数据集Dkj中每一段切分数据进行拟合, 拟合优度和拟合方程分别记为fitkj, functionkj; 选择切分数据集Dk j平均拟合优度最小的值对应的索引, 记为index , 即 则最优断点bp与其对应拟合函数function为 指标index对应的bp_candidate与functionkj, 即bp=bp_candi date[index], function= functionkj[index]。权 利 要 求 书 1/1 页 2 CN 115329875 A 2一种基于局部离群因 子与符号回归的 自动断点检测方 法 技术领域 [0001]本发明属于不连续函数回归技术领域, 涉及一种基于局部离群因子与符号回归的 自动断点检测方法。 背景技术 [0002]非参数回归是统计学的重要分支, 在社会、 经济、 医疗等诸多领域中有着重要地 位, 关于非参数回归函数的统计推断问题也越来越被人们重视。 但是在很多实际应用中, 不 连续的回归函数, 即回归函数带断点的情况更适合去描述相关现象。 如国六标准颁布前后 的大气污染序列建模、 奖助学金模式下 的学生成绩建模、 金融危机前后的股票市场价格指 标序列建模等。 这些问题都存在一个共性, 即某 一变量达到特定数值后, 回归模 型会突然发 生变化。 现有研究中, 通常使用断点 回归设计(Regression  Discontinuity  Design)、 门槛 回归(Threshold Regression)和时间序列分段算法(Time  series Breakout  Detection) 对不连续回归问题进行建模。 [0003]邹红等人发表的 “基于断点回归设计的经验证据 ”基于断点回归设计, 利用退休制 度对城镇男性户主退休决策 的外生冲击, 检验了我国是否存在退休消费骤降现象。 结果表 明退休显著降低了城镇家庭非耐用消费支出的9%、 与工作相关支出的25.1%、 文化娱乐支 出的18.6%和在家食物 支出的7.4%。 [0004]在该方法中, 断点的识别和预测较为困难, 通常需要丰富的领域知识以及人们的 直觉, 人为假设断点的位置和数量, 因此会受到人类认知偏见的 限制。 并且在确定断点位置 后需要使用传统回归方法来估计断点位置两边的模型, 而传统回归方法则需要事先假定模 型结构, 这样就有可能过 滤掉更适 合的潜在模型。 [0005]赵春燕发表的 “人口老龄化对区域产业结构升级的影响——基于面板门槛回归模 型的研究”采用面板回归门槛模型, 通过利用1998 ‑2015年我国30个省份的面板数据, 证实 老龄化对产业结构升级影响的门槛效应。 实证结果显示: 老龄化产业对结构升级影响存在 显著门槛效应, 当城镇化水平大于门槛值时, 老龄化促进产业结构升级; 反之, 老龄化阻碍 产业结构升级。 [0006]此研究相较于断点回归设计优势在于可以自动搜寻门限值, 将回归模型区分为多 个区间, 每个区间的回归方程表达不同。 该方法局限在于回归模型是一个固定的表达式, 通 过最小化残差平方和进行参数估计, 但是不同的实际问题服从不同的数据分布, 这种做法 找到的模型 可能拟合度不高且缺乏一定的解释性, 会遗漏一定的信息 。 [0007]熊智等人发表的 “城市轨道交通客流量时间序列分段拟合方法 ”利用曲线拟合方 法挖掘地铁客流量时间序列趋势性特征, 通过整体拟合、 人工 分段拟合和自动分段拟合, 对 北京市36个地铁站单日内客流量进行时间序列建模优化。 研究表明: 分段拟合利用局部函 数建模客 流量变化的动力学 过程,相较整体拟合能更好 地逼近实际。 [0008]该研究涉及的时间序列自动分段拟合方法是通过人工确定分段个数, 然后通过遍 历分段点的取值组合, 计算每种组合下的MS E之和, 取MS E之和最小的最优分段点。 该方法的说 明 书 1/9 页 3 CN 115329875 A 3

PDF文档 专利 一种基于局部离群因子与符号回归的自动断点检测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于局部离群因子与符号回归的自动断点检测方法 第 1 页 专利 一种基于局部离群因子与符号回归的自动断点检测方法 第 2 页 专利 一种基于局部离群因子与符号回归的自动断点检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。