全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111662253.1 (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号 申请公布号 CN 114218287 A (43)申请公布日 2022.03.22 (73)专利权人 北京诺司时空科技有限公司 地址 100020 北京市朝阳区利泽中园10 6号 楼2层B202-2 专利权人 哈尔滨工业大 学 (72)发明人 王宏志 李同欣 张凯欣 郑博  梁栋 叶天生 燕钰 丁小欧  (74)专利代理 机构 哈尔滨华夏松花江知识产权 代理有限公司 23213 专利代理师 岳昕 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01)G06F 16/28(2019.01) G06K 9/62(2022.01) (56)对比文件 CN 113711198 A,2021.1 1.26 CN 1074915 08 A,2017.12.19 US 2008270346 A1,20 08.10.30 US 20132 26903 A1,2013.08.2 9 毕里缘等.基于循环神经网络的数据库查询 开销预测. 《软件学报》 .2017,(第0 3期),第79 9- 810页. Jingxiong Ni.DeepQT: Learn ing Sequential Co ntext for Query Executi on Time Predicti on. 《Database System s for Advanced Ap plications. 25th I nternati onal Conference, DASFA A 2020. Proce edings. Lecture N otes in Computer Science (L NCS 12114)》 .2020,第18 8-203页. 审查员 齐智超 (54)发明名称 一种面向时序数据库的查询时间预测方法 (57)摘要 一种面向时序数据库的查询时间预测方法, 涉及计算机技术领域, 针对现有技术中查询时间 预测速度慢的问题, 包括: 步骤一: 读取时序数 据; 步骤二: 将时序数据写入CnosDB, Cno sDB使用 CnoSQL查询语句对时序数据进行查询检索, 并记 录查询时间; 步骤三: 将查询语句编码为向量化 数据; 步骤四: 对向量化数据提取数据分布特征; 步骤五: 使用PCA对数据分布特征进行降维; 步骤 六: 利用向量化数据和降维后的数据分布特征作 为输入, 查询时间作为输出, 训练梯度提升回归 树模型; 步骤七: 利用训练好的梯度提升回归树 模型进行查询时间预测。 本申请在预测时间上, 在上述实验中本模型都能在几十毫秒内给出预 测结果, 具有非常可观的响应 速度。 权利要求书1页 说明书4页 附图2页 CN 114218287 B 2022.11.04 CN 114218287 B 1.一种面向时序数据库的查询时间预测方法, 其特 征在于包括以下步骤: 步骤一: 读取时序数据; 步骤二: 将时序数据写入CnosDB, CnosDB使用CnoSQL查询语句对时序数据进行查询检 索, 并记录查询时间; 步骤三: 将查询语句编码为向量 化数据; 步骤四: 对向量 化数据提取 数据分布特 征; 步骤五: 使用PCA对数据分布特 征进行降维; 步骤六: 利用向量化数据和降维后的数据分布特征作为输入, 查询时间作为输出, 训练 梯度提升回归树模型; 步骤七: 利用训练好的梯度提升回归树模型进行查询时间预测; 所述步骤三之前还 包括以下步骤: 将Cn oSQL重写为标准的SQ L; 所述步骤三中编码包括join图编码和列信息编码, join图编码和列信息编码的结果连 接作为整个查询的编码; 所述join图编码的具体步骤为: 分析CnoSQL或SQL查询语句中涉及到的参加join的表, 分析每两个参加join的表的连 接关系, 并判断每两个参加join的表之间是否连接, 若 连接, 则将join对应的编码设置为 1, 若未连接, 则将join对应的编码设置为0, 最后 保留二维矩阵的上三角矩阵部分, 并按行展 开为一维矩阵; 所述列信息编码的具体步骤为: 针对每个参加 join的表, 将每个参加join的表中参与 查询谓词的编码列设置为1, 将每 个参加join的表中未参与查询 谓词的编码列设置为0, 将设置为 1的列和设置为0的列连接, 得到查询编码。 2.根据权利要求1所述的一种面向时序数据库的查询时间预测方法, 其特征在于所述 列信息编码通过o ne‑hot编码方式进行。权 利 要 求 书 1/1 页 2 CN 114218287 B 2一种面向时序数据库的查询时间预测方 法 技术领域 [0001]本发明涉及计算机技 术领域, 具体为 一种面向时序数据库的查询时间预测方法。 背景技术 [0002]查询时间预测是数据库领域中准入控制、 查询优化、 查询调度等多个热点问题的 技术基础。 比如, 在数据库优化中, 优化的主要目标是查询响应时间和空间利用率两点, 因 此, 查询的执行时间将作为重要的反馈指标, 指示优化结果的优劣。 但是实际使用中, 如果 对查询负载在物理上执行查询, 得到真实的执行时间, 会给优化过程带来不可接受的代价, 因为负载往 往要反复的执 行成百上千轮。 [0003]目前, 查询时间预测方向的相关研究已经比较成熟。 总的来说, 目前数据库上的查 询时间预测技术有两种 方案: 一种 是在查询计划层面对查询进行编码, 另一种是在物理操 作符层面对查询进行编码。 查询计划层面的编码粒度较低, 预测效果较依赖于训练集和测 试集的特征相似性, 对未知查询的预测效果较差, 而物理操作符层面的编 码, 通常利用查询 树的深度优先遍历, 得到操作符的序列, 从而可以提取出查询树中的结构特征, 编码的粒度 更高, 在应对未知的查询上, 预测效果相对查询计划层面较好, 但是在与训练集相似特征的 测试查询的预测速度慢。 发明内容 [0004]本发明的目的是: 针对现有技术中查询时间预测速度慢的问题, 提出一种面向时 序数据库的查询时间预测方法。 [0005]本发明为了解决上述 技术问题采取的技 术方案是: [0006]一种面向时序数据库的查询时间预测方法, 包括以下步骤: [0007]步骤一: 读取时序数据; [0008]步骤二: 将时序数据写入CnosDB, CnosDB使用CnoSQL查询语句对时序数据进行查 询检索, 并记录查询时间; [0009]步骤三: 将查询语句编码为向量 化数据; [0010]步骤四: 对向量 化数据提取 数据分布特 征; [0011]步骤五: 使用PCA对数据分布特 征进行降维; [0012]步骤六: 利用向量化数据和降维后的数据分布特征作为输入, 查询时间作为输出, 训练梯度提升回归树模型; [0013]步骤七: 利用训练好的梯度提升回归树模型进行查询时间预测。 [0014]进一步的, 所述 步骤三之前还 包括以下步骤: 将Cn oSQL重写为标准的SQ L。 [0015]进一步的, 所述步骤三中编码包括join图编码和列信息编码, join图编码和列信 息编码的结果连接作为整个查询的编码。 [0016]进一步的, 所述jo in图编码的具体步骤为: [0017]分析CnoSQL或SQL查询语句中涉及到的参加join的表, 分析每两个参加join的表说 明 书 1/4 页 3 CN 114218287 B 3

.PDF文档 专利 一种面向时序数据库的查询时间预测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向时序数据库的查询时间预测方法 第 1 页 专利 一种面向时序数据库的查询时间预测方法 第 2 页 专利 一种面向时序数据库的查询时间预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:44:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。