(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210485181.6 (22)申请日 2022.05.06 (65)同一申请的已公布的文献号 申请公布号 CN 114579596 A (43)申请公布日 2022.06.03 (73)专利权人 达而观数据 (成 都) 有限公司 地址 610218 四川省成 都市天府新区湖畔 路北段366号1栋3楼1号 (72)发明人 于敬 周明星 刘文海 陈运文  纪达麒 石京京  (74)专利代理 机构 上海智力专利商标事务所 (普通合伙) 31105 专利代理师 周涛 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/22(2019.01) (56)对比文件 CN 106294695 A,2017.01.04 CN 110347329 A,2019.10.18CN 10485 0502 A,2015.08.19 CN 112100160 A,2020.12.18 CN 109343790 A,2019.02.15 CN 113874852 A,2021.12.31 CN 104881422 A,2015.09.02 CN 10281 1380 A,2012.12.0 5 US 201727 7739 A1,2017.09.28 CN 103177082 A,2013.0 6.26 US 2006085490 A1,20 06.04.20 US 7953721 B1,201 1.05.31 WO 2011031796 A2,2011.03.17 US 798720 5 B1,201 1.07.26 WO 2020234719 A1,2020.1 1.26 CN 113227999 A,2021.08.0 6 CN 113220662 A,2021.08.0 6 US 20120 30188 A1,2012.02.02 孙芳媛.基于倒排索引和字典树的站内搜索 引擎的设计与实现. 《中国优秀硕士论文 全文数 据库》 .2017, (续) 审查员 王诗玮 (54)发明名称 一种实时更新搜索引擎索引数据的方法及 系统 (57)摘要 本发明涉及到一种实时更新搜索引擎索引 数据的方法及系统, 该方法中原始数据经过接收 模块进入数据队列, 再存储到数据库和搜索引擎 集群中, 后台管理模块配置索引结构并存到数据 库中, 由全量索引模块负责执行索引配置的分发 及数据导入, 自动化完成增量数据收集、 全量数 据重新导入、 索引结构配置更新和索引切换工 作, 同时不会影响到线上对外提供的搜索服务; 还涉及到一种实时更新搜索引擎索引 数据的系 统。 本发明的方法和系统在数据更新的过程中对 于用户来说是无感知的, 可以持续使用搜索引擎 提供的相关服务, 大大提升了工作效率, 系统稳 定性和产品体验也能得到充分 保障。 [转续页] 权利要求书3页 说明书8页 附图1页 CN 114579596 B 2022.09.06 CN 114579596 B (56)对比文件 又蠢又笨的懒羊 羊程序猿.RocketMQ: 消息 消费队列 与索引文 件的实时更新以及文 件恢复 源码解析. 《ht tps://blog.csdn.net/ TaylorSwiftiiln/article/detai ls/ 121384893》 .2021,Baojia Zhang.A New Secure I ndex Supporting Efficient I ndex Updati ng and Similarity Searc h on Clouds. 《SC C "16: Proceedings of the 4th AC M Internati onal Workshop o n Security i n Cloud Computi ng》 .2016,2/2 页 2[接上页] CN 114579596 B1.一种实时更新搜索引擎索引数据的方法, 其特征在于, 该方法通过一次全量数据更 新、 位置标记、 两次追加数据、 切换再追加的数据同步机制, 保证线 上搜索服务不中断, 在保 证数据一 致性前提下自动完成数据更新, 该 方法包括如下步骤: 第一步, 数据接收, 接收所有 待搜索的结构化数据、 半结构化数据及非结构化数据; 第二步, 接收的数据进入数据队列, 数据队列中暂存接收到的原始待搜索数据, 用 offset参数 标识数据队列中的数据消费情况; 第三步, 启动数据同步模块, 从数据队列中不断地消费新进入的数据, 所述消费是指通 过对offset执行不断加1位移的方式, 把存在于数据队列中对应offset位置的数据读出来, 接下来同步到数据库和搜索引擎 集群两个地方; 第四步, 分别存储数据至数据库和搜索引擎集群中, 存储的数据到数据库用于数据备 份, 存储的数据到搜索引擎集群供用户数据搜索, 同时把消费队列的位置信息flag_offset 写到数据库中, 用flag_offset作为起始位置从队列中消费数据, 完成以后把最新的offset 值更新到数据库中的fla g_offset字段中; 第五步, 在后台管理模块配置索引结构并存到数据库中, 同时将该索引结构在数据库 中对应的flag_index字段设置为0, 后台管理模块对原始待搜索数据进行增、 删、 改、 查操 作, 对于增、 删、 改这三种操作牵涉到数据的变化, 将 变化的数据通过API接口传输到数据接 收模块, 并通过第三步和第四步将变化的数据同步到数据库和搜索引擎集群中, 可视化方 式执行对搜索引擎索引集群的增、 删、 改、 查操作, 并将 操作结果存到数据库中; 第六步, 由全量索引模块负责执行索引 配置的分发及数据导入, 自动化完成增量数据 收集、 全量数据重新导入、 索引结构配置更新和索引切换工作, 同时不会影响到线 上对外提 供的搜索服 务; 所述的全量索引模块执 行如下步骤: S1, 全量索引模块初 次启动, 扫描数据库中的索引表, 查看是否存在 flag_index为0 的 索引, 若无则休息N秒进行等待, 若 有的话则执 行S2步骤; S2, 从数据库中拉取flag_index为0的索引信息, 该索引信息的索引名称记为index_ name,并按照固定文件 模式同步到 搜索引擎 集群中, 更新fla g_index为1; S3, 结合配置的索引名称index_name和version_index生成搜索引擎所使用的临时索 引{index_name}_{versi on_index}, index_a; S4, 全量更新数据, 从mysql中读取flag_offset值, 记为first_offset; 从mysql中获取 全部待搜索的数据, 写入到i ndex_a中; S5, 第一次追加数据, 从mysql中读 取最新的flag_offset的值, 记为second_offset, 然 后去数据队列中拉取o ffset在区间[first_o ffset, second_o ffset]中的数据, 并写入到 index_a中; S6, 第二次追加数据, 从mysql中读取最新的flag_offset的值, 记为third_offset, 然 后去数据队列中拉取o ffset在区间[second_o ffset, third_offset]中的数据, 并写入到 index_a中; S7, 切换索引, 将线上搜索引擎在使用中的index_name切 换到index_a, 完成数据同步 和索引切操作, 同时将该索引对应的数据库中的fla g_index置为2; S8, 进行下一轮扫描是否有fla g_index为0的索引, 重复第S1步至第S7步。 2.根据权利要求1所述的一种实时更新搜索引擎索引数据的方法, 其特征在于, 所述第权 利 要 求 书 1/3 页 2 CN 114579596 B 3

.PDF文档 专利 一种实时更新搜索引擎索引数据的方法及系统

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实时更新搜索引擎索引数据的方法及系统 第 1 页 专利 一种实时更新搜索引擎索引数据的方法及系统 第 2 页 专利 一种实时更新搜索引擎索引数据的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-24 08:49:50上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
热门文档
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。