全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211114199.1 (22)申请日 2022.09.14 (71)申请人 广东外语外贸大学 地址 510420 广东省广州市白云大道北2号 (72)发明人 劳斌 吕薇  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 吕金金 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) (54)发明名称 一种基于后缀索引的敏感词检索方法及系 统 (57)摘要 本发明公开了一种基于后缀索引的敏感词 检索方法及系统, 该方法中包括循环遍历目标文 本中的每一个字符, 然后构建所述目标文本的公 共前缀数 组, 接着通过预构建的敏感词库的多级 后缀索引对 所述公共前缀数 组进行检索, 获得所 述目标文本的敏感词的检索结果, 提高检索速 度, 降低空间开销。 权利要求书3页 说明书8页 附图6页 CN 115438140 A 2022.12.06 CN 115438140 A 1.一种基于后缀索引的敏感词检索方法, 其特 征在于, 包括: 通过循环遍历目标文本的每一个文本字符, 将所述遍历的文本字符添加至所述目标文 本的公共前缀数组中的每一个公共前缀的后面; 根据预设的后缀索引 检索算法, 通过预设的检索方式, 根据预构建的敏感词库中的多 级后缀索引检索所述目标文本的每一个公共前缀; 所述多级后缀索引为通过预设的划分算 法将所述敏感词库进 行划分获得的若干个敏感词子库对应的若干个后缀索引; 所述后缀索 引保存所述每一个敏感词的后缀按照字符顺序从小到大排列后的索引号码; 若根据所述多级后 缀索引检索不到所述目标文本的对应的公共前缀, 则将所述公共前 缀从所述目标文本的公共前缀数组中进行删除; 若根据所述多级后 缀索引检索到对应的公共前缀, 则根据 所述后缀索引中保存的索引 号码, 获得 所述目标文本的敏感词。 2.如权利要求1所述的一种基于后 缀索引的敏感词检索方法, 其特征在于, 所述将所述 遍历的文本字符添加至所述目标文本的公共前缀数组中的每一个公共前缀的后面, 具体包 括: 通过在所述公共前缀数组中新增字长为0的公共前缀, 根据遍历到的所述目标文本的 每一个文本 字符, 将相同的文本 字符添加至所述公共前缀数组中对应的公共前缀中; 所述公共前缀为长度小于或等于敏感词字长的字符串, 保存在初始为空 的所述公共前 缀数组中。 3.如权利要求1所述的一种基于后 缀索引的敏感词检索方法, 其特征在于, 所述敏感词 库的多级后缀索引的构建过程, 具体包括: 通过遍历所述敏感词库并在每一个敏感词后 面添加一个结束符, 获得所述敏感词库中 每一种字 长的敏感词数量的统计结果; 根据所述统计结果, 通过 预设的划分算法划分所述敏感词库, 获得若干个敏感词子库; 通过使用预设的后缀索引构造算法, 根据所述若干个敏感词子库, 获得与之一一对应 的若干个后缀索引; 通过预设的数据保存方式保存所述若干个后 缀索引的元数据, 获得所述敏感词库的多 级后缀索引, 所述元 数据包括敏感词的最小字 长、 最大字 长和字符桶的偏移量。 4.如权利要求1所述的一种基于后 缀索引的敏感词检索方法, 其特征在于, 所述根据 预 设的后缀索引检索算法, 通过预设的检索方式, 根据预构建的敏感词库中的多级后缀索引 检索所述目标文本的每一个公共前缀, 具体包括: 所述预设的后缀索引检索算法包括 顺序法、 二分法和LF ‑Mapping; 所述预设的检索方式包括逐级 串行检索、 各级并行检索和分布式检索; 通过所述预构建的敏感词库中的所述多级后缀索引中的每一个后缀索引对所述目标 文本的每一个公共前缀, 根据预设的后缀索引检索算法和检索方式进行 敏感词检索。 5.如权利要求1所述的一种基于后 缀索引的敏感词检索方法, 其特征在于, 所述根据 所 述多级后缀索引检索到对应的公共前缀, 具体包括: 通过所述后缀索引保存各个敏感词根据字符顺序从小到大排列的后缀的索引号码过 程中, 具有相同首字符的后缀在所述后缀索引中形成聚集, 获得 连续的字符桶。 6.如权利要求1所述的一种基于后 缀索引的敏感词检索方法, 其特征在于, 所述获得所权 利 要 求 书 1/3 页 2 CN 115438140 A 2述目标文本的敏感词, 具体包括: 若根据所述多级后 缀索引检索到所述目标文本的对应的公共前缀, 并且在所述公共前 缀对应的所述某一个后缀索引中包含的字符桶中检测到下一字符为结束符, 则 在检索结果 中保存所述敏感词, 并将所述敏感词对应的公共前缀从公共前缀数组中删除; 若根据所述多级后 缀索引检索到所述目标文本 中对应的公共前缀, 但是在所述公共前 缀对应的所述某一个后缀索引中包含的字符桶中没有检测到下一字符为结束符, 则不在检 索结果中保存所述敏感词, 并不将所述敏感词对应的公共前缀从公共前缀数组中删除。 7.如权利要求6所述的一种基于后 缀索引的敏感词检索方法, 其特征在于, 所述保存所 述敏感词, 具体包括: 通过预设的保存方式将所述敏感词保存到检索结果; 所述保存方式包括数组、 链 表和队列。 8.一种基于后缀索引的敏感词检索系统, 其特征在于, 包括循环模块、 检索模块、 删除 模块和保存 模块; 所述循环模块用于通过循环遍历目标文本的每一个文本字符, 将所述遍历的文本字符 添加至所述目标文本的公共前缀数组中的每一个公共前缀的后面; 所述检索模块用于根据预设的后缀索引 检索算法, 通过预设的检索方式, 根据预构建 的敏感词 库中的多级后缀索引检索所述目标文本的每一个公共前缀; 所述多级后缀索引为 通过预设的划分算法将所述敏感词库进行划分获得 的若干个敏感词子库对应的若干个后 缀索引; 所述后缀索引保存所述每一个敏感词的后缀按照字符顺序从小到大排列后的索引 号码; 所述删除模块用于若根据所述多级后缀索引检索不到所述目标文本的对应的公共前 缀, 则将所述公共前缀从所述目标文本的公共前缀数组中进行删除; 所述保存模块用于若根据所述多级后 缀索引检索到对应的公共前缀, 则根据 所述后缀 索引中保存的索引号码, 获得 所述目标文本的敏感词。 9.如权利要求8所述的一种基于后 缀索引的敏感词检索系统, 其特征在于, 所述检索模 块包括构建单 元和检索单 元; 所述构建单元包括通过遍历所述敏感词库并在每一个敏感词后面添加一个结束符, 获 得所述敏感词库中每一种字长的敏感词数量的统计结果; 根据所述统计结果, 通过预设的 划分算法划分所述敏感词 库, 获得若干个敏感词子库; 通过使用预设的后缀索引构造算法, 根据所述若干个敏感词子库, 获得与之一一对应的若干个后缀索引; 通过预设的数据保存 方式保存所述若干个后缀索引的元数据, 获得所述敏感词库的多级后缀索引, 所述元数据 包括敏感词的最小字 长、 最大字 长和字符桶的偏移量; 所述检索单元用于通过所述预构建的敏感词库中的所述多级后缀索引中的每一个后 缀索引对所述目标文本的每一个公共前缀, 根据预设的后缀索引检索算法和检索方式进 行 敏感词检索; 所述预设的后缀索引检索算法包括顺序法、 二分法和LF ‑Mapping; 所述预设的 检索方式包括逐级 串行检索、 各级并行检索和分布式检索。 10.如权利要求8所述的一种基于后缀索引的敏感词检索系统, 其特征在于, 所述保存 模块包括保存单 元和忽视单 元; 所述保存单元用于若根据所述多级后 缀索引检索到所述目标文本 中对应的公共前缀,权 利 要 求 书 2/3 页 3 CN 115438140 A 3

.PDF文档 专利 一种基于后缀索引的敏感词检索方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于后缀索引的敏感词检索方法及系统 第 1 页 专利 一种基于后缀索引的敏感词检索方法及系统 第 2 页 专利 一种基于后缀索引的敏感词检索方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。