全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211147464.6 (22)申请日 2022.09.21 (71)申请人 广州市千钧网络科技有限公司 地址 510000 广东省广州市天河区华夏路 10号富力中心 20楼02单 元 (72)发明人 郑伟雄 朱基锋 周辉  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 刘翠香 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/284(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 一种敏感词检测方法、 装置、 设备及可读存 储介质 (57)摘要 本申请提供了一种敏感词检测方法、 装置、 设备及可读存储介质, 其中服务器获取待检测的 文本, 基于文本的语义, 对文本进行分词, 得到文 本分词出的至少一个目标分词, 进一步基于至少 一个目标分词, 在敏感词库中进行敏感词检测, 得到敏感词检测结果。 由于分词是基于待检测的 文本的语义获得的, 在此基础之上, 基于与该文 本语义相关的各分词在敏感词库中进行敏感词 检测, 就可以减少从敏感词库中匹配出与文本语 义无关的敏感词的情况, 从而可以减少将敏感词 库中与文本的语义无关的敏感词误判为文本相 关的敏感词的情况, 减少了敏感词的误判情况, 提高了敏感词检测的准确度。 权利要求书2页 说明书8页 附图4页 CN 115238044 A 2022.10.25 CN 115238044 A 1.一种敏感词检测方法, 其特 征在于, 包括: 获得待检测的文本; 基于所述文本的语义, 对所述文本进行分词, 得到所述文本分词出的至少一个目标分 词; 基于所述至少一个目标分词, 在敏感词库中进行 敏感词检测, 得到敏感词检测结果。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述至少一个目标分词, 在敏感 词库中进行 敏感词检测, 包括: 基于所述至少一个目标分词, 在敏感词库对应的词典树中进行 敏感词匹配; 其中, 所述词典树包括多条路径分枝, 每条路径分枝用于表征所述敏感词库中的一个 敏感词, 所述敏感词对应的路径分枝中的至少一个节点分别表示: 基于所述敏感词的语义 对所述敏感词分词出的不同敏感分词。 3.根据权利要求2所述的方法, 其特 征在于, 所述词典树 通过如下 方式构建: 针对敏感词库中每个敏感词, 基于所述敏感词的语义, 对所述敏感词进行分词, 得到所 述敏感词分词出的至少一个敏感分词; 基于敏感词库中各敏感词各自的至少一个敏感分词, 构建所述敏感词库对应的词典 树。 4.根据权利要求1所述的方法, 其特 征在于, 在得到敏感词检测结果之后, 还 包括: 如果所述敏感词检测结果表征检测到与所述至少一个目标分词中的至少部分目标分 词匹配的敏感词, 确定所述文本为属于包 含敏感词的文本 。 5.根据权利要求2所述的方法, 其特征在于, 所述基于所述至少一个目标分词, 在敏感 词库对应的词典树中进行 敏感词匹配, 包括: 基于所述至少一个目标分词, 利用确定有穷自动机算法在敏感词库对应的词典树中进 行敏感词匹配。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本的语义, 对所述文本进 行分词, 得到所述文本分词出的至少一个目标分词, 包括: 将所述文本输入到分词模型进行分词, 以通过所述分词模型按照所述文本的语义将所 述文本分词为至少一个目标分词。 7.根据权利要求3所述的方法, 其特 征在于, 还 包括: 检测到所述敏感词库中存在新增的敏感词, 基于所述新增的敏感词的语义分词出的至 少一个敏感分词, 更新所述词典树。 8.一种敏感词检测装置, 其特 征在于, 包括: 文本获取 单元, 用于获得待检测的文本; 分词获取单元, 用于基于所述文本的语义, 对所述文本进行分词, 得到所述文本分词出 的至少一个目标分词; 敏感词检测单元, 用于基于所述至少一个目标分词, 在敏感词库中进行敏感词检测, 得 到敏感词检测结果。 9.一种计算机设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执 行所述程序, 实现如权利要求1 ‑7任一项所述的敏感词检测方法。权 利 要 求 书 1/2 页 2 CN 115238044 A 210.一种可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时, 实现如权利要求1 ‑7任一项所述的敏感词检测方法。权 利 要 求 书 2/2 页 3 CN 115238044 A 3

.PDF文档 专利 一种敏感词检测方法、装置、设备及可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种敏感词检测方法、装置、设备及可读存储介质 第 1 页 专利 一种敏感词检测方法、装置、设备及可读存储介质 第 2 页 专利 一种敏感词检测方法、装置、设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。