全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211029634.0 (22)申请日 2022.08.25 (71)申请人 苏州浪潮智能科技有限公司 地址 215168 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 李宝然  (74)专利代理 机构 北京市万慧达律师事务所 11111 专利代理师 康丽丽 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/31(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 近似最邻近文本语义检索方法、 装置、 设备 和存储介质 (57)摘要 本申请涉及一种近似最邻近文本语义检索 方法、 装置、 设备和存储介质, 所述方法包括: 获 取待检索文本数据, 采用词袋策略对 所述待检索 文本数据进行预处理生成文本向量; 计算所述文 本向量在 文本库中权重; 对所述文本向量进行乘 积量化编码处理, 生成乘积量化编码数据; 基于 所述权重和所述乘积量化编码数据, 利用多表乘 积量化算法对 所述文本向量进行处理, 生成近似 最邻近文本语义检索结果集。 本申请基于语义的 文本最邻近检索问题, 设计出一种快速近似最邻 近检索方法, 可以在保障最邻近检索精确度的前 提下, 大幅度提升在大规模文本数据库中进行基 于语义的文本 近似最邻近 检索速度。 权利要求书2页 说明书10页 附图2页 CN 115470315 A 2022.12.13 CN 115470315 A 1.一种近似最邻近文本语义检索方法, 其特 征在于, 所述方法包括: 获取待检索文本数据, 采用词袋策略对所述待检索文本数据进行预处理生成文本向 量; 计算所述文本向量在文本库中权 重; 对所述文本向量进行乘积量 化编码处 理, 生成乘积量 化编码数据; 基于所述权重和所述乘积量化编码数据, 利用多表乘积量化算法对所述文本向量进行 处理, 生成近似最邻近文本语义检索结果 集。 2.根据权利要求1所述的近似最邻 近文本语义检索方法, 其特征在于, 在采用词袋策略 对所述文本数据进行 预处理生成文本向量之前, 所述方法还 包括: 从预设的文本库中提取文本数据; 对所述文本数据进行分词处理, 统计所有出现的词汇, 并去除停用词, 基于预设规则 选 取定量的词汇作为标记位。 3.根据权利要求1或2所述的近似最邻近文本语义检索方法, 其特征在于, 所述获取待 检索文本数据, 采用词袋策略对所述待检索文本数据进行 预处理生成文本向量包括: 获取待检索文本数据; 对所述待检索文本数据进行分词处 理, 统计所有出现的词汇, 并去除停用词; 验证所述标记位中是否包 含去除停用词后的待检索文本数据相关词汇; 对包含在所述标记位内的词汇进行编码, 生成对应的文本向量。 4.根据权利要求1所述的近似最邻 近文本语义检索方法, 其特征在于, 所述计算所述文 本向量在所述文本库中权 重包括: 统计不同词汇在所述文本库中的出现频率; 基于不同词汇的出现频率, 计算所述词汇的权 重, 所述权 重的计算公式为: w=e^(‑p) 其中, p表示词频, w表示权 重; 定义所有标记位词汇组成的权 重之和为所述标记位组成的段落 i的权重, 记为Wi。 5.根据权利要求1所述的近似最邻 近文本语义检索方法, 其特征在于, 所述对所述文本 向量进行乘积量 化编码处 理, 生成乘积量 化编码数据包括: 对所述文本向量进行分段处 理; 基于每个分段中的数据进行聚类并选取k个聚类核心; 选取与所述聚类核心最邻 近的向量分段, 采用对应的聚类核心编 号对所述向量分段进 行量化编码, 生成乘积量 化编码数据。 6.根据权利要求1所述的近似最邻 近文本语义检索方法, 其特征在于, 所述基于所述权 重和所述乘积量化编码数据, 利用多表乘积量化算法对所述文本 向量进行处理, 生成近似 最邻近文本语义检索结果 集包括: 利用n个哈希桶将所述乘积量 化编码数据进行分段存 储; 在每个哈希桶内, 利用哈希表查表机制与非对称距离编码算法对哈希编码表内的乘积 量化编码数据进行非对称距离检索 及排序, 生成近似最邻近文本语义检索结果 集; 通过与或运算从所述近似最邻近文本语义检索结果集中筛选出符合检索返回数量要 求的数据集, 即为近似最邻近文本语义检索结果 集。权 利 要 求 书 1/2 页 2 CN 115470315 A 27.根据权利要求6所述的近似最邻 近文本语义检索方法, 其特征在于, 所述非对称距离 计算方法包括: 比较所述文本向量与所述 k个聚类核心的距离, 选取最短的距离记为Di; 基于所述权 重Wi和所述距离Di得到所述非对称距离, 其计算公式为: R=Di×Wi 其中, R表示非对称距离 。 8.一种近似最邻近文本语义检索装置, 其特 征在于, 所述装置包括: 预处理模块, 用于提取文本库中文本数据, 采用词袋策略对所述文本数据进行预处理 生成文本向量; 权重计算模块, 用于计算所述文本向量在所述文本库中权 重; 乘积量化编码模块, 用于对所述文本向量的相关数据进行乘积量化编码处理, 生成乘 积量化编码数据; 近似最邻近检索模块, 用于基于所述权重和所述乘积量化编码数据, 利用多表乘积量 化算法对所述文本向量进行处 理, 实现针对文本向量的快速 近似最邻近检索。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一项所 述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115470315 A 3

PDF文档 专利 近似最邻近文本语义检索方法、装置、设备和存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 近似最邻近文本语义检索方法、装置、设备和存储介质 第 1 页 专利 近似最邻近文本语义检索方法、装置、设备和存储介质 第 2 页 专利 近似最邻近文本语义检索方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。