全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211030688.9 (22)申请日 2022.08.26 (71)申请人 维正知识产权科技有限公司 地址 518051 广东省深圳市南 山区西丽 街 道西丽社区留仙大道创智云城1标段1 栋D座1901 (72)发明人 陈鹤 黄焱科 夏志杰  (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 16/335(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本排重方法 (57)摘要 本申请涉及 文字处理技术领域, 尤其涉及一 种文本排重方法, 包括如下步骤: 根据预设的切 分标签, 将待排重文本切分成与所述切分标签对 应的排重段落; 通过语义匹配模型, 获取各个所 述排重段落的段落向量及各个对比文本相对应 段落的段落向量; 依据所述段落向量获取段落向 量余弦相似度, 并与查重阈值对比; 将大于所述 查重阈值的所述段落向量余弦相似度对应的所 述对比文本加入 结果列表; 循环上述步骤直至所 述段落向量余弦相似度小于或等于所述查重阈 值; 输出所述结果列表中的所述对比文本作为排 重结果。 本申请提供的文本排重方法, 能够有效 识别同义句、 单句语义及段落语义, 提高文本排 重效率。 权利要求书2页 说明书12页 附图4页 CN 115358334 A 2022.11.18 CN 115358334 A 1.一种文本排重方法, 其特 征在于, 包括如下步骤: 选择待排重文本的其中一个排重段落作为当前排重段落; 从比对列表中获取一 篇对比文本作为当前对比文本; 通过语义匹配模型, 获取所述当前排重段落与 所述当前对比文本相对应段落之间的段 落向量余弦相似度, 并与查重阈值对比; 将大于所述查重阈值对应的所述当前对比文本加入结果列表, 并将所述当前对比文本 从所述比对列表中移除; 将另一个所述 排重段落作为所述当前排重段落; 循环上述 步骤直至 达到预设排重要求; 输出所述结果列表中的所述对比文本作为 排重结果; 其中, 所述排重段落为根据预设的切分标签, 将所述待排重文本切分成与所述切分标 签对应的若干个段落。 2.根据权利要求1所述的文本排重方法, 其特征在于, 所述通过语义匹配模型, 获取所 述当前排重段落与所述当前对比文本相对应段落的段落向量余弦相似度, 并与查重阈值对 比包括: 通过语义匹配模型, 获取 所述当前排重段落的段落向量作为第一段落向量; 通过语义匹配模型, 获取所述当前对比文本与 所述当前排重段落相对应段落的段落向 量作为第二段落向量; 依据所述第 一段落向量和所述第 二段落向量, 结合余弦相似度算法获取段落向量余弦 相似度, 作为第一相似度并与查重阈值对比; 并且, 所述将大于所述查重阈值对应的所述当前对比文本加入结果列表, 并将所述当 前对比文本从所述比对列表中移除包括: 将大于所述查重阈值的所述第 一相似度对应的所述当前对比文本加入所述结果列表, 并将所述当前对比文本从所述比对列表中移除。 3.根据权利要求1所述的文本排重方法, 其特征在于, 所述预设排重要求包括所有所述 排重段落均已作为过 所述当前排重段落, 所述循环上述 步骤直至 达到预设排重要求包括: 循环上述 步骤直至所有所述 排重段落均已作为过 所述当前排重段落。 4.根据权利要求1所述的文本排重方法, 其特征在于, 所述预设排重要求包括所述结果 列表中的所述对比文本达到预设排重数量, 所述循环上述步骤直至达到预设排重要求包 括: 循环上述 步骤直至所述结果列表中的所述对比文本 达到所述预设排重数量。 5.根据权利要求1所述的文本排重方法, 其特征在于, 在所述选择待排重文本的其中一 个排重段落作为当前排重段落之前还 包括: 选择其中一个所述对比标签作为当前比对标签; 选择所述待排重文本与所述当前比对标签对应的段落作为当前比对段落; 通过语义匹配模型, 获取所述当前比对段落及所述对比文本相对应段落之间的段落向 量余弦相似度, 并与初筛阈值对比; 将大于所述初筛阈值对应的所述对比文本加入所述比对列表; 依序将另一个所述对比标签作为所述当前比对标签;权 利 要 求 书 1/2 页 2 CN 115358334 A 2循环上述 步骤直至 达到预设中断条件; 其中, 所述对比标签包括若干个依序排列的所述切分标签。 6.根据权利要求5所述的文本排重方法, 其特征在于, 所述通过语义匹配模型, 获取所 述当前比对段落及所述对比文本相对应段落之 间的段落向量余弦相似度, 并与初筛阈值对 比包括: 通过语义匹配模型, 获取 所述当前比对段落的段落向量作为第三段落向量; 通过语义匹配模型, 获取所述对比文本与 所述当前比对段落相对应段落的段落向量作 为第四段落向量; 依据所述第 三段落向量和所述第四段落向量, 结合余弦相似度算法获取段落向量余弦 相似度, 作为第二相似度并与初筛阈值对比; 并且, 所述将大于所述初筛阈值对应的所述对比文本加入所述比对列表包括: 将大于所述初筛阈值的所述第二相似度相对应的所述对比文本加入所述比对列表。 7.根据权利要求5所述的文本排重方法, 其特征在于, 所述预设中断条件包括所述比对 列表中的所述对比文本数量达到预设数量级, 所述循环上述步骤直至达到预设中 断条件包 括: 循环上述 步骤直至所述比对列表中的所述对比文本数量达 到所述预设数量级。 8.根据权利要求5所述的文本排重方法, 其特征在于, 所述预设中断条件包括所述切分 标签均已作为过 所述当前比对标签, 所述循环上述 步骤直至 达到预设中断条件 包括: 循环上述 步骤直至所述切分标签均已作为过 所述当前比对标签。 9.根据权利要求1所述的文本排重方法, 其特征在于, 所述语义匹配模型的预训练模型 由多层Transformer网络组成, 每一层所述Transformer网络的输出直接作为下一层所述 Transformer 网络的输入, 且最后一层所述Transformer 网络输出字向量, 所述段落向量为 各个所述字向量的平均值。 10.根据权利要求9所述的文本排重方法, 其特征在于, 所述预训练模型的训练步骤包 括: 将两个所述段落向量以及它 们之间的差向量 拼接成特 征向量; 将所述特 征向量乘以权 重矩阵, 得到中间结果; 将所述中间结果通过分类函数处理, 将所述中间结果通过分类函数处理, 获取所述当 前排重段落与所述当前对比文本相对应段落之间的类别概 率; 其中所述类别概 率为所述当前排重段落与所述当前对比文本相对应段落的相似概 率。权 利 要 求 书 2/2 页 3 CN 115358334 A 3

PDF文档 专利 一种文本排重方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本排重方法 第 1 页 专利 一种文本排重方法 第 2 页 专利 一种文本排重方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。