全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210303330.2 (22)申请日 2022.03.24 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 林阔  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 沈园园 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/36(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文档的排序方法及装置 (57)摘要 本申请提供了一种文档的排序方法及 装置, 其中, 该方法包括: 对查询语句进行分词处理, 得 到N个片段; 从预设的离线词表中确定出与N个片 段匹配的M个片段, 以及与M个片段分别对应的分 数; 基于M个片段分别对应的分数和预设映射关 系确定M个片段所对应的第一参数值; 基于M个片 段和第一参数值对多个候选文档进行排序。 通过 本申请, 解决了现有技术中以查询语句中两个相 邻词在文档中的距离作为紧密度评价标准导致 的召回结果 不精确的技 术问题。 权利要求书2页 说明书9页 附图8页 CN 114625859 A 2022.06.14 CN 114625859 A 1.一种文档的排序方法, 其特 征在于, 包括: 对查询语句进行分词处 理, 得到N个片段; 从预设的离线词表中确定出与所述N个片段匹配的M个片段, 以及与所述M个片段分别 对应的分数; 其中, 所述离线词表中包括多个目标候选片段以及与所述多个目标候选片段 对应的分数, 所述 N为正整数, M为小于或等于N的正整数; 基于所述M个片段分别对应的分数和预设映射关系确定所述M个片段所对应的第一参 数值; 其中, 所述预设映射关系用于表征片段的分数与第一参数之间的映射关系, 所述第一 参数值用于表征相隔所述 参数值距离的词与待查询片段匹配; 基于所述M个片段和所述第一 参数值对多个候选文档进行排序。 2.根据权利要求1所述的方法, 其特征在于, 在从预设的离线词表中确定出与所述N个 片段匹配的M个片段, 以及与所述M个片段分别对应的分数之前, 所述方法还 包括: 获取离线 文档库; 对所述离线文档库中的文档进行分词处理, 得到第 一分词结果; 其中, 所述第 一分词结 果中包括所述多个候选片段; 对所述多个候选片段进行计算, 得到与所述多个候选片段分别对应的分数; 从所述多个候选片段中筛 选出分数 大于第一预设阈值的多个所述目标候选片段。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述多个候选片段进行计算, 得到 与所述多个候选片段分别对应的分数包括: 基于点间互信息计算所述 候选片段对应的第一特 征值; 基于信息熵计算所述 候选片段对应的第二特 征值; 基于词频计算所述 候选片段对应的第三特 征值; 基于逆文档频率计算所述 候选片段对应的第四特 征值; 基于所述第 一特征值、 所述第 二特征值、 所述第 三特征值、 所述第四特征值确定所述候 选片段对应的分数。 4.根据权利要求3所述的方法, 其特征在于, 所述基于点间互信 息计算所述候选片段对 应的第一特 征值, 包括: 通过以下公式计算所述 候选片段对应的第一特 征值: PMI(x, y)=P(y|x)/P(x); 其中, 所述x和所述y为所述候选片段中的词组, 所述PMI是指在所述x出现的情况下, 所 述y出现的概率; 所述P(y|x)是指所述x和所述y一起出现的概率; 所述P(x)是指所述x出现 的概率。 5.根据权利要求3所述的方法, 其特征在于, 基于信 息熵计算所述候选片段对应的第 二 特征值, 包括: 通过以下公式计算所述候选片段对应的所述第二特征值, 所述第二特征值为所述EL和 所述ER中的较小值: 权 利 要 求 书 1/2 页 2 CN 114625859 A 2其中, 所述EL是指左熵, 所述ER是指右熵; W是指所述候选短语; 所述z是指所述候选短语 W的上下文, 所述a是指代表所述候选短语W左侧的词, 所述b代表所述候选短语W右侧的词; 所述N是指上下文缺失, 所述aW是指上文缺失, 所述 Wb是指下文缺失。 6.根据权利要求3所述的方法, 其特征在于, 所述对所述第 一特征值、 所述第 二特征值、 所述第三特 征值、 所述第四特 征值确定所述 候选片段对应的分数包括: 对所述第 一特征值、 所述第 二特征值、 所述第 三特征值、 所述第四特征值进行归一化处 理; 将归一化后的所述第一特征值、 归一化后的所述第二特征值、 归一化后的所述第三特 征值、 归一 化后的所述第四特 征值求和得到所述 候选片段对应的分数。 7.根据权利要求2所述的方法, 其特征在于, 所述基于所述M个片段和所述第一参数值 对多个候选文档进行排序包括: 从多个目标文档中筛选出所述多个候选文档; 其中, 所述候选文档包括所述M个片段, 且所述M个片段 所对应的第一 参数值小于或等于预设阈值; 基于所述第一 参数值对所述多个候选文档进行排序。 8.一种文档的排序装置, 其特 征在于, 包括: 第一处理模块, 用于对查询语句进行分词处 理, 得到N个片段; 第一确定模块, 用于从预设的离线词表中确定出与所述N个片段匹配的M个片段, 以及 与所述M个片段分别对应的分数; 其中, 所述离线词表中包括多个目标候选片段以及与所述 多个目标候选片段对应的分数, 所述 N为正整数, M为小于或等于N的正整数; 第二确定模块, 用于基于所述M个片段分别 对应的分数和预设映射关系确定所述M个片 段所对应的第一参数值; 其中, 所述预设 映射关系用于表征片段 的分数与第一参数之间的 映射关系, 所述第一 参数值用于表征相隔所述 参数值距离的词与待查询片段匹配; 排序模块, 用于基于所述M个片段和所述第一 参数值对多个候选文档进行排序。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执 行存储器上所存放的程序时, 实现权利要求1 ‑7任一所述的方法步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1 ‑7中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 114625859 A 3

.PDF文档 专利 一种文档的排序方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文档的排序方法及装置 第 1 页 专利 一种文档的排序方法及装置 第 2 页 专利 一种文档的排序方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。