全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211018372.8 (22)申请日 2022.08.24 (71)申请人 阳光保险集团股份有限公司 地址 518000 广东省深圳市福田区红荔西 路7002号第一世界广场A座17层 (72)发明人 韩佳 杜新凯 吕超 谷姗姗  张晗 史辉  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 吕爱霞 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 16/903(2019.01) (54)发明名称 一种提取关键词的方法、 电子设备及 介质 (57)摘要 本申请实施例提供一种提取关键词的方法、 电子设备及介质, 该方法包括: 获取待提取文档 并且将待提取文档进行分词处理, 获得多个候选 字符串; 获取第一候选字 符串邻域范围内的至少 一个候选字符串, 其中, 第一候选字符串为多个 候选字符串中的任意一个; 基于在邻域范围内第 一候选字符串与至少一个候选字符串中各候选 字符串共同出现的次数和语义依存关系, 计算第 一候选字符串的权重值, 其中, 权重值用于表征 第一候选字符串对于获取待提取文档的语义的 重要性; 依据权重值从多个候选字符串中筛选出 关键词。 通过本申请的一些实施例能够提高关键 词筛选的准确率。 权利要求书2页 说明书10页 附图3页 CN 115392242 A 2022.11.25 CN 115392242 A 1.一种提取关键词的方法, 其特 征在于, 所述方法包括: 获取待提取文档并且将所述待提取文档进行分词处 理, 获得多个候选 字符串; 获取第一候选字符串邻域范围内的至少一个候选字符串, 其中, 所述第一候选字符串 为所述多个候选 字符串中的任意 一个; 基于在邻域范围内所述第一候选字符串与所述至少一个候选字符串中各候选字符串 共同出现的次数和语义依存关系, 计算所述第一候选字 符串的权重值, 其中, 所述权重值用 于表征所述第一 候选字符串对于获取 所述待提取文档的语义的重要性; 依据所述权 重值从所述多个候选 字符串中筛 选出关键词。 2.根据权利要求1所述的方法, 其特征在于, 所述获取第 一候选字符串邻域范围内的至 少一个候选 字符串, 包括: 通过滑动预置 长度的滑窗限定所述领域范围; 获取与所述第一 候选字符串共同出现在所述滑窗内的所述至少一个候选 字符串。 3.根据权利要求1 ‑2任一项所述的方法, 其特征在于, 所述至少一个候选字符串包括第 二候选字符串, 其中, 所述第二 候选字符串为所述至少一个候选 字符串中的任意 一个; 所述基于在邻域范围内所述第一候选字符串与所述至少一个候选字符串中各候选字 符串共同出现的次数和语义依存关系, 计算所述第一 候选字符串的权 重值, 包括: 统计所述第 一候选字符串与 所述第二候选字符串在所述滑窗中共同出现的次数总和, 得到共现次数; 获取与所述第一候选字符串存在语义依存关系的第二候选字符串得到目标第二候选 字符串, 并且依据所述目标第二 候选字符串对应的预设赋值得到语义依存分数; 根据所述共现次数与所述语义依存分数计算所述第一 候选字符串的权 重值。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述共现次数与 所述语义依存分 数计算所述第一 候选字符串的权 重值, 包括: 通过所述共现次数与所述语义依存分数计算所述第二 候选字符串对应的权 重值; 将每个所述第 二候选字符串对应的权重值输入到字符串权重模型中, 通过所述字符串 权重模型计算所述第一 候选字符串的权 重值。 5.根据权利要求4所述的方法, 其特征在于, 所述通过所述共现次数与 所述语义依存分 数计算所述第二 候选字符串对应的权 重值, 包括: 将所述共现次数与共现次数权 重相乘, 获得第一乘积; 将所述语义依存分数与语义依存分数权 重相乘, 获得第二乘积; 将所述第一乘积与所述第二乘积相加, 获得 所述第二 候选字符串对应的权 重值。 6.根据权利要求2 ‑5任一项所述的方法, 其特征在于, 每个所述存在语义依存关系的第 二候选字符号串的所述预设赋值均为1; 所述依据所述目标第二 候选字符串对应的预设赋值得到语义依存分数, 包括: 统计所述目标第二 候选字符串的个数, 并且将所述个数作为所述语义依存分数。 7.根据权利要求2 ‑5任一项所述的方法, 其特征在于, 在所述获得多个候选字符串之前 所述方法还 包括: 通过筛选规则对分词处 理后的字符串 进行筛选, 获得所述多个候选 字符串。 8.根据权利要求2 ‑5所述的方法, 其特征在于, 在依据所述权重值从所述多个候选字符权 利 要 求 书 1/2 页 2 CN 115392242 A 2串中筛选出关键词之后, 所述方法还 包括: 将所述关键词标记在所述待提取文档 中, 并且将相邻的多个关键词进行合并, 获得目 标关键词。 9.一种电子设备, 其特 征在于, 包括: 处 理器、 存储器和总线; 所述处理器通过所述总线与所述存储器相连, 所述存储器存储有计算机程序, 所述计 算机程序由所述处 理器执行时可实现如权利要求1 ‑8任一项所述方法。 10.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被执 行时可实现如权利要求1 ‑8任一项所述方法。权 利 要 求 书 2/2 页 3 CN 115392242 A 3

PDF文档 专利 一种提取关键词的方法、电子设备及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种提取关键词的方法、电子设备及介质 第 1 页 专利 一种提取关键词的方法、电子设备及介质 第 2 页 专利 一种提取关键词的方法、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。