全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210374341.X (22)申请日 2022.04.11 (71)申请人 贝壳技术有限公司 地址 300457 天津市滨 海新区经济技 术开 发区南港工业区综合服务区办公楼C 座一层112室05单元 (72)发明人 赵桐阅 何巍巍  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 谢志超 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01) G06F 16/36(2019.01)G06F 16/31(2019.01) G06F 16/903(2019.01) (54)发明名称 基于即时通信消息的意图识别与命名实体 提取方法及装置 (57)摘要 本发明提供一种基于即时通信消息的意图 识别与命名实体提取方法及装置, 该方法包括: 获取即时通信消息对应的文本后在正则表达式 语料库中进行匹配, 获取匹配的正则表达式; 其 中, 正则表达式语料库包括对即时通信消息样本 正则化处理得到的正则表达式集合, 其中的正则 表达式划分了用户意图; 根据匹配的正则表达式 获取用户意图; 根据匹配的正则表达式进行至少 一个类别的命名实体的提取; 利用根据命名实体 样本预先建立的字典树对命名实体进行二次检 索匹配, 获取字典树中命名实体中的字符按原顺 序出现的至少一个字符串; 将命名实体修正为与 命名实体相似度最高的字 符串。 本发 明实现了用 户意图和命名实体的快速、 精确提取。 权利要求书2页 说明书12页 附图4页 CN 114970531 A 2022.08.30 CN 114970531 A 1.一种基于即时通信消息的意图识别与命名实体提取 方法, 其特 征在于, 包括: 获取即时通信消息对应的文本; 将所述文本在正则表达式语料库中进行匹配, 获取匹配的正则表达式; 其中, 所述正则 表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合, 且所述正则表 达式集合中的正则表达式划分了用户意图; 根据所述匹配的正则表达式获取对应的用户意图; 根据所述匹配的正则表达式进行至少一个 类别的命名实体的提取; 利用根据命名实体样本预先建立的字典树对所述命名实体进行二 次检索匹配, 获取所 述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串; 将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最 高的字符串。 2.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法, 其特征 在于, 在所述根据所述匹配的正则表达式获取对应的用户意图之后、 所述根据所述匹配的 正则表达式进行至少一个类别的命名实体的提取之前, 所述方法还包括: 根据所述用户意 图获取对应的用于执行自动化响应的API地址; 根据所述API地址获取待提取的所述命名实 体的所述类别; 在所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相 似度最高的字符串之后, 所述方法还包括: 将所述命名实体作为请求所述API地址的入参, 请求执行所述API地址对应的所述自动化响应。 3.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法, 其特征 在于, 所述 正则表达式集 合中的正则表达式以文本样式存 储在数据库表中; 所述将所述文本在正则表达式语料库中进行匹配, 获取匹配的正则表达式, 包括: 利用 数据库的正则检索功能将所述文本在正则表达式语料库中进 行匹配, 获取匹配的正则表达 式。 4.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法, 其特征 在于, 所述 根据所述匹配的正则表达式进行至少一个 类别的命名实体的提取, 包括: 基于预先标注的不同类别命名实体在所述正则表达式中的位置进行至少一个类别的 命名实体的提取。 5.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法, 其特征 在于, 所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似 度最高的字符串, 包括: 通过计算所述至少一个字符串的TF ‑IDF分数获取排序靠前的预设个数的字符串; 计算所述命名实体与 所述预设个数的字符串的相似度, 并将所述命名实体的数据内容 修正为所述至少一个字符串中与当前 数据内容相似度最高的字符串。 6.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法, 其特征 在于, 所述将所述文本在正则表达式语料库中进行匹配, 获取匹配的正则表达式, 包括: 将所述文本在与场景对应的正则表达 式语料库中进行匹配, 并根据场景的优先级获取 所述匹配的正则表达式。 7.一种基于即时通信消息的意图识别与命名实体提取装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114970531 A 2文本获取模块, 用于: 获取即时通信消息对应的文本; 正则匹配模块, 用于: 将所述文本在正则表达式语料库中进行匹配, 获取匹配的正则表 达式; 其中, 所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达 式集合, 且所述 正则表达式集 合中的正则表达式划分了用户意图; 意图识别模块, 用于: 根据所述匹配的正则表达式获取对应的用户意图; 命名实体提取模块, 用于: 根据所述匹配的正则表达式进行至少一个类别的命名实体 的提取; 字典树二次匹配模块, 用于: 利用根据命名实体样本预先建立的字典树对所述命名实 体进行二次检索匹配, 获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个 字符串; 命名实体修正模块, 用于: 将所述命名实体的数据内容修正为所述至少一个字符串中 与当前数据内容相似度最高的字符串。 8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所 述基于即时通信消息的意图识别与命名实体提取 方法的步骤。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处理器执行时实现如权利要求1至6任一项所述基于即时通信消息的意图识别与命 名实体提取 方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至6任一项所述基于即时通信消息的意图识别与命名实体提取方法 的步骤。权 利 要 求 书 2/2 页 3 CN 114970531 A 3

.PDF文档 专利 基于即时通信消息的意图识别与命名实体提取方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于即时通信消息的意图识别与命名实体提取方法及装置 第 1 页 专利 基于即时通信消息的意图识别与命名实体提取方法及装置 第 2 页 专利 基于即时通信消息的意图识别与命名实体提取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。