全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210951264.X (22)申请日 2022.08.09 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 宋胜康 徐程程  (74)专利代理 机构 深圳翼盛智成知识产权事务 所(普通合伙) 44300 专利代理师 李玉婷 (51)Int.Cl. G06F 16/9537(2019.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 地域信息识别方法、 装置、 电子设备和存储 介质 (57)摘要 本申请实施例公开了一种地域信息识别方 法、 装置、 电子设备和存储介质; 该方法包括: 获 取待识别文本以及待识别文本中的地域词; 对基 于地域词和待识别文本得到的融合数据进行语 义识别, 得到地域词对应的第一特征向量; 对地 域词与待识别文本之间的关联数据进行编码处 理, 得到地域词对应的第二特征向量; 基于地域 词对应的第一特征向量和所述第二特征向量, 计 算待识别文本与地域词的匹配度; 根据地域词的 匹配度, 从地域词中确定所述待识别文本的地域 信息。 在本申请实施例中融合了深层的语义特征 和基于关联数据编码得到的浅层特征, 使得地域 词和待识别文本的特征表达更加完整准确, 以提 升地域信息识别的准确度。 权利要求书2页 说明书16页 附图4页 CN 115292620 A 2022.11.04 CN 115292620 A 1.一种地 域信息识别方法, 其特 征在于, 所述方法包括: 获取待识别文本以及所述待识别文本中的地 域词; 对基于所述地域词和所述待识别文本得到的融合数据进行语义识别, 得到所述地域词 对应的第一特 征向量; 对所述地域词与所述待识别文本之间的关联数据进行编码处理, 得到所述地域词对应 的第二特 征向量; 基于所述地域词对应的第 一特征向量和所述第 二特征向量, 计算所述待识别文本与 所 述地域词的匹配度; 根据所述 地域词的匹配度, 从所述 地域词中确定所述待识别文本的地 域信息。 2.根据权利要求1所述的方法, 其特征在于, 基于所述地域词对应的第 一特征向量和所 述第二特 征向量, 计算所述待识别文本与所述 地域词的匹配度, 包括: 对所述第一特 征向量和所述第二特 征向量进行融合处 理, 得到目标 特征向量; 基于所述目标特征向量进行归一化处理, 得到所述待识别文本与所述地域词的匹配 度。 3.根据权利要求1所述的方法, 其特征在于, 所述融合数据包括第 一融合数据和第 二融 合数据, 所述对基于所述地域词和所述待识别文本得到的融合数据进行语义识别, 得到所 述地域词对应的第一特 征向量, 包括: 获取所述待识别文本的类别 信息以及发布者信息; 将所述类别 信息和所述 地域词填充至预设模板, 得到所述第一融合数据; 将所述待识别文本、 所述类别信 息以及所述待识别文本的发布者信 息按照所述预设模 板进行拼接, 得到所述第二融合数据; 对所述融合数据进行语义识别, 得到所述第一特 征向量。 4.根据权利要求1所述的方法, 其特征在于, 所述对所述地域词与所述待识别文本之间 的关联数据进行编码处 理, 得到所述 地域词对应的第二特 征向量, 包括: 按照预设规则, 从所述待识别文本中提取所述地域词与 所述待识别文本之间的关联数 据; 对所述关联 数据进行编码处 理, 得到所述第二特 征向量。 5.根据权利要求1 ‑4任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取第一模型以及第一样本集, 所述第一样本集包括指定待识别样本和标注地域词, 所述标注地 域词为所述指定待识别样本中唯一的地 域词; 通过所述第一模型对所述指定待识别样本进行地 域词的预测, 得到预测地 域词; 利用所述预测地域词和所述标注地域词, 对所述第一模型的模型参数进行调整, 得到 调整后的第一模型; 利用所述调整后的第一模型构建第二模型; 对所述第二模型进行参数调整, 得到匹配度计算模型, 所述匹配度计算模型用于计算 待识别文本中的地 域词和待识别文本的匹配度。 6.根据权利要求5所述的方法, 其特征在于, 所述对所述第二模型进行参数调整, 得到 匹配度计算模型, 包括: 获取第二样本集, 所述第二样本集包括样本地域词对应的样本融合数据、 样本地域词权 利 要 求 书 1/2 页 2 CN 115292620 A 2对应的样本关联 数据、 以及标签值; 基于所述第二模型, 对所述样本融合数据和所述样本关联数据进行融合处理, 得到预 测值; 基于所述预测值和所述标签值, 对所述第二模型的模型参数进行调整, 得到所述匹配 度计算模型。 7.一种地 域信息识别装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待识别文本以及所述待识别文本中的地 域词; 语义识别模块, 用于对基于所述地域词和所述待识别文本得到的融合数据进行语义识 别, 得到所述 地域词对应的第一特 征向量; 编码模块, 用于对所述地域词与所述待识别文本之间的关联数据进行编码处理, 得到 所述地域词对应的第二特 征向量; 计算模块, 用于基于所述地域词对应的第一特征向量和所述第二特征向量, 计算所述 待识别文本与所述 地域词的匹配度; 确定模块, 用于根据所述地域词的匹配度, 从所述地域词中确定所述待识别文本的地 域信息。 8.一种电子设备, 其特征在于, 包括处理器和存储器, 所述存储器存储有多条指令; 所 述处理器从所述存储器中加载指 令, 以执行如权利要求 1~6任一项 所述的地域信息识别方 法中的步骤。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有多条指令, 所述指令适于处理器进 行加载, 以执行权利要求 1~6任一项 所述的地域信息识别方法中的 步骤。 10.一种计算机程序产品, 其特征在于, 包括计算机程序/指令, 所述计算机程序/指令 被处理器执行时实现权利要求1~6任一项所述的地 域信息识别方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115292620 A 3

PDF文档 专利 地域信息识别方法、装置、电子设备和存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 地域信息识别方法、装置、电子设备和存储介质 第 1 页 专利 地域信息识别方法、装置、电子设备和存储介质 第 2 页 专利 地域信息识别方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。