全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211154645.1 (22)申请日 2022.09.21 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 娄杰 戴岱 贾巍 陆垚杰  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 张润 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/31(2019.01) (54)发明名称 信息抽取的方法、 装置、 电子设备及存储介 质 (57)摘要 本公开提供了一种信息抽取的方法、 装置、 电子设备及存储介质, 涉及计算机技术领域, 尤 其涉及自然语 言处理、 深度学习等人工智能技术 领域, 可用于智慧城市场景。 包括: 将抽取目标及 待抽取文本进行联合编码, 以获取待抽取文本中 每个字符的第一编码向量及抽取目标的第二编 码向量; 确定每两个第一编码向量间的第一匹配 度、 及每个第一编码向量与第二编码向量间的第 二匹配度; 根据第一匹配度, 确定待抽取文本中 包含的片段及第一参考结构文本; 根据片段中每 个字符对应的第一编码向量与第二编码向量间 的第二匹配度, 确定第二参考结构文本; 根据第 一参考结构文本及第二参考结构文本, 确定目标 三元组。 由此, 可以快速、 准确地对从待抽取文本 进行信息抽取。 权利要求书4页 说明书12页 附图3页 CN 115481184 A 2022.12.16 CN 115481184 A 1.一种信息抽取的方法, 包括: 将当前的抽取目标及待抽取文本进行联合编码, 以获取所述待抽取文本 中每个字符对 应的第一编码向量及所述抽取目标对应的第二编码向量; 确定每两个所述第 一编码向量间的第 一匹配度、 及每个所述第 一编码向量与 所述第二 编码向量间的第二匹配度; 根据所述第一匹配度, 确定所述待抽取文本中包 含的片段及第一 参考结构文本; 根据所述片段中每个字符对应的第 一编码向量与 所述第二编码向量间的第 二匹配度, 确定第二 参考结构文本; 根据所述第 一参考结构文本及所述第 二参考结构文本, 确定所述抽取目标对应的目标 三元组。 2.如权利要求1所述的方法, 其中, 所述确定每两个所述第一编码向量间的第一匹配 度、 及每个所述第一编码向量与所述第二编码向量间的第二匹配度, 包括: 确定每个所述第一编码向量属于三元组中每 个类型元素的概率值; 根据每两个第 一编码向量属于同一类型元素的概率值, 确定每两个所述第 一编码向量 间的第一匹配度; 确定第一匹配度大于第一阈值的两个第一编码向量分别与所述第二编码向量间的第 二匹配度。 3.如权利要求2所述的方法, 其中, 所述根据每两个第 一编码向量属于同一类型元素的 概率值, 确定每两个所述第一编码向量间的第一匹配度, 包括: 将一个第一编码向量属于第 一类型元素的起始字符的概率值, 与另一个第 一编码向量 属于所述第一类型元素的终止字符的概率值的乘积, 确定为所述一个第一编码向量与所述 另一个第一编码向量间的第一匹配度。 4.如权利要求2所述的方法, 其中, 所述确定第 一匹配度 大于第一阈值的两个第 一编码 向量分别与所述第二编码向量间的第二匹配度, 包括: 从所述抽取目标中, 确定出与所述两个第一编码向量所属的元素类型关联的候选标 签; 确定所述两个第一编码向量, 分别与所述候选标签中的起止字符对应的第 二编码向量 间的第二匹配度。 5.如权利要求4所述的方法, 其中, 所述从所述抽取目标中, 确定出与所述两个第一编 码向量所属的元 素类型关联的候选标签, 包括: 在所述抽取目标中的第 一标签对应的属性, 与 所述两个第 一编码向量所属的元素的类 型匹配的情况 下, 确定所述第一标签为所述两个第一编码向量关联的一个候选标签。 6.如权利要求1所述的方法, 其中, 所述根据所述第一匹配度, 确定所述待抽取文本中 包含的片段及第一 参考结构文本, 包括: 确定第一匹配度大于第一阈值的两个第一编码向量分别对应的两个字符; 将所述两个字符及所述待抽取文本中位于所述两个字符之间的字符, 确定为一个片 段; 在两个片段的起始字符间的第 一匹配度、 及终止字符间的第 一匹配度均大于第 二阈值 的情况下, 确定所述两个片段为 一个第一 参考结构文本 。权 利 要 求 书 1/4 页 2 CN 115481184 A 27.如权利要求1所述的方法, 其中, 所述根据 所述片段中每个字符对应的第 一编码向量 与所述第二编码向量间的第二匹配度, 确定第二 参考结构文本, 包括: 在所述抽取目标中第 二标签的起始字符与第 一片段的起始字符间的第 二匹配度、 及所 述第二标签的终止字符与所述第一片段 的终止字符间的第二匹配度均大于第三阈值的情 况下, 确定所述第二标签与所述第一片段为 一个第二 参考结构文本 。 8.如权利要求1所述的方法, 其中, 所述根据 所述第一参考结构文本及所述第 二参考结 构文本, 确定所述抽取目标对应的目标三元组, 包括: 将包含同一片段的一个第 一参考结构文本及一个第 二参考结构文本进行组合, 以生成 候选三元组, 一个候选三元组中包括 一个指定类型的片段及一个关系标签; 根据每个候选三元组中指定类型的片段与关系标签间的第 三匹配度, 对候选三元组进 行过滤, 以确定目标三元组。 9.如权利要求8所述的方法, 其中, 所述根据每个候选三元组中指定类型的片段与关系 标签间的第三匹配度, 对候选三元组进行 过滤, 以确定目标三元组, 包括: 将第一候选三元组中指定类型的片段的起始字符对应的第 一编码向量, 与 所述第一候 选三元组中关系标签的起始字符对应的第二编 码向量间的乘积, 确定为所述第一候选三元 组对应的一个第三匹配度; 将所述指定类型的片段的终止字符对应的第 一编码向量, 与 所述关系标签的终止字符 对应的第二编码向量间的乘积, 确定为所述第一 候选三元组对应的另一个第三匹配度; 在所述一个第 三匹配度及另一个第 三匹配度均 大于第四阈值的情况下, 确定所述第 一 候选三元组为 一个目标三元组。 10.一种信息抽取的装置, 包括: 获取模块, 用于将当前的抽取目标及待抽取文本进行联合编码, 以获取所述待抽取文 本中每个字符对应的第一编码向量及所述抽取目标对应的第二编码向量; 第一确定模块, 用于确定每两个所述第一编码向量间的第一匹配度、 及每个所述第一 编码向量与所述第二编码向量间的第二匹配度; 第二确定模块, 用于根据所述第一匹配度, 确定所述待抽取文本中包含的片段及第一 参考结构文本; 第三确定模块, 用于根据所述片段中每个字符对应的第 一编码向量与 所述第二编码向 量间的第二匹配度, 确定第二 参考结构文本; 第四确定模块, 用于根据所述第一参考结构文本及第二参考结构文本, 确定所述抽取 目标对应的目标三元组。 11.如权利要求10所述的装置, 其中, 所述第一确定模块, 包括: 第一确定单元, 用于确定每个所述第一编码向量属于三元组中每个类型元素的概率 值; 第二确定单元, 用于根据每两个第一编码向量属于同一类型元素的概率值, 确定每两 个所述第一编码向量间的第一匹配度; 第三确定单元, 用于确定第 一匹配度 大于第一阈值的两个第 一编码向量分别与所述第 二编码向量间的第二匹配度。 12.如权利要求1 1所述的装置, 其中, 所述第二确定单 元, 具体用于:权 利 要 求 书 2/4 页 3 CN 115481184 A 3

.PDF文档 专利 信息抽取的方法、装置、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息抽取的方法、装置、电子设备及存储介质 第 1 页 专利 信息抽取的方法、装置、电子设备及存储介质 第 2 页 专利 信息抽取的方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:01:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。