全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210421308.8 (22)申请日 2022.04.21 (71)申请人 河南数慧信息技 术有限公司 地址 450000 河南省郑州市高新 开发区瑞 达路96号 (72)发明人 李晓香 卫建华 姚宣亮 孙亚东  (74)专利代理 机构 郑州大通专利商标代理有限 公司 41111 专利代理师 张立强 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01)G06F 16/9537(2019.01) G06N 5/04(2006.01) (54)发明名称 基于地名地址数据库的检索与补全方法及 系统 (57)摘要 本发明公开一种基于地名地址数据库的检 索与补全方法及系统, 该方法包括: 构建地名地 址数据库; 构建地名地址数据库知识图谱; 根据 输入的检索内容判定输入类型; 若输入类型为地 名, 则查找输入地名的相似地名, 并计算查找到 的各相似地名的地名整体相似度, 按照地名整体 相似度由大到小进行排序后返回; 若输入类型为 地址, 则基于输入的检索内容进行分词和地址实 体标签确定, 去除省、 市、 县三个层级的地址分词 结果, 纠正县级以下地址错误输入, 补全从省到 最小地名实体信息, 基于权属关系的ti me属性进 行纠正, 计算地址整体相似度, 并按照地址整体 相似度由大到小进行排序后返回。 本发明可有效 解决现有地址检索存在的返回信息量过大、 信息 不全等问题。 权利要求书4页 说明书13页 附图2页 CN 114780680 A 2022.07.22 CN 114780680 A 1.一种基于地名地址数据库的检索与补全方法, 其特 征在于, 包括: 步骤A, 构建地名地址数据库; 所述数据库包含: 行政区域地名, 街路巷名或小区名, 标 志物名、 门牌 号或兴趣点名, 各级地名组成的地址; 步骤B, 构建地名地址数据库知识图谱; 所述知识图谱的实体包括省、 市、 县、 乡、 村5级 行政区划, 街路巷, 小区组, 标志物, 门牌, 兴趣点, 别称; 所述知识图谱的关系包括由具体地 名组成的标准地址具有的权属关系, 及地名与别称具有的等价关系; 所述权属关系具有 time属性和name属性, ti me属性为now或者before, 如果time属性为now, 则该权属关系具有 现势性, name属性值为该权属关系存在的起始时间, 如果time属性为before, 则该权属关系 为历史关系, name属性 值为该权属关系存在的时间段; 步骤C, 根据输入的检索内容判定 输入类型; 所述输入类型包括 地名、 地址; 步骤D, 若输入类型为地名, 则查找输入地名的相似地名, 并计算查找到的各相似地名 的地名整体相似度, 按照地名整体相似度由大到小 进行排序后返回; 步骤E, 若输入类型为地址, 则基于输入的检索内容进行分词和地址实体标签确定, 去 除省、 市、 县三个层级的地址分词结果, 纠正县级以下地址错误输入, 补全从省到最小地名 实体信息, 基于权属关系的t ime属性对输入的检索内容进 行纠正, 计算地址整体相似度, 并 按照地址整体相似度由大到小 进行排序后返回。 2.根据权利要求1所述的基于地名地址数据库的检索与补全方法, 其特征在于, 所述步 骤C包括: 采用bert +bilstm+CRF算法对输入的检索内容进行分词, 采用决策树的方法进行分类, 得到分类结果 为地名或地址 。 3.根据权利要求1所述的基于地名地址数据库的检索与补全方法, 其特征在于, 所述步 骤D包括: 步骤D1, 基于检索内容原语句、 音近字和形近字转换进行匹配, 查找输入地名的相似地 名候选项; 其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹 配得到; 形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得 到; 步骤D2, 将匹配到的别称结果更改为标准 地名; 步骤D3, 将音近 字和形近 字转换匹配到的省、 市、 县三个层级的地名去掉; 步骤D4, 计算音近字转换后的相似度a, 如果拼音相同, 则该字的编辑距离为1, 如果拼 音是通过平翘舌音和前后鼻音转换而来, 则该字的编辑距离为2, 当所有音近字转换后的编 辑距离之和大于 0时, a为所有 音近字转换后的编辑距离之和 加1的倒数, 否则a为1; 步骤D5, 计算形近字转换后的相似度b, 如果转换后的字与原字笔画数相同, 则编辑距 离为1, 否则为2, 当所有 形近字转换后的编辑距离之和大于0时, b为所有 形近字转换后的距 离之和加1的倒数, 否则 b为1; 步骤D6, 将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相 似度c: c=a×b; 步骤D7, 根据地名整体相似度由大到小进行排序, 若地名整体相似度小于设定的阈值, 则去除相应的地名候选项, 并将其 余地名候选项作为检索结果进行返回。权 利 要 求 书 1/4 页 2 CN 114780680 A 24.根据权利要求3所述的基于地名地址数据库的检索与补全方法, 其特征在于, 所述步 骤E包括: 步骤E1, 采用 bert+bilstm+CRF算法对输入的检索 内容进行分词, 利用音近字转换、 形 近字转换得出多个分词结果; 步骤E2, 地址实体标签确定: 根据分词结果匹配地名地址数据库知识图谱, 得到词级对 应的标签, 其中匹配的别称实体转化为与之相关的标准实体, 将地址实体集能够满足城市 或农村标准 地址标签组合 顺序的唯一子图作为 候选项地址分词结果; 步骤E3, 去除通过音近字和形近字转换得到的省、 市、 县三个层级的候选项地址分词结 果; 步骤E4, 纠正县级以下地址错误输入: 当原检索内容对应的候选项地址分词结果为空 时, 删除街道或者村的地址实体, 获取唯一子图作为 候选项地址分词结果; 步骤E5, 基于推理验证补全地名地址数据库: 当候选地址分词结果为空且输入地址信 息结构完整, 根据具体地址实体获取与位置临近具体地址, 推理输入信息是否正确, 若正确 则将分词结果及详细地址存储至地名地址数据库中, 同时对地名地址数据库知识图谱、 地 名音近字词典库、 地名形近 字词典库进行 联动更新, 并将分词结果作为 候选地址分词结果; 步骤E6, 补全地址: 利用唯一子图路径上的实体, 补全从省到最小地名实体信息; 步骤E7, 基于权属关系time属性进行输入地址纠正: 针对各级实体路径, 对于下级到上 级的权属关系, time属性为before的, 由下级到上级time属性为now的关联 实体替换上级实 体; 步骤E8, 排序: 计算音近字转换后的相似度a, 如果拼音相同, 则该字的编辑距离为1, 如果拼音是通过 平翘舌音和前后鼻音转换而来, 则该字的编辑距离为2, 当所有音近字转换后的编辑距离之 和大于0时, a为所有 音近字转换后的编辑距离之和 加1的倒数, 否则a为1; 计算形近字转换后的相似度b, 如果转换后的字与原字笔画数相同, 则编辑距离为1, 否 则为2, 当所有 形近字转换后的编辑距离之和大于0时, b为所有 形近字转换后的距离之和加 1的倒数, 否则 b为1; 计算补全相似度d, 当子图连续补全的实体个数大于1时, 所述补全相似度由子 图连续 补全的实体 个数的倒数计算得到, 否则d为1; 将音近字转换后的相似度a、 形近字转换后的相似度b及补全相似度 d的乘积作为地址 整体相似度e: e=a×b×d; 根据地址整体相似度由大到小进行排序, 若地址整体相似度小于设定的阈值, 则去 除 相应的地址候选项, 并将其 余地址候选项作为检索结果进行返回。 5.一种基于地名地址数据库的检索与补全系统, 其特 征在于, 包括: 地名地址数据库构建模块, 用于构建地名地址数据库; 所述数据库包含: 行政区域地 名, 街路巷名或小区名, 标志 物名、 门牌 号或兴趣点名, 各级地名组成的地址; 知识图谱构建模块, 用于构建地名地址数据库知识图谱; 所述知识图谱的实体包括省、 市、 县、 乡、 村5级行政区划, 街路巷, 小区组, 标志物, 门牌, 兴趣点, 别称; 所述知识图谱的关 系包括由具体地名组成的标准地址具有的权属关系, 及地名与别称具有的等价关系; 所述权 利 要 求 书 2/4 页 3 CN 114780680 A 3

.PDF文档 专利 基于地名地址数据库的检索与补全方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于地名地址数据库的检索与补全方法及系统 第 1 页 专利 基于地名地址数据库的检索与补全方法及系统 第 2 页 专利 基于地名地址数据库的检索与补全方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。