全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211408063.1 (22)申请日 2022.11.10 (71)申请人 吉奥时空信息技 术股份有限公司 地址 430223 湖北省武汉市东湖开发区庙 山小区江夏大道武大 科技园 (72)发明人 杨伊态 刘高 陈胜鹏 付卓  许继伟 韩小乐  (74)专利代理 机构 武汉泰山北斗专利代理事务 所(特殊普通 合伙) 42250 专利代理师 董佳佳 (51)Int.Cl. G06F 16/9537(2019.01) G06F 16/9538(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于对比学习的地址匹配模型训练方 法 (57)摘要 本发明适用于地址匹配技术领域, 提供一种 基于对比学习的地址匹配模型训练方法, 包括: 步骤A1、 建立训练样本集; 步骤A2、 遍历训练样 本, 将待匹配地址对用 BERT模型处理, 得到两个 待匹配地址向量和两个统一地址向量; 步骤A3、 生成四组向量组, 针对每个向量组, 输入至ESIM 模型得到当前向量组的相似度; 步骤A4、 计算总 损失分数; 步骤A5、 使用 梯度下降法修改模型参 数, 减少总损失分数; 步骤A6、 对训练样本多轮遍 历; 步骤A7、 选择匹配正确率最高的参数版本作 为最终训练好的地址匹配模型。 本发 明在训练模 型时加入对比学习, 能够拉近编码器对同类数据 的编码距离, 且增加不同类数据的编码距离, 从 而提高了模型地址匹配的准确率。 权利要求书1页 说明书7页 附图2页 CN 115455315 A 2022.12.09 CN 115455315 A 1.一种基于对比学习的地址匹配模型训练方法, 其特 征在于, 所述方法包括下述 步骤: 步骤A1、 建立训练样本集, 样本格式为[待匹配地址, 统一地址, 标记],按比例将训练样 本集分为训练样本和验证样本; 步骤A2、 遍历训练样本, 其中待匹配地址和统一地址组成待 匹配地址对, 将待 匹配地址 对用BERT模型处 理, 得到两个待匹配地址向量和两个统一 地址向量; 步骤A3、 将待匹配地址向量和统一地址向量进行一一组合, 得到四组向量组, 针对每个 向量组, 输入至 ESIM模型 得到当前向量组的相似度; 步骤A4、 根据得到的四个相似度以及训练样本的标记数值, 计算得到四个交叉熵损失 值, 然后计算两个待匹配地址向量的KL散度损失值 以及两个统一地址向量的KL散度损失 值, 最后计算总损失分数; 步骤A5、 使用梯度下降法修改模型参数, 减少总损失分数; 步骤A6、 对训练样本多轮遍历, 每完成一次遍历, 使用验证样本验证地址匹配模型的匹 配正确率, 对于每条验证样 本, 如果总损失分数大于 设置阈值, 则输出的匹配结果为 1, 否则 输出的匹配结果为0; 如果输出的匹配结果与标记数值一致, 则表示匹配正确, 否则为匹配 错误; 步骤A7、 选择匹配正确率 最高的参数 版本作为 最终训练好的地址匹配模型。 2.如权利要求1所述基于对比学习的地址匹配模型训练方法, 其特征在于, 所述步骤A2 的具体过程如下: A21、 对于每一个待匹配地址对, 将其中的待匹配地址以及统一地址均分割成字, 得到 待匹配地址 字列表和统一 地址字列表; A22、 使用BERT模型的分词器, 将待匹配地址字列表和统一地址字列表分别转换为待匹 配地址字编码和统一 地址字编码; A23、 将待匹配地址字编码和统一地址字编码均分两次输入BERT模型, BERT模型每次随 机去掉部分神经 单元, 最后得到 两个待匹配地址向量和两个统一 地址向量。 3.如权利要求2所述基于对比学习的地址匹配模型训练方法, 其特征在于, 所述步骤A3 中, 两个待匹配地址向量以及两个统一 地址向量中均任选其 一进行组合, 得到四组向量组。 4.如权利要求3所述基于对比学习的地址匹配模型训练方法, 其特征在于, 步骤A4中, 总损失分数计算式如下: 其 中, loss1~loss4是四个交叉熵损失值, 是权重,  是两个待匹配地址向 量的KL散度损失值, 是两个统一 地址向量的KL散度损失值。 5.如权利要求4所述基于对比学习的地址匹配模型训练方法, 其特征在于, 步骤A6中, 总损失分数的设置阈值 为0.5。权 利 要 求 书 1/1 页 2 CN 115455315 A 2一种基于对比学习的地址匹配模型训练方 法 技术领域 [0001]本发明属于地址匹配技术领域, 尤其涉及 一种基于对比学习的地址匹配模型训练 方法。 背景技术 [0002]地址是城市治理系统的关键要素之一。 在城市管理系统中, 存储的文本统一地址 要素齐全, 结构规律有序, 而实际业务中收集的待匹配文本地址通常地址要素不完整且结 构多样化。 地址匹配, 就是输入待匹配文本地址, 从存储的统一地址库中匹配出对应的文本 统一地址。 [0003]如虚拟非标准地址 “阳光市沙滩区美丽庄园A20 1”, 地址库中其对应的虚拟标准地 址为“白露省阳光市沙滩区长江街道汉江 社区希望街1号美丽庄园A栋201 ”。 [0004]已有的地址匹配方法主 要分为两类。 [0005]第一类是单地址对匹配的方法。 单地址对匹配的方法主要解决一对一, 即一个待 匹配地址与一个统一地址是否匹配的问题。 这类方法通过设计机器学习算法或神经网络模 型, 判断输入的地址对是否匹配。 如基于文本向量相似度的地址匹配方法、 基于深度学习的 地址匹配方法等。 但是如果系统地址库中有100万条统一地址, 基于单地址对匹配的方法, 需要将待匹配地址与每一条存储的统一地址匹配, 即需要匹配100万次, 在可接受的响应时 间内难以满足实际业务。 因此基于单地址对匹配的方法难以解决一对多, 即一个待匹配地 址与多个统一 地址匹配的问题。 [0006]第二类是多地址对匹配方法。 这类方法主要解决一对多, 即一个待匹配地址与多 个统一地址匹配的问题。 已有的方法有两种, 第一种是通过设计的简单规则或算法, 待匹配 地址直接与所有统一地址比较, 然后选出匹配分数最高的统一地址作为匹配结果, 如基于 编辑距离的地址匹配方法。 这类方法响应快, 但匹配准确率较低。 第二种是先使用相对简单 的规则或算法从地址库中召回少部 分相似度较高的统一地址, 然后使用相对复杂的算法或 模型对待匹配地址和召回的统一地址一一匹配, 最后选出匹配分数最高的统一地址。 这种 方法在满足响应时间的同时, 准确率也较高, 但需要 先使用样本集训练模型。 而在实际业务 中, 构建训练样本集的人工开销大, 且很难获取足够的训练样本 。 [0007]为此, 申请号202211076531.X公开了一种基于召回 ‑排序的地址匹配方法, 通过使 用召回‑排序的方式, 先从地址库中使用ES模糊搜索召回K个可能匹配的统一地址, 再使用 匹配模型对K个统一地址计算与待匹配地址的相似度, 输出相似度最高的统一地址作为匹 配结果, 能够在保证匹配准确率较高的基础上, 提高了匹配效率。 但是该申请在 模型的训练 阶段, 直接是通过计算统一地址与待匹配地址的相似度进行排序, 输出相似度最高的统一 地址。 但这种计算方式没有充分挖掘语义特征, 对于差异较为模糊的文本区分 困难, 因此匹 配准确率 仍有待提高。说 明 书 1/7 页 3 CN 115455315 A 3

PDF文档 专利 一种基于对比学习的地址匹配模型训练方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于对比学习的地址匹配模型训练方法 第 1 页 专利 一种基于对比学习的地址匹配模型训练方法 第 2 页 专利 一种基于对比学习的地址匹配模型训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。