全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210272496.2 (22)申请日 2022.03.18 (71)申请人 医惠科技有限公司 地址 310000 浙江省杭州市滨江区阡 陌路 399号医惠中心A楼大堂19楼产业服务 中心 (72)发明人 郭亚强 甄化春 杨金义  (74)专利代理 机构 杭州创智卓英知识产权代理 事务所(普通 合伙) 33324 专利代理师 季健康 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/383(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 应用于不同业务系统的元数据匹配的方法 和系统 (57)摘要 本申请涉及一种应用于不同业务系统的元 数据匹配的方法和系统, 其中, 该方法包括: 根据 先验知识库构建训练集和测试集, 再根据训练集 和测试集, 训练得到混合算法模型; 获取待匹配 元数据, 查询先验知识库是否存在匹配结果; 若 是, 则直接返回匹配结果; 若否, 则通过粗排模型 从先验知识库中得到待匹配元数据的候选集, 再 通过混合算法模型从候选集中得到待匹配元数 据的匹配结果。 通过本申请, 解决了不同业务系 统间元数据匹配效率低和精度差的问题, 实现了 基于先验知识库和粗排模型从数据层面降低算 法的复杂度, 混合算法模型进一步提高匹配的准 确度。 权利要求书2页 说明书9页 附图4页 CN 114706979 A 2022.07.05 CN 114706979 A 1.一种应用于不同业 务系统的元 数据匹配的方法, 其特 征在于, 所述方法包括: 根据先验知识库构建训练集和测试集, 再根据所述训练集和所述测试集, 训练得到混 合算法模型; 获取待匹配元 数据, 查询所述先验知识库是否存在匹配结果; 若是, 则直接返回所述匹配结果; 若否, 则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集, 再通过 所述混合 算法模型从所述 候选集中得到所述待匹配元 数据的匹配结果。 2.根据权利要求1所述的方法, 其特征在于, 所述混合算法模型包括特征提取器和分类 器, 其中, 所述特征提取器包括编辑距离算法模型、 部首相似度算法模型和语义相似度算法 模型, 所述分类 器基于AdaBo ost算法训练得到 。 3.根据权利要求1所述的方法, 其特征在于, 通过粗排模型从所述先验知识库中得到所 述待匹配元 数据的候选集包括: 利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词, 根据所述分词的 结果, 通过基于BM25算法的粗 排模型筛 选出所述待匹配元 数据的候选集。 4.根据权利要求1所述的方法, 其特征在于, 通过所述混合算法模型从所述候选集中得 到所述待匹配元 数据的匹配结果包括: 通过编辑距离算法模型, 得到所述待匹配元 数据和所述 候选集的字面相似度特 征; 通过部首相似度算法模型, 将所述待 匹配元数据和所述候选集的词汇按照偏旁部首拆 分, 得到字形相似度特 征; 通过语义相似度算法模型, 将所述待 匹配元数据和所述候选集的词汇映射在高维的语 义空间内, 基于向量计算得到语义相似度特 征; 根据所述字面相似度特征、 所述字形相似度特征和所述语义相似度特征, 通过分类器 从所述候选集中得 出所述待匹配元 数据的匹配结果。 5.根据权利要求1所述的方法, 其特征在于, 根据所述训练集和所述测试集, 训练得到 混合算法模型包括: 根据所述训练集和所述测试集, 对语义相似度算法模型进行训练, 其中, 所述语义相似 度算法模 型为SimCS E算法模型, 所述SimCSE算法模型由预训练的Bert模 型和对比学习方法 组成; 根据所述训练集和所述测试集, 利用编辑距离算法模型、 部首相似度算法模型和语义 相似度算法模 型作为特征提取器, 对分类器进 行训练, 其中, 所述分类器为AdaBoost 算法模 型。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 将所述应用于不同系统的元数据匹配的方法和依赖环境, 通过容器技术集成到docker 容器中。 7.根据权利要求1所述的方法, 其特 征在于, 获取待匹配元 数据之后, 所述方法包括: 同一化所述待匹配元数据的标点符号, 统一所述待匹配元数据的字符表示, 删除所述 待匹配元 数据中重复和无效语义的字符, 得到处 理后的待匹配元 数据。 8.根据权利要求1所述的方法, 其特征在于, 在根据 先验知识库构建训练集和测试集之 前, 所述方法包括:权 利 要 求 书 1/2 页 2 CN 114706979 A 2获取书籍和互联网中的元数据, 通过数据清洗和校检得到所述元数据的数据同义词和 核心语义词汇, 进 而构建先验知识库。 9.根据权利要求1所述的方法, 其特征在于, 查询所述先验知识库是否存在匹配结果包 括: 通过全词匹配来 查询所述先验知识库是否存在匹配结果。 10.一种应用于不同业务系统 的元数据匹配的系统, 其特征在于, 所述系统包括模型训 练模块和元 数据匹配模块; 所述模型训练模块用于根据 先验知识库构建训练集和测试集, 再根据 所述训练集和所 述测试集, 训练得到混合 算法模型; 所述元数据匹配模块用于获取待匹配元数据, 查询所述先验知识库是否存在匹配结 果; 若是, 则直接返回所述匹配结果; 若否, 则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集, 再通过 所述混合 算法模型从所述 候选集中得到所述待匹配元 数据的匹配结果。权 利 要 求 书 2/2 页 3 CN 114706979 A 3

.PDF文档 专利 应用于不同业务系统的元数据匹配的方法和系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 应用于不同业务系统的元数据匹配的方法和系统 第 1 页 专利 应用于不同业务系统的元数据匹配的方法和系统 第 2 页 专利 应用于不同业务系统的元数据匹配的方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。