专利应用于不同业务系统的元数据匹配的方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210272496.2 (22)申请日 2022.03.18 (71)申请人医惠科技有限公司地址 310000 浙江省杭州市滨江区阡陌路 399号医惠中心A楼大堂19楼产业服务中心 (72)发明人郭亚强　甄化春　杨金义　 (74)专利代理机构杭州创智卓英知识产权代理事务所(普通合伙) 33324 专利代理师季健康 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/383(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称应用于不同业务系统的元数据匹配的方法和系统 (57)摘要本申请涉及一种应用于不同业务系统的元数据匹配的方法和系统，其中，该方法包括：根据先验知识库构建训练集和测试集，再根据训练集和测试集，训练得到混合算法模型；获取待匹配元数据，查询先验知识库是否存在匹配结果；若是，则直接返回匹配结果；若否，则通过粗排模型从先验知识库中得到待匹配元数据的候选集，再通过混合算法模型从候选集中得到待匹配元数据的匹配结果。通过本申请，解决了不同业务系统间元数据匹配效率低和精度差的问题，实现了基于先验知识库和粗排模型从数据层面降低算法的复杂度，混合算法模型进一步提高匹配的准确度。权利要求书2页说明书9页附图4页 CN 114706979 A 2022.07.05 CN 114706979 A 1.一种应用于不同业务系统的元数据匹配的方法，其特征在于，所述方法包括：根据先验知识库构建训练集和测试集，再根据所述训练集和所述测试集，训练得到混合算法模型；获取待匹配元数据，查询所述先验知识库是否存在匹配结果；若是，则直接返回所述匹配结果；若否，则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集，再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。 2.根据权利要求1所述的方法，其特征在于，所述混合算法模型包括特征提取器和分类器，其中，所述特征提取器包括编辑距离算法模型、部首相似度算法模型和语义相似度算法模型，所述分类器基于AdaBo ost算法训练得到。 3.根据权利要求1所述的方法，其特征在于，通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集包括：利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词，根据所述分词的结果，通过基于BM25算法的粗排模型筛选出所述待匹配元数据的候选集。 4.根据权利要求1所述的方法，其特征在于，通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果包括：通过编辑距离算法模型，得到所述待匹配元数据和所述候选集的字面相似度特征；通过部首相似度算法模型，将所述待匹配元数据和所述候选集的词汇按照偏旁部首拆分，得到字形相似度特征；通过语义相似度算法模型，将所述待匹配元数据和所述候选集的词汇映射在高维的语义空间内，基于向量计算得到语义相似度特征；根据所述字面相似度特征、所述字形相似度特征和所述语义相似度特征，通过分类器从所述候选集中得出所述待匹配元数据的匹配结果。 5.根据权利要求1所述的方法，其特征在于，根据所述训练集和所述测试集，训练得到混合算法模型包括：根据所述训练集和所述测试集，对语义相似度算法模型进行训练，其中，所述语义相似度算法模型为SimCS E算法模型，所述SimCSE算法模型由预训练的Bert模型和对比学习方法组成；根据所述训练集和所述测试集，利用编辑距离算法模型、部首相似度算法模型和语义相似度算法模型作为特征提取器，对分类器进行训练，其中，所述分类器为AdaBoost 算法模型。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述应用于不同系统的元数据匹配的方法和依赖环境，通过容器技术集成到docker 容器中。 7.根据权利要求1所述的方法，其特征在于，获取待匹配元数据之后，所述方法包括：同一化所述待匹配元数据的标点符号，统一所述待匹配元数据的字符表示，删除所述待匹配元数据中重复和无效语义的字符，得到处理后的待匹配元数据。 8.根据权利要求1所述的方法，其特征在于，在根据先验知识库构建训练集和测试集之前，所述方法包括：权　利　要　求　书 1/2 页 2 CN 114706979 A 2获取书籍和互联网中的元数据，通过数据清洗和校检得到所述元数据的数据同义词和核心语义词汇，进而构建先验知识库。 9.根据权利要求1所述的方法，其特征在于，查询所述先验知识库是否存在匹配结果包括：通过全词匹配来查询所述先验知识库是否存在匹配结果。 10.一种应用于不同业务系统的元数据匹配的系统，其特征在于，所述系统包括模型训练模块和元数据匹配模块；所述模型训练模块用于根据先验知识库构建训练集和测试集，再根据所述训练集和所述测试集，训练得到混合算法模型；所述元数据匹配模块用于获取待匹配元数据，查询所述先验知识库是否存在匹配结果；若是，则直接返回所述匹配结果；若否，则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集，再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。权　利　要　求　书 2/2 页 3 CN 114706979 A 3

专利 应用于不同业务系统的元数据匹配的方法和系统

专利应用于不同业务系统的元数据匹配的方法和系统