全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211079279.8 (22)申请日 2022.09.05 (71)申请人 深圳先进技 术研究院 地址 518055 广东省深圳市南 山区西丽大 学城学苑大道1068号 (72)发明人 吴承科 杨之乐 郭媛君 冯伟  蒋锐  (74)专利代理 机构 深圳市铭粤知识产权代理有 限公司 4 4304 专利代理师 孙伟峰 武岑飞 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06Q 50/18(2012.01) (54)发明名称 模型训练方法、 法律诉讼信息对齐融合方法 及其终端设备 (57)摘要 本申请提出了一种模 型训练方法、 多源异构 法律诉讼信息对齐融合方法、 终端设备以及计算 机可读存储介质。 方法包括: 在若干多源异构数 据源内提取诉讼主体及其关联关系, 并按照诉讼 主体及其关联关系构建诉讼主体知识三元组; 利 用同一诉讼主体对应的诉讼主体知识三元组组 成第一知识图谱, 利用不同诉讼主体对应的诉讼 主体知识三元组组成第二知识图谱; 采用双循环 方式配对组合第一知识图谱和第二知识图谱, 根 据知识图谱之间的特征向量训练判断模型。 本申 请通过双循环方式匹配相同和不同主体的知识 图谱对, 自动生成大量知识图谱配对训练数据, 并根据配对信息自动设置是否为相同主体的标 签, 为图注 意力判断模型的训练提供充分数据 支 撑, 减少人工标注需求。 权利要求书2页 说明书8页 附图4页 CN 115455198 A 2022.12.09 CN 115455198 A 1.一种模型训练方法, 其特 征在于, 所述模型训练方法包括: 在若干多源异构数据源内提取诉讼主体及其关联关系, 并按照所述诉讼主体及其关联 关系构建诉讼主体知识三元组; 利用同一诉讼主体对应的诉讼主体知识三元组组成第 一知识图谱, 利用不同诉讼主体 对应的诉讼主体知识三元组组成第二知识图谱, 并根据所述第一知识图谱和所述第二知识 图谱, 组成诉讼主体训练数据集; 对所述诉讼主体训练数据集内的知识图谱进行向量 化表示; 采用双循环方式配对组合第 一知识图谱和第 二知识图谱, 根据知识图谱之间的特征向 量训练判断模型, 得到用于比较任意诉讼主体相似度, 并对判断对相同主体的诉讼主体进 行对齐的判断模型。 2.根据权利要求1所述的模型训练方法, 其特 征在于, 所述在若干多源异构数据源内提取诉讼主体及其关联关系, 包括: 通过柔性深度学习信息提取方式在所述若干多源异构数据源内提取诉讼主体及其关 联关系; 其中, 所述多源异构数据源包括在不同数据源存储, 通过不同数据接口或访 问方式提 供的结构化数据和非结构化数据。 3.根据权利要求2所述的模型训练方法, 其特 征在于, 所述柔性深度学习信息提取方式包括: 根据所述多源异构数据源的类型, 构建适配数 据特点的柔 性信息提取工具。 4.根据权利要求1所述的模型训练方法, 其特 征在于, 所述按照所述诉讼主体及其关联关系构建诉讼主体知识三元组, 包括: 将所述诉讼主体作为所述诉讼主体知识三元组的点; 将所述诉讼主体的关联关系作为所述诉讼主体知识三元组的边; 利用两个点, 以及点与点之间连接的边, 构建诉讼主体知识三元组。 5.根据权利要求1所述的模型训练方法, 其特 征在于, 所述对所述诉讼主体训练数据集内的知识图谱进行向量 化表示, 包括: 获取开源法律诉讼领域文本语料库中的字词预训练向量字典; 根据所述诉讼主体训练数据集内的点、 边名称语义在所述向量字典中进行检索, 获取 对点、 边语义向量, 实现知识图谱向量 化表示; 采用注意力模型, 在所述诉讼主体点上集成图谱点、 边语义以及关联拓扑结构特征信 息, 生成诉讼主体的知识图谱特 征向量。 6.根据权利要求1所述的模型训练方法, 其特 征在于, 所述采用双循环方式配对组合第 一知识图谱和第 二知识图谱, 根据知识图谱之间的特 征向量训练判断模型, 包括: 循环遍历所述诉讼主体训练数据集中的每 个诉讼主体的知识图谱; 基于当前知识图谱, 和当前同一主体其他图谱配对, 并且和其他不同诉讼主体知识图 谱数据集中的图谱配对, 自动为主体相同的图谱和不同的图谱设置标签; 在每对匹配的两个知识图谱中, 根据 所述判断模型预测标签和实际标签的差异更新所 述判断模型参数, 完成模型训练。权 利 要 求 书 1/2 页 2 CN 115455198 A 27.根据权利要求1所述的模型训练方法, 其特 征在于, 所述根据知识图谱之间的特征向量训练判断模型, 得到用于比较任意诉讼主体相似 度, 并对判断对相同主体的诉讼主体进行对齐的判断模型之后, 所述模型训练方法包括: 获取任意 一对知识图谱, 其中, 所述指示图谱 包括一对诉讼主体及其对应的关联关系; 利用所述判断模型通过生成当前配对 对诉讼主体知识图谱向量并计算相似度; 通过阈值判断配对主体是否为同一诉讼主体, 将视为相同主体的对齐融合。 8.一种多源异构法律诉讼信息对齐融合方法, 其特征在于, 所述信息对齐融合方法包 括: 获取目标诉讼主体 类型; 获取所述目标诉讼主体 类型对应的主体关联关系信息; 基于所述目标诉讼主体类型, 及其主体关联关系信息, 从若干法律诉讼信息数据源中, 形成以所述目标诉讼主体 类型为中心点的若干知识图谱; 使用预选训练的判断模型对所述若干知识图谱进行匹配, 获取所述若干知识图谱两两 之间的相似度; 将相似度超过预设阈值的多个知识图谱的诉讼主体对齐为同一诉讼主体, 实现多源异 构法律信息的融合; 其中, 所述判断模型通过权利要求1 ‑7任一项所述的模型训练方法训练得到 。 9.一种终端设备, 其特征在于, 所述终端设备包括处理器、 与所述处理器连接的存储 器, 其中, 所述存储器存储有程序指令; 所述处理器用于执行所述存储器存储的程序指令以实现如权利要求1至7任一项所述 的模型训练方法和/或权利要求8所述的多源异构法律诉讼信息对齐融合方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序指令, 所述程序 指令被执行时实现如权利要求1至7任一项所述的模型训练方法和/或权利要求8所述的多 源异构法律诉讼信息对齐融合方法。权 利 要 求 书 2/2 页 3 CN 115455198 A 3

.PDF文档 专利 模型训练方法、法律诉讼信息对齐融合方法及其终端设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、法律诉讼信息对齐融合方法及其终端设备 第 1 页 专利 模型训练方法、法律诉讼信息对齐融合方法及其终端设备 第 2 页 专利 模型训练方法、法律诉讼信息对齐融合方法及其终端设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。