全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210199677.7 (22)申请日 2022.03.01 (71)申请人 达而观信息科技 (上海) 有限公司 地址 201203 上海市浦东 新区亮秀路1 12号 B座301、 303、 304室 (72)发明人 文辉 徐永林 代申 叶昌贵  陈运文 纪达麒  (74)专利代理 机构 上海智力专利商标事务所 (普通合伙) 31105 专利代理师 周涛 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/289(2020.01) G06Q 10/06(2012.01) G06Q 40/00(2012.01) (54)发明名称 一种基于知识图谱的制度自动审计方法及 审计系统 (57)摘要 本发明公开了一种基于知识图谱的制度自 动审计方法, 该方法通过对制度知识图谱进行定 义和自动构建, 在制度知识图谱基础上构建疑似 线索获取模型, 建立制度 自动审计模块, 用于接 收用户输入的审计指令; 制度自动审计模块根据 用户输入的审计指令得出审计结果, 并将设计结 果反馈给用户, 完成自动审计工作。 本发明从组 织层级和标签主题两个维度设计和构建制度知 识图谱, 通过制度知识图谱快速找到审计线索, 提高审计效率。 权利要求书3页 说明书6页 附图2页 CN 114691881 A 2022.07.01 CN 114691881 A 1.一种基于知识图谱的制度自动审计方法, 其特 征在于, 该 方法具体包括以下步骤: S1, 对制度知识图谱进行定义, 建立制度知识图谱模型, 该模型包括实体类型定义和关 系类型定义; S2, 提取S1中制度知识图谱 模型中的实体知识和制度关系; S3, 基于S2的基础上, 构建制度知识图谱; S4, 基于S3构建的制度知识图谱, 构建疑似线索获取模型, 进行制度自动审计得到审计 线索, 将得到的审计线索反馈给审计人员; S5, 审计人员根据反馈的审计结果完成自动审计工作。 2.根据权利要求1所述的一种基于知识图谱的制度自动审计方法, 其特征在于, 所述S1 中的实体类型包括制度、 单位、 条款和审 计标签, 其中, 制度实体的属性包括制度名称、 制度 发文号、 制度发文时间、 制度摘要和制度正文, 单位实体的属性包括单位名称。 3.根据权利要求1所述的一种基于知识图谱的制度自动审计方法, 其特征在于, 所述S1 中的关系类型包括制度间的废止和依赖关系、 制度发文单位关系、 单位的上下级关系和包 含关系。 4.根据权利要求3所述的一种基于知识图谱的制度自动审计方法, 其特征在于, 所述包 含关系包括制度与条款的包 含关系、 制度与标签的包 含关系和条款与标签的包 含关系。 5.根据权利要求1所述的一种基于知识图谱的制度自动审计方法, 其特征在于, 所述S2 中的提取制度知识图谱 模型中的实体知识和制度关系的具体步骤为: S11, 建立字段提取和对齐模块, 采用BMESO标注集进行制度标注, 通过BILSTM+CRF抽取 模型提取制度的名称、 发文号和发文时间字段以及发文 单位字段, 并建立制度库, 字段提取 完成后进 行发文单位对齐, 完成制度和单位的实体知识 提取以及发文 单位关系和下级关系 的提取; S12, 建立制度关系挖掘模块, 通过制度关系挖掘模块完成制度间废止和依赖关系的制 度关系提取, 制度摘要中包含和目标制度产生了依赖和废止关系的制度, 对依赖废止制度 采用BILSTM+CRF抽取模型提取依赖或废止制度的名称和发文号, 其中, 发文号直接位于制 度名称后; 依赖或废止制度和制度库中的制度实体进行制度实体对齐, 通过依赖或废止制 度的制度名称和发文号匹配制度库中的制度, 同时根据关键触发词判断目标制度和关联制 度的关系; 其中, 依赖关系的关键触发词包括 “根据”、“基于”、“依据”和“按照”, 废止关系的 关键触发词包括 “废止”、“失效”和“废除”; S13, 建立条款解析模块, 通过条款解析模块完成条款的实体知识提取和制度与条款关 系的提取; 通过条款解析模块解析制度摘要文件和制度正文文件, 获取制度的基本信息和 条款信息; 制度的基本信息包括制度名称、 制度发文号、 制度发文 单位、 制度发文时间、 制度 摘要和制度正文文件, 制度条款信息包括制度正文中的各个条款, 制度条款为制度正文中 若干连续自然段落的集 合, 制度条款 为最小力度的语义单 元; S14, 建立标签模块, 通过标签模块完成审计标签的实体知识的提取和制度与标签关系 以及条款与标签关系的提取, 通过实体抽取模型抽取审计标签; 包含审计标签的句 子或内 容作为审 计项, 针对数值不一致的审 计场景和范围流程不一致的审 计场景对审计项进 行审 计。 6.根据权利要求5所述的一种基于知识图谱的制度自动审计方法,其特征在于, 所述权 利 要 求 书 1/3 页 2 CN 114691881 A 2S11中的发文时间和发文 单位提取通过限定在摘要文件最后若干 短文本内容提取过滤发文 时间和发文单位两个字段, 所述制度名称和发文 单位关系位于摘要文件的头部 短文本中或 头部表格中, 通过限定制度名称和发文单位关系的字段相对位置完成制度名称和发文 单位 关系的提取。 7.根据权利要求5所述的一种基于知识图谱的制度自动审计方法, 其特征在于, 所述 S14中的数值不一致的审 计场景中的审 计标签为实体抽取模 型抽取的具体系统作为审 计主 体, 对于包含相同审计标签的条款, 通过数值不一致触发词定位候选审 计项语句, 候选审 计 项语句中的触发词后续单词包含数值特征的语句作为审 计项语句; 所述范围流程不一致的 审计场景中的审 计标签为 实体抽取模型抽取的具体范围流程名称, 根据范围类条款中包含 的子流程的步骤数目作为指向该审计主体关系属性审计项。 8.根据权利要求7所述的一种基于知识图谱的制度自动审计方法,其特征在于, 所述数 值不一致触发词包括 “少于”、“多于”、“至多”、“至少”、“低于”、“高于”、“不少于”、“不高 于”、“不高于”和“不低于”; 所述有效的范围类条款包括连续多个步骤且步骤开头序号递 增。 9.根据权利要求1所述的一种基于知识图谱的制度自动审计方法,其特征在于, 所述S4 中的构建 疑似线索获取模型 具体包括以下步骤: S21, 建立制度对筛选模块, 通过制度关系筛选在行制度具体的筛选条件为: 制度对为 上下级单位分别制定且存在依赖关系的制度和分别来自两个制度的两个条款包含相同的 审计标签; 包含相同审计标签的两个条款对作为审计线索辅助审计人员快速定位审计线 索; 通过制度对筛 选模块筛 选审计项 线索; 其中, 被废止制度不作为制度关系筛 选的依据; S22, 建立数字疑似不一致审计模块, 根据数值不一致触发词分别提取两个审计项中的 具体数值, 判断数值是否相同; 数值不相同时, 两个审 计项作为审 计线索; 数值相同时, 两个 审计项不作为审计线索; S23, 建立范围流程不一致审计模块, 判断两个审计项属性的步骤个数是否相同, 当步 骤个数相同时, 不作为审计线索; 当步骤个数不相同时, 通过计算两个条款的分词后的 Jaccard相似度和经过Bert编码的语义向量相似度, 再通过加权生 成最终相似度数值, 当最 终相似度数值高于 0.8时, 两个审计项作为审计线索; 条款对相似度计算公式如下, 其中, sim(i, j)=α *Jaccard(i, j)+(1 ‑α )Bert_sim(i, j), i和j表示两个 条 款, Si为条款i的分词集 合; Bertsim(i, j)=cosine(Vi, Vj), Vi为条款i经过Bert编码后的句向量, 其中α 取0.8。 10.一种基于知识图谱的制度自动审计系统, 其特征在于, 基于权利要求1至9所述的任 意一种基于知识图谱的制度自动审计方法实现, 包括如下: 制度知识图谱模块, 用于建立制度知识图谱模型, 该模型包括实体类型定义和关系类 型定义, 并从制度知识图谱 模型中提取实体知识和制度关系; 制度知识图谱模块, 用于根据从制度知识图谱模型中提取的实体知识和制度关系构建 制度知识图谱; 疑似线索获取模块, 用于根据制度知识图谱构建疑似线索获取模型, 进行制度自动审 计得到审计线索, 将得到的审计线索反馈给审计人员;权 利 要 求 书 2/3 页 3 CN 114691881 A 3

.PDF文档 专利 一种基于知识图谱的制度自动审计方法及审计系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的制度自动审计方法及审计系统 第 1 页 专利 一种基于知识图谱的制度自动审计方法及审计系统 第 2 页 专利 一种基于知识图谱的制度自动审计方法及审计系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。