全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210423371.5 (22)申请日 2022.04.21 (71)申请人 广东电网有限责任公司 地址 510030 广东省广州市越秀区东 风东 路757号 (72)发明人 王鑫根 王珏 肖嘉丽 蔡玲嘉  黄华茂 许志华 吴伟忠  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 张思佳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01)G06F 40/289(2020.01) (54)发明名称 基于文本挖掘的审计计划数据生 成方法、 装 置和设备 (57)摘要 本申请涉及一种基于文本挖掘的审计计划 数据生成方法、 装置和设备。 所述方法包括: 获取 审计领域专业词典数据, 与 审计领域专业词典数 据关联的审计领域搜索数据, 对审计领域专业词 典数据, 进行文本挖掘 处理, 生成审计候选词数 据。 基于审计候选词数据和审计领域搜索数据, 训练得到审计领域词向量。 获取审计领域本体知 识框架, 并基于审计领域本体知识框架构建审计 知识图谱, 根据审计领域词向量和审计知识图 谱, 确定审计方向, 生成与审计方向关联的审计 计划数据。 采用本方法能够及时关注审计领域搜 索数据中新增的词汇, 避免遗漏新增的风险点, 综合考虑了审计领域各个方面的词汇和关联数 据, 提升了审计方向的准确度和审计计划数据的 合理性。 权利要求书2页 说明书14页 附图5页 CN 114691835 A 2022.07.01 CN 114691835 A 1.一种基于文本挖掘的审计 计划数据生成方法, 其特 征在于, 所述方法包括: 获取审计领域专业词典数据, 以及与所述审计领域专业词典数据关联的审计领域搜索 数据; 对所述审计领域专业词典数据, 进行文本挖掘处 理, 生成审计候选词数据; 基于所述审计候选词数据和所述审计领域搜索数据, 训练得到审计领域词向量; 获取审计领域本体知识框架, 并基于所述审计领域本体知识框架构建审计知识图谱; 根据所述审计领域词向量和所述审计知识图谱, 确定审计方向, 并生成与所述审计方 向关联的审计 计划数据。 2.根据权利要求1所述的方法, 其特征在于, 所述获取审计领域专业词典数据, 以及与 所述审计领域专业词典数据关联的审计领域搜索数据, 包括: 采集审计领域核心词汇数据, 并基于所述审计领域核心词汇数据确定审计领域专业词 典数据; 基于所述审计领域专业词典数据, 筛 选得到关联引擎搜索词条; 提取与所述关联引擎搜索词条对应的搜索数据, 确定为与所述审计领域专业词典数据 关联的审计领域搜索数据; 将与所述关联引擎搜索词条对应的搜索数据, 添加至所述审计领域专业词典数据中, 得到更新后的审计领域专业词典数据; 根据所述更新后的审计领域专业词典数据, 筛选得到新的关联引擎搜索词条, 直至达 到对所述审计领域专业词典数据的更新停止条件。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述审计领域专业词典数据, 进行 文本挖掘处 理, 生成审计候选词数据, 包括: 基于所述审计领域专业词典数据, 进行分词处 理, 生成对应的结构化审计数据; 对所述结构化审计数据中的各特征词进行重要度计算处理, 生成与 各所述特征词对应 的文本特 征重要度; 根据所述文本特 征重要度对各 所述特征词进行筛 选, 生成审计关键词; 基于所述审计关键词进行词汇扩展处 理, 生成审计候选词数据。 4.根据权利要求1至3任意一项所述的方法, 其特征在于, 所述获取审计领域本体知识 框架, 并基于所述审计领域本体知识框架构建审计知识图谱, 包括: 基于所述审计领域搜索数据进行信息抽取处 理, 生成审计三元组数据; 获取审计领域本体知识框架, 并基于所述审计三元组数据和所述审计领域本体知识框 架, 构建审计知识图谱。 5.根据权利要求1至3任意一项所述的方法, 其特征在于, 所述基于所述审计候选词数 据和所述审计领域搜索数据, 训练得到审计领域词向量, 包括: 基于所述审计候选词数据和所述审计领域搜索数据, 进行数据格式转换处理和分词处 理, 生成对应的审计特 征词; 根据各所述审计特 征词, 对初始词向量模型进行训练, 得到训练后的审计词向量模型; 对训练后的所述审计词向量模型进行模型测试处 理, 生成对应的测试 结果; 当确定所述测试结果符合对应的模型预测精度要求时, 得到训练好的审计领域词向 量。权 利 要 求 书 1/2 页 2 CN 114691835 A 26.根据权利要求1至3任意一项所述的方法, 其特征在于, 所述根据所述审计领域词向 量和所述审计知识图谱, 确定审计方向, 并生成与所述审计方向关联的审计计划数据, 包 括: 根据所述审计领域词向量和所述审计知识图谱, 构建审计领域知识库; 基于所述审计领域知识库, 确定审计风险点; 根据所述审计风险点, 确定审计方向; 基于所述审计方向和待审计文本数据, 生成与所述审计方向关联的审计 计划数据。 7.根据权利要求3所述的方法, 其特征在于, 所述对所述结构化审计数据中的各特征词 进行重要度计算处 理, 生成与各 所述特征词对应的文本特 征重要度, 包括: 对所述结构化审计数据中的各特征词进行词频计算处理, 生成各所述特征词在所述结 构化审计数据中的词频 数据; 基于所述结构化审计数据中的各特征词 进行逆文档频率计算处理, 生成各所述特征词 在所述结构化审计数据中的逆文档频率数据; 根据所述词频数据和所述逆文档频率数据, 进行重要度计算处理, 生成与各所述特征 词对应的文本特 征重要度。 8.一种基于文本挖掘的审计 计划数据生成装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取审计领域专业词典数据, 以及与所述审计领域专业词典数据关联 的审计领域搜索数据; 文本挖掘处理模块, 用于对所述审计领域专业词典数据, 进行文本挖掘处理, 生成审计 候选词数据; 词向量生成模块, 用于基于所述审计候选词数据和所述审计领域搜索数据, 训练得到 审计领域词向量; 审计知识图谱构建模块, 用于获取审计领域本体知识框架, 并基于所述审计领域本体 知识框架构建审计知识图谱; 审计计划数据生成模块, 用于根据所述审计领域词向量和所述审计知识图谱, 确定审 计方向, 并生成与所述审计方向关联的审计 计划数据。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114691835 A 3

.PDF文档 专利 基于文本挖掘的审计计划数据生成方法、装置和设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于文本挖掘的审计计划数据生成方法、装置和设备 第 1 页 专利 基于文本挖掘的审计计划数据生成方法、装置和设备 第 2 页 专利 基于文本挖掘的审计计划数据生成方法、装置和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。