全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211199789.9 (22)申请日 2022.09.29 (71)申请人 浙江星汉信息技 术股份有限公司 地址 310000 浙江省杭州市余杭区五常街 道西溪八方城8幢6 01室 (72)发明人 梁尔真 蔡利华 朱志辉 夏磊  袁学群 留巍  (74)专利代理 机构 杭州新雏鹰知识产权代理有 限公司 3 3474 专利代理师 张丽芬 (51)Int.Cl. G06F 16/45(2019.01) G06F 16/435(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习算法的电子档案管理方 法与系统 (57)摘要 本发明提供一种基于机器学习算法的电子 档案管理方法与系统, 属于人工智能技术领域, 具体包括: 得到存档领域一致的一致文本文件、 一致视频文件、 一致图片文件; 基于存档说明, 确 定一致文本文件的关键词、 一致视频文件的关键 词、 一致图片文件的关键词; 基于机器学习算法 构建文本相似度评价模型, 采用关键词, 确定一 致文本文件与一致视频文件之间的文件相似度 且当大于一定阈值时, 将一致文本文件、 一致视 频文件作为类似文本文件、 类似视频文件; 确定 文本文件与一致图片文件的图片相似度且当大 于一定阈值时, 将一致图片文件作为类似图片 文 件; 将类似图片 文件、 类似文本文件、 类似视频文 件进行统一归档存储, 从而进一步提升了电子档 案利用的效率。 权利要求书2页 说明书7页 附图3页 CN 115391577 A 2022.11.25 CN 115391577 A 1.一种基于 机器学习算法的电子档案管理方法, 其特 征在于, 具体包括: S11基于文本文件的存档领域, 基于视频文件的存档领域, 基于图片文件的存档领域, 得到存档领域 一致的一致文本文件、 一 致视频文件、 一 致图片文件; S12、 基于所述一致文本文件的存档说明, 确定所述一致文本文件的关键词, 基于所述 视频文件的存档说明, 确定所述一致视频文件的关键词, 基于所述图片文件的存档说明, 确 定所述一致图片文件的关键词; S13基于机器学习算法构建文本相似度评价模型, 采用所述一致文本文件的关键词、 所 述一致视频文件的关键词, 确定所述一致文本文件与所述一致视频文件之间的文件相似 度, 当所述文件相似度大于第一相似度阈值时, 将所述一致文本文件、 一致视频文件作为类 似文本文件、 类似视频文件; S14基于所述文本相似度评价模型, 采用类似文本文件的关键词、 一致图片文件的关键 词, 确定所述类似文本文件与所述一致图片文件的图片相似度, 当所述图片相似度大于第 一相似度阈值时, 将所述 一致图片文件作为类似图片文件; S15将所述类似图片文件、 类似文本文件、 类似视频文件进行统一归档存 储。 2.如权利要求1所述的电子档 案管理方法, 其特征在于, 提取所述一致文本文件的关键 词的具体步骤为: S21基于TF ‑IDF算法对所述一致文本文件 的题目进行关键词提取, 得到所述一致文本 文件的基础关键词; S22基于所述一致文本文件的存档领域, 采用关键词过滤模型, 对所述基础 关键词进行 过滤, 得到过 滤关键词; S23基于所述过 滤关键词得到所述 一致文本文件的关键词。 3.如权利要求2所述的电子档 案管理方法, 其特征在于, 所述关键词过滤模型采用专家 打分的方式确定, 对于停用词进行 过滤处理。 4.如权利要求1所述的电子档 案管理方法, 其特征在于, 确定一致文本文件与一致视频 文件之间的文件相似度的具体步骤为: S31基于所述一致文本文件的存档领域, 构建关键词数据库, 基于所述一致文本文件的 关键词与所述关键词数据库的匹配结果, 得到匹配关键词, 对所述匹配关键词进行加权处 理, 得到匹配关键词的权值; S32基于所述匹配关键词与所述一致视频文件的关键词进行匹配得到匹配结果, 判断 所述匹配结果是否存在匹配成功结果, 若是, 将匹配成功的匹配关键词作为匹配成功关键 词, 则进入步骤S3 3,若否, 则确定一 致文本文件与一 致视频文件之间的相似度为 零; S33对除匹配关键词外的其它过滤关键词进行匹配, 并将匹配成功的其它过滤关键词 作为基础成功关键词; S34基于所述匹配成功关键词以及其权值, 基础成功关键词得到所述一致文本文件与 一致视频文件之间的文件相似度。 5.如权利要求4所述的电子档 案管理方法, 其特征在于, 所述匹配关键词的权值根据 所 述一致文本文件的存档领域的重要程度、 关键词的重要程度, 采用基于机器学习算法的预 测模型得到。 6.如权利要求4所述的电子档案管理方法, 其特征在于, 所述文件相似度的计算公式权 利 要 求 书 1/2 页 2 CN 115391577 A 2为: 其中ci为第i个匹配成功关键词的权值, 取值范围为大于1, K1、 K2、 K3为常数, m、 n分别为 基础成功关键词的数量、 匹配成功关键词的数量; 7.如权利要求1所述的电子档 案管理方法, 其特征在于, 第 一相似度阈值根据 所述一致 文本文件的数量、 一致视频文件的数量、 一致图片文件的数量的最小值, 存档领域的重要程 度确定。 8.如权利要求1所述的电子档 案管理方法, 其特征在于, 还需要对所述类似图片文件与 所述类似视频文件的视频相似度进行确定 。 9.如权利要求1所述的电子档案管理方法, 其特征在于, 当且仅当根据所述视频相似 度、 图片相似度、 文件相似度构建得到综合相似度大于第二相似度阈值时, 才将所述类似图 片文件、 类似文本文件、 类似视频文件进 行统一归档存储, 其中所述 综合相似度的计算 公式 为: 其中K3、 K4为常数, P1、 P2、 P3分别为文件相似度、 视频相似度、 图片相似度。 10.一种基于机器学习算法的电子档案管理系统, 采用权利要求1 ‑9任意一项所述的基 于机器学习算法的电子档案管 理方法, 包括存档领域评价模块, 相似度评价模块, 存档处理 模块; 其中所述存档领域评价模块负责得到存档领域一致的一致文本文件、 一致视频文件、 一致图片文件; 所述相似度评价模块负责对所述一致文本文件、 一致视频文件、 一致图片文件进行相 似度评价; 所述存档处理模块负责将所述类似图片文件、 类似文本文件、 类似视频文件进行统一 归档存储。权 利 要 求 书 2/2 页 3 CN 115391577 A 3

.PDF文档 专利 一种基于机器学习算法的电子档案管理方法与系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习算法的电子档案管理方法与系统 第 1 页 专利 一种基于机器学习算法的电子档案管理方法与系统 第 2 页 专利 一种基于机器学习算法的电子档案管理方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。