(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211137143.8 (22)申请日 2022.09.19 (71)申请人 北京三维 天地科技股份有限公司 地址 100000 北京市海淀区西四环北路1 19 号A座3层3 09室 (72)发明人 金震 张京日 穆宇浩  (74)专利代理 机构 北京冠和权律师事务所 11399 专利代理师 张树朋 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于知识图谱技术的数据智能分类技 术 (57)摘要 本发明公开了一种基于知识图谱技术的数 据智能分类技术, 通过血缘关系构建知识图谱, 并根据社群发现算法, 将待分类的数据划分为若 干群组; 提取若干群组中每个群组的第一特征; 对现有族群进行特征提取, 获得每个群组的第二 特征; 根据聚类算法构建特征匹配模型, 并将第 一特征与第二特征进行匹配, 根据匹配结果对待 分类数据进行自动分类; 通过用户进行人工纠 偏, 分析数据分类的准确性以及关键控制点; 基 于以上对数据信息的分类及分析, 持续完善对机 器的学习, 不断提高数据分类的准确度, 并降低 由人工分类耗费的成本与精力。 权利要求书2页 说明书7页 附图2页 CN 115309906 A 2022.11.08 CN 115309906 A 1.一种基于知识图谱技 术的数据智能分类技 术, 其特征在于, 包括以下骤; 步骤S100, 基于数据血缘关系构建知识图谱, 并通过知识图谱的社群发现算法, 将待分 类数据划分为若干个 群组; 提取若干个 群组中每 个群组的第一特 征; 步骤S200, 对现有族群进行 特征提取, 获得每 个族群的第二特 征; 步骤S300, 基于机器学习聚类算法构建特征匹配模型, 基于所述特征匹配模型对第一 特征和第二特 征进行匹配, 根据匹配结果对待分类数据进行自动分类。 2.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述步骤S300包括: 基于机器学习聚类算法将第二特征与第一特征进行匹配, 若匹配成功, 将该匹配成功 的群组中所有待分类数据划分为相 应的现有族群中; 若匹配不成功, 对待分类数据进行进 一步细化划分, 形成若干个细化群组, 提取每个细化群组的第三特征, 将第三特征与第一特 征进行匹配, 若匹配成功, 将该细化群组中所有待分类数据划分为对应的族群中, 若匹配不 成功, 则重复对待分类数据的进一步细化划分的步骤, 直至将待分类数据全部自动分类至 现有的族群中。 3.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述步骤S300之后还包括: 步骤S400, 通过用户进行 人工纠偏, 分析 数据信息分类的准确性以及关键控制点; 步骤S500, 基于以上对数据信息的分类及分析, 将分类及分析结果作为机器学习分类 算法的优化因素输入至所述特 征匹配模型。 4.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述步骤S100中, 通过知识图谱的社群发现算法, 将待分类数据划分为若干个 群组, 包括: 知识图谱架构: 知识图谱的架构分为逻辑结构与体系结构, 其中, 逻辑结构主要包括数 据层和模式层; 知识图谱构建方式: 运用自底向上的构建方式, 首先从公开的连接中提取实体, 然后将 置信度较高的实体添加到知识库中, 再构建顶层本体; 数据信息采集: 通过获取数据, 结合社群发现算法, 以手工和半自动化的方式, 进行数 据采集, 经 过知识抽取、 知识融合形成统一的知识数据信息, 并划分为若干个 群组。 5.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 包 括; 步骤S100包括: 计算待分类数据的唯一值、 最大值、 最小值、 类型、 关联的标准, 根据已 构建的数据血缘关系, 使用社群发现算法, 对待分类数据进 行聚类, 根据聚类算法形成新的 族群; 步骤S200包括: , 对现有族群分类的数据, 系统将提取出现有族群分类下的数据的总体 特征, 设定为第二特 征。 6.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述步骤S300中, 基于 机器学习分类算法构建特 征匹配模型, 包括: 对大量未知标注 的数据族群, 按数据的内在相似性将数据族群划分为多个类别, 使类 别内的数据相似度较大而类别间的数据相似度较小; 通过聚类算法中的模块度对数据族群进行划分判定, 根据判定结果预测数据划分的标权 利 要 求 书 1/2 页 2 CN 115309906 A 2准是否符合用户要求; 将数据族群划分好后构成特征匹配模型, 通过第一特征与第二特征的匹配, 进行机器 智能分类。 7.根据权利要求3所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述步骤S500中, 对数据信息的分类及分析, 包括: 用户在元数据管理过程中, 从数据源的待选区选择一批未分类的数据, 系统机器在经 过学习后, 根据血缘关系, 在是否应用选项框中点击确定, 在基于算法的条件下对数据进 行 自动分类, 然后, 用户根据分类结果, 进行微调, 将微调 得出的结果作为新的分类特征输入 到特征匹配模型中。 8.根据权利要求5所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述已构建的血缘关系, 包括: 溯源分析: 由各类数据构成的血缘关系作为实际数据的管理, 通过支撑、 分析数据, 将 开发过程中的各类溯源进行分析, 并判断 问题的影响; 构建数据网络: 通过实现对数据的血缘识别、 发现, 构建成为数据网络; 数据血缘关系可视化: 通过可视化将规则、 流向分布显示在图像上的不同位置, 并起到 追溯数据溯源、 评估数据价 值、 数据质量评估的作用。 9.根据权利要求7所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所 述将对数据在基于算法的条件下进行自动分类, 包括: 当收集到有 效的数据信 息后, 系统机器将数据信 息按照一定的字段规则保存到数据库 中, 数据库中保存的数据有: 被标注的样本数据、 测试数据、 正确被分类的结果数据和未被 分类的离群数据; 系统机器获取数据库中的样本数据, 通过对样本数据的训练学习构建出分类模型, 用 于后续分类处 理; 分类模型对采集到的数据信 息进行预处理过程, 通过特征提取手段找到数据信 息的特 征词, 进行分类, 并判断出 数据信息属于正确被分类的数据还是 未被分类的离群数据; 若数据属于未被分类的离群数据, 则需要将离散数据信息推送至管理层, 供管理层的 分析, 管理人员通过查看系统推送消息将离群数据进行归类。 10.根据权利要求6所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所述通过聚类算法中的模块度对刻画的数据族群进行划分, 包括: 在通过对数据的训练学习并构建特征匹配模型后, 通过系统机器测试类别之间的相似 度以及类别的区分能力, 在类别区分能力好的情况下, 继续测试构建特征匹配模 型的好坏, 如果构建模型不够理想, 则需要对模型重新作出调整, 调整对 象为聚类算法中模块度的参 数, 根据模块度刻画数据集划分的优劣以及运用图团体检测方法, 对模块度进 行评价, 并测 试出系统机器的分类成果。权 利 要 求 书 2/2 页 3 CN 115309906 A 3

.PDF文档 专利 一种基于知识图谱技术的数据智能分类技术

安全报告 > 其他 > 文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱技术的数据智能分类技术 第 1 页 专利 一种基于知识图谱技术的数据智能分类技术 第 2 页 专利 一种基于知识图谱技术的数据智能分类技术 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:38:58上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。