(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211137143.8
(22)申请日 2022.09.19
(71)申请人 北京三维 天地科技股份有限公司
地址 100000 北京市海淀区西四环北路1 19
号A座3层3 09室
(72)发明人 金震 张京日 穆宇浩
(74)专利代理 机构 北京冠和权律师事务所
11399
专利代理师 张树朋
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于知识图谱技术的数据智能分类技
术
(57)摘要
本发明公开了一种基于知识图谱技术的数
据智能分类技术, 通过血缘关系构建知识图谱,
并根据社群发现算法, 将待分类的数据划分为若
干群组; 提取若干群组中每个群组的第一特征;
对现有族群进行特征提取, 获得每个群组的第二
特征; 根据聚类算法构建特征匹配模型, 并将第
一特征与第二特征进行匹配, 根据匹配结果对待
分类数据进行自动分类; 通过用户进行人工纠
偏, 分析数据分类的准确性以及关键控制点; 基
于以上对数据信息的分类及分析, 持续完善对机
器的学习, 不断提高数据分类的准确度, 并降低
由人工分类耗费的成本与精力。
权利要求书2页 说明书7页 附图2页
CN 115309906 A
2022.11.08
CN 115309906 A
1.一种基于知识图谱技 术的数据智能分类技 术, 其特征在于, 包括以下骤;
步骤S100, 基于数据血缘关系构建知识图谱, 并通过知识图谱的社群发现算法, 将待分
类数据划分为若干个 群组; 提取若干个 群组中每 个群组的第一特 征;
步骤S200, 对现有族群进行 特征提取, 获得每 个族群的第二特 征;
步骤S300, 基于机器学习聚类算法构建特征匹配模型, 基于所述特征匹配模型对第一
特征和第二特 征进行匹配, 根据匹配结果对待分类数据进行自动分类。
2.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述步骤S300包括:
基于机器学习聚类算法将第二特征与第一特征进行匹配, 若匹配成功, 将该匹配成功
的群组中所有待分类数据划分为相 应的现有族群中; 若匹配不成功, 对待分类数据进行进
一步细化划分, 形成若干个细化群组, 提取每个细化群组的第三特征, 将第三特征与第一特
征进行匹配, 若匹配成功, 将该细化群组中所有待分类数据划分为对应的族群中, 若匹配不
成功, 则重复对待分类数据的进一步细化划分的步骤, 直至将待分类数据全部自动分类至
现有的族群中。
3.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述步骤S300之后还包括:
步骤S400, 通过用户进行 人工纠偏, 分析 数据信息分类的准确性以及关键控制点;
步骤S500, 基于以上对数据信息的分类及分析, 将分类及分析结果作为机器学习分类
算法的优化因素输入至所述特 征匹配模型。
4.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述步骤S100中, 通过知识图谱的社群发现算法, 将待分类数据划分为若干个 群组, 包括:
知识图谱架构: 知识图谱的架构分为逻辑结构与体系结构, 其中, 逻辑结构主要包括数
据层和模式层;
知识图谱构建方式: 运用自底向上的构建方式, 首先从公开的连接中提取实体, 然后将
置信度较高的实体添加到知识库中, 再构建顶层本体;
数据信息采集: 通过获取数据, 结合社群发现算法, 以手工和半自动化的方式, 进行数
据采集, 经 过知识抽取、 知识融合形成统一的知识数据信息, 并划分为若干个 群组。
5.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 包
括;
步骤S100包括: 计算待分类数据的唯一值、 最大值、 最小值、 类型、 关联的标准, 根据已
构建的数据血缘关系, 使用社群发现算法, 对待分类数据进 行聚类, 根据聚类算法形成新的
族群;
步骤S200包括: , 对现有族群分类的数据, 系统将提取出现有族群分类下的数据的总体
特征, 设定为第二特 征。
6.根据权利要求1所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述步骤S300中, 基于 机器学习分类算法构建特 征匹配模型, 包括:
对大量未知标注 的数据族群, 按数据的内在相似性将数据族群划分为多个类别, 使类
别内的数据相似度较大而类别间的数据相似度较小;
通过聚类算法中的模块度对数据族群进行划分判定, 根据判定结果预测数据划分的标权 利 要 求 书 1/2 页
2
CN 115309906 A
2准是否符合用户要求;
将数据族群划分好后构成特征匹配模型, 通过第一特征与第二特征的匹配, 进行机器
智能分类。
7.根据权利要求3所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述步骤S500中, 对数据信息的分类及分析, 包括:
用户在元数据管理过程中, 从数据源的待选区选择一批未分类的数据, 系统机器在经
过学习后, 根据血缘关系, 在是否应用选项框中点击确定, 在基于算法的条件下对数据进 行
自动分类, 然后, 用户根据分类结果, 进行微调, 将微调 得出的结果作为新的分类特征输入
到特征匹配模型中。
8.根据权利要求5所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述已构建的血缘关系, 包括:
溯源分析: 由各类数据构成的血缘关系作为实际数据的管理, 通过支撑、 分析数据, 将
开发过程中的各类溯源进行分析, 并判断 问题的影响;
构建数据网络: 通过实现对数据的血缘识别、 发现, 构建成为数据网络;
数据血缘关系可视化: 通过可视化将规则、 流向分布显示在图像上的不同位置, 并起到
追溯数据溯源、 评估数据价 值、 数据质量评估的作用。
9.根据权利要求7所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于, 所
述将对数据在基于算法的条件下进行自动分类, 包括:
当收集到有 效的数据信 息后, 系统机器将数据信 息按照一定的字段规则保存到数据库
中, 数据库中保存的数据有: 被标注的样本数据、 测试数据、 正确被分类的结果数据和未被
分类的离群数据;
系统机器获取数据库中的样本数据, 通过对样本数据的训练学习构建出分类模型, 用
于后续分类处 理;
分类模型对采集到的数据信 息进行预处理过程, 通过特征提取手段找到数据信 息的特
征词, 进行分类, 并判断出 数据信息属于正确被分类的数据还是 未被分类的离群数据;
若数据属于未被分类的离群数据, 则需要将离散数据信息推送至管理层, 供管理层的
分析, 管理人员通过查看系统推送消息将离群数据进行归类。
10.根据权利要求6所述的一种基于知识图谱技术的数据智能分类技术, 其特征在于,
所述通过聚类算法中的模块度对刻画的数据族群进行划分, 包括:
在通过对数据的训练学习并构建特征匹配模型后, 通过系统机器测试类别之间的相似
度以及类别的区分能力, 在类别区分能力好的情况下, 继续测试构建特征匹配模 型的好坏,
如果构建模型不够理想, 则需要对模型重新作出调整, 调整对 象为聚类算法中模块度的参
数, 根据模块度刻画数据集划分的优劣以及运用图团体检测方法, 对模块度进 行评价, 并测
试出系统机器的分类成果。权 利 要 求 书 2/2 页
3
CN 115309906 A
3
专利 一种基于知识图谱技术的数据智能分类技术
安全报告 >
其他 >
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:58上传分享