鲲鹏BoostKit 大数据机器学习 &图分析算法
Security Level:目录
应用场景
分析图分析
算法加速库机器学习
算法加速库分析技术
精准查询、智能研判
关键内容检索、知识提取社交关系、关联网络分析
线索分析、串并案分析业务 主要痛点
设防分析 重点目标设防、舆情看管作案团伙挖掘、网上追逃
作案动向 /作分析、电子证据作案人员查询、互联网侦查安平行业面临的痛点挑战
1、搜索条件多、范围广,需要频繁修改筛选条件 重复查
询,导致耗时长
2、基于人工规则分析研判,强依赖 主观经验和个人能力 ,
预测精度普遍较低,查询结果不准确
1、大规模场景下 团伙挖掘性能差 ,40台机器跑完 800
个群体需要至少一天
2、人工研判需要外部输入线索信息依赖太多,无法满
足高精度 信息分析
1、特征提取需要人工干预,耗时较长
2、人工经验总结的经验规则, 随时间推移慢慢失效 ,导
致模型精度降低,检索结果不够精准
1、设防预测的精度较低,导致设防范围较大,难以
快速找出核心目标
现有方案无法满足海量数据的分析精度和性能要求安平行业 主流解决方案
使用方式
优势
适用场景劣势依赖数据库, ISV自定义规则的 SQL或类SQL实
现的分析技术基于规则
1.解释性强,容易理解
2.基于SQL技术,易上手使用
1.人工定制规则,准确度低
2.数据分析时间长
3.不支持趋势预测等复杂分析
1.较小数据规模
2.规则明确且准确开源算法库
基于单机的 Python算法库,或基于 Spark的
Mllib /GraphX
1.支持分类预测、聚类、社团挖掘等高复杂度的
数据分析
2.分布式内存计算,性能较 SQL高
1.单机算法的算力有限,无法应对大规模数
据集的分析
2.分布式算法种类有限,场景覆盖不全,共
17个机器学习和 9个图分析算法
1.中等数据规模
2.Spark入门级,性能需求不高场景服务器
网络/安全设备 存储
云平台
HDFSYarn Hbase Spark 大数据算法ECS虚拟机
数据库
对象存储大数据
基础设施数据服务
查询设防 社团分析 动向分析图片/视
频检索人物画像警综系统 情报系统 XZ系统 经侦系统
禁D系统 治安系统 出入境系统 警保系统应用系统
倍级性能提升
相比开源算法,精度高,性能提升最高 20倍
易部署
与原生 Spark算法完全一致的类和接口定义 ,
无需上层应用做任何修改覆盖全
覆盖社区发现、路径分析、分类回归等主流
算法类型三大优势基于业界主流 Spark平台扩展大数据分布式算法种类,
提升算法精度和计算性能 ,全方位优化 GA作战效率大数据算法鲲鹏大数据机器学习 /图分析算法 :作为平台加速库提升安平数据服务能力
…鲲鹏大数据机器学习 /图分析算法:进阶算法,分析性能提升 20倍
已发布 40+优化算法,持续优化路径分析
MSSP
BFS
CycleDetection
有权MSSP中心性分析
Unweighted PageRank
Closeness
TrustRank
KCore
Degree
PersonPageRank
Betweenness
Weighted PageRank
IncrementalPageRank
Katz社区发现
WCE
MCE
Louvain
LPA
SCC
CC
IncrementalWCC拓扑度量
TriangleCount
Modularity
ClusteringCoefficient
GraphDiameter
GraphRadius
GraphEccentricity图分析算法 机器学习算法
分类回归
GBDT
RandomForest
SVM
LogisticRegression
LinearRegression
DecisionTree
KNN
XGBoost
LightGBM
IsolationForest特征工程
PCA
SVD
Covariance
Pearson
Spearman
IDF聚类
Kmeans
DBSCAN
LDA
HDBSCAN推荐
ALS模式挖掘
PrefixSpan
SimRank
FP-Growth
Spark已有
自研算法
规划中
算法亲和性优化 算法原理优化
分布式优化求解
集成学习
分布式子图分割
稀疏图压缩多核并行优化
通信数据优化
内存数据结构优化
备注:测试 采用业界公开的数据集针对算法的业务开发分析 :
•Spark已有算法 :直接替换,
零代码开发,使用无成本
•自研新增算法 :解决开源算法
不能覆盖的业务场景问题,需
要基于算法做业务集成开发
5.556.136.171010.4813.217.220.11
ModulartityBFSMCETriangleCountPCAKmeansSCCLouvainBoostKit 优化算法 vs 原生算法的性能比值目录
图分析
算法加速库机器学习
算法加速库应用场景
分析Huawei Confidential 8
由点(个体)和边(关系)组成的图图分析技术说明
图分析是指对图数据进行 高效的关联发现与分析 的一种技术 。
图数据由节点 (个体)与边(个体之间的联系 )构成。什么情况下需要使用图分析技术
•需要在亿级 /百亿量级数据进行 关系洞察和关联分析,
例如团伙核心人员识别
•需要关联多维度数据 综合分析,例如通过同航班、同
住、同户口等挖掘作案团伙
•偏追根寻源 类的场景更需要图数据支持,例如 涉毒线
索追寻、欺诈资金查控等
华为 姜玥-鲲鹏BoostKit大数据机器学习 图分析算法V1.2
安全文档 >
网络安全 >
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2023-03-04 11:18:10上传分享