鲲鹏BoostKit 大数据机器学习 &图分析算法 Security Level:目录 应用场景 分析图分析 算法加速库机器学习 算法加速库分析技术 精准查询、智能研判 关键内容检索、知识提取社交关系、关联网络分析 线索分析、串并案分析业务 主要痛点 设防分析 重点目标设防、舆情看管作案团伙挖掘、网上追逃 作案动向 /作分析、电子证据作案人员查询、互联网侦查安平行业面临的痛点挑战 1、搜索条件多、范围广,需要频繁修改筛选条件 重复查 询,导致耗时长 2、基于人工规则分析研判,强依赖 主观经验和个人能力 , 预测精度普遍较低,查询结果不准确 1、大规模场景下 团伙挖掘性能差 ,40台机器跑完 800 个群体需要至少一天 2、人工研判需要外部输入线索信息依赖太多,无法满 足高精度 信息分析 1、特征提取需要人工干预,耗时较长 2、人工经验总结的经验规则, 随时间推移慢慢失效 ,导 致模型精度降低,检索结果不够精准 1、设防预测的精度较低,导致设防范围较大,难以 快速找出核心目标 现有方案无法满足海量数据的分析精度和性能要求安平行业 主流解决方案 使用方式 优势 适用场景劣势依赖数据库, ISV自定义规则的 SQL或类SQL实 现的分析技术基于规则 1.解释性强,容易理解 2.基于SQL技术,易上手使用 1.人工定制规则,准确度低 2.数据分析时间长 3.不支持趋势预测等复杂分析 1.较小数据规模 2.规则明确且准确开源算法库 基于单机的 Python算法库,或基于 Spark的 Mllib /GraphX 1.支持分类预测、聚类、社团挖掘等高复杂度的 数据分析 2.分布式内存计算,性能较 SQL高 1.单机算法的算力有限,无法应对大规模数 据集的分析 2.分布式算法种类有限,场景覆盖不全,共 17个机器学习和 9个图分析算法 1.中等数据规模 2.Spark入门级,性能需求不高场景服务器 网络/安全设备 存储 云平台 HDFSYarn Hbase Spark 大数据算法ECS虚拟机 数据库 对象存储大数据 基础设施数据服务 查询设防 社团分析 动向分析图片/视 频检索人物画像警综系统 情报系统 XZ系统 经侦系统 禁D系统 治安系统 出入境系统 警保系统应用系统 倍级性能提升 相比开源算法,精度高,性能提升最高 20倍 易部署 与原生 Spark算法完全一致的类和接口定义 , 无需上层应用做任何修改覆盖全 覆盖社区发现、路径分析、分类回归等主流 算法类型三大优势基于业界主流 Spark平台扩展大数据分布式算法种类, 提升算法精度和计算性能 ,全方位优化 GA作战效率大数据算法鲲鹏大数据机器学习 /图分析算法 :作为平台加速库提升安平数据服务能力 …鲲鹏大数据机器学习 /图分析算法:进阶算法,分析性能提升 20倍 已发布 40+优化算法,持续优化路径分析 MSSP BFS CycleDetection 有权MSSP中心性分析 Unweighted PageRank Closeness TrustRank KCore Degree PersonPageRank Betweenness Weighted PageRank IncrementalPageRank Katz社区发现 WCE MCE Louvain LPA SCC CC IncrementalWCC拓扑度量 TriangleCount Modularity ClusteringCoefficient GraphDiameter GraphRadius GraphEccentricity图分析算法 机器学习算法 分类回归 GBDT RandomForest SVM LogisticRegression LinearRegression DecisionTree KNN XGBoost LightGBM IsolationForest特征工程 PCA SVD Covariance Pearson Spearman IDF聚类 Kmeans DBSCAN LDA HDBSCAN推荐 ALS模式挖掘 PrefixSpan SimRank FP-Growth Spark已有 自研算法 规划中 算法亲和性优化 算法原理优化 分布式优化求解 集成学习 分布式子图分割 稀疏图压缩多核并行优化 通信数据优化 内存数据结构优化 备注:测试 采用业界公开的数据集针对算法的业务开发分析 : •Spark已有算法 :直接替换, 零代码开发,使用无成本 •自研新增算法 :解决开源算法 不能覆盖的业务场景问题,需 要基于算法做业务集成开发 5.556.136.171010.4813.217.220.11 ModulartityBFSMCETriangleCountPCAKmeansSCCLouvainBoostKit 优化算法 vs 原生算法的性能比值目录 图分析 算法加速库机器学习 算法加速库应用场景 分析Huawei Confidential 8 由点(个体)和边(关系)组成的图图分析技术说明 图分析是指对图数据进行 高效的关联发现与分析 的一种技术 。 图数据由节点 (个体)与边(个体之间的联系 )构成。什么情况下需要使用图分析技术 •需要在亿级 /百亿量级数据进行 关系洞察和关联分析, 例如团伙核心人员识别 •需要关联多维度数据 综合分析,例如通过同航班、同 住、同户口等挖掘作案团伙 •偏追根寻源 类的场景更需要图数据支持,例如 涉毒线 索追寻、欺诈资金查控等

pdf文档 华为 姜玥-鲲鹏BoostKit大数据机器学习 图分析算法V1.2

安全文档 > 网络安全 > 文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
华为 姜玥-鲲鹏BoostKit大数据机器学习 图分析算法V1.2  第 1 页 华为 姜玥-鲲鹏BoostKit大数据机器学习 图分析算法V1.2  第 2 页 华为 姜玥-鲲鹏BoostKit大数据机器学习 图分析算法V1.2  第 3 页
下载文档到电脑,方便使用
本文档由 SC2023-03-04 11:18:10上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。