全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210302732.0 (22)申请日 2022.03.24 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学新科研楼627室 (72)发明人 宋美娜 刘毓 鄂海红 欧中洪  张光卫 于勰 董亚飞 李国英  冯煜 国晓雪 郭京荆  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06Q 40/02(2012.01) (54)发明名称 基于企业征信大数据知识图谱的企业风险 检测方法和装置 (57)摘要 本发明公开了基于企业征信大数据知识图 谱的企业风险检测方法和装置, 其中, 该方法包 括: 通过分散数据子域数据构建企业征信大数据 统一信息模 型; 基于企业征信大数据统一信息模 型, 利用自顶向下方式构建第一企业征信大数据 领域本体; 以及通过自底向上的构建方式对企业 征信大数据领域中的数据进行实体抽取和关系 抽取, 选取优质新词扩充第一企业征信大数据领 域本体规模, 以构建第二企业征信大数据领域本 体; 基于构建好的本体, 利用企业征信大数据构 建企业征信大数据知识图谱, 通过知识图谱进行 特征获取, 将获取的特征数据输入训练好的风控 模型输出分类结果, 并用于分类企业。 本发明提 升了企业征信领域知识图谱本体的精确性, 提升 了风控模型的性能。 权利要求书2页 说明书10页 附图7页 CN 114817557 A 2022.07.29 CN 114817557 A 1.一种基于企业征信大数据知识图谱的企业风险检测方法, 其特征在于, 包括以下步 骤: 基于多个分散数据子域获得企业征信大数据统一信息模型; 其中, 所述企业征信大数 据统一信息模型包括层次化企业信息架构和层次化关键人员架构; 通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信 息, 提取关键人物与企业之间的关系, 以实现企业征信大 数据跨域连接; 基于实现所述跨域连接的企业征信大数据统一信 息模型, 利用自顶向下方式构建第 一 企业征信大数据领域本体; 以及通过自底向上 的构建方式, 对所述企业征信大数据领域中 的数据进 行实体抽取和关系抽取, 选取优质新词扩充 所述第一企业征信大数据领域本体规 模, 以构建第二企业征信大 数据领域本体; 基于所述第 二企业征信大数据 领域本体, 利用企业征信大数据构建企业征信大数据知 识图谱并存 储在图数据库中; 利用所述企业征信大数据知识图谱进行企业特征数据获取, 将 获取的所述企业特征数 据输入训练好的风控 模型进行计算分类并输出分类结果。 2.根据权利要求1所述的方法, 其特征在于, 所述企业征信大数据统一信 息模型的层级 化企业信息架构, 包括: 企业基本信息、 企业人员信息、 企业经营信 息、 企业资产信息、 企业知识产权信息、 企业 财务信息、 企业股权信息、 司法数据、 企业 风险信息和辅助参 考信息子域中的多种。 3.根据权利要求1所述的方法, 其特征在于, 所述通过自底向上的构建方式, 对所述企 业征信大数据领域中的数据进 行实体抽取和关系抽取, 选取优质新词扩充 所述第一 企业征 信大数据领域本体规模, 以构建第二企业征信大 数据领域本体, 包括: 通过自底向上构建方式, 对所述企业征信大数据 领域中的数据进行实体抽取和关系抽 取; 基于所述实体抽取和关系抽取, 识别出所述数据中的命名实体与关系实例, 并对于未 能识别出的所述命名实体与关系实例进行质量判定; 基于所述质量判定确定质量排名, 选取优质新词并扩展所述第 一企业征信大数据 领域 本体, 以构建所述第二企业征信大 数据领域本体。 4.根据权利要求1所述的方法, 其特征在于, 所述企业特征数据获取, 包括: 获取企业的 基本属性特 征、 关联关系特 征和研发创新能力特 征; 其中, 从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发 创新能力特征; 以及, 通过四类关系进 行企业关系特征抽取, 并通过最短路径 算法以及社区 发现算法, 提取所述 企业征信大数据知识图谱中的网络特征以获取所述 企业的关联关系特 征; 其中, 所述四类关系包括 参股关系 、 投资关系、 交易关系和诉讼关系。 5.根据权利要求1所述的方法, 其特征在于, 所述风控模型, 包括: 数据预处理、 特征处 理工程和结果分类。 6.根据权利要求5所述的方法, 其特 征在于, 所述数据预处 理, 包括: 对获取的所述企业特征数据进行预处理, 将日期型数据转化为字符型变量, 然后对全 部字符型变量进行转化, 得到数值型数据, 提取所述数值型数据的IV值、 WOE、 efficiency和 rate。权 利 要 求 书 1/2 页 2 CN 114817557 A 27.根据权利要求6所述 的方法, 其特征在于, 所述IV值、 WOE、 efficiency和rate的公式 为: 其中, Goodi和Badi表示统计每个分箱里的未违约企业数和违约企业数, GoodT和BadT分 别表示总的未违约企业数和违约企业数。 8.根据权利要求 4所述的方法, 其特 征在于, 所述特 征处理工程, 包括: 删除缺失值超过50%的特征、 只含有唯一值的特征、 和其他特征相 关性高于60%的特 征、 在梯度增强器中特征重要性为0.0的特征, 从所述梯度增强器中不贡献累积特征重要性 99%的低重要性特 征。 9.根据权利要求 4所述的方法, 其特 征在于, 所述结果分类, 包括: 获取所述企业特 征数据样本和企业标签; 利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型, 得到训练好 的LightGBM分类模型; 将所述特征处理工程处理后的特征, 输入所述训练好的LightGBM分类模型, 进行计算 分类得到分类结果; 其中, 所述分类结果分为违约与正常。 10.一种基于企业征信大 数据知识图谱的企业 风险检测装置, 其特 征在于, 包括: 信息获取模块, 用于基于多个分散数据子域获得企业征信大数据统一信息模型; 其中, 所述企业征信大 数据统一信息模型包括层次化企业信息架构和层次化关键人员架构; 关系连接模块, 用于通过所述层次化关键人员架构的企业信 息和所述层次化企业信 息 架构的企业人员信息, 提取关键人物与企业之间的关系, 以实现企业征信大 数据跨域连接; 本体构建模块, 用于基于实现所述跨域连接的企业征信大数据统一信息模型, 利用自 顶向下方式确定企业征信大数据领域并构建第一 企业征信大数据领域本体; 以及通过自底 向上的构建方式, 对所述企业征信大数据领域中的数据进行实体抽取和关系抽取, 选取优 质新词并扩充 所述第一企业征信大数据领域本体规模, 以构建第二 企业征信大数据领域本 体; 图谱构建模块, 用于基于所述第二企业征信大数据领域本体, 利用企业征信大数据构 建企业征信大 数据知识图谱并存 储在图数据库中; 计算分类模块, 用于利用所述企业征信大数据知识图谱进行企业特征数据获取, 将获 取的所述企业特 征数据输入训练好的风控 模型进行计算分类并输出分类结果。权 利 要 求 书 2/2 页 3 CN 114817557 A 3

.PDF文档 专利 基于企业征信大数据知识图谱的企业风险检测方法和装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于企业征信大数据知识图谱的企业风险检测方法和装置 第 1 页 专利 基于企业征信大数据知识图谱的企业风险检测方法和装置 第 2 页 专利 基于企业征信大数据知识图谱的企业风险检测方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。