专利基于企业征信大数据知识图谱的企业风险检测方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210302732.0 (22)申请日 2022.03.24 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号北京邮电大学新科研楼627室 (72)发明人宋美娜　刘毓　鄂海红　欧中洪　张光卫　于勰　董亚飞　李国英　冯煜　国晓雪　郭京荆　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06Q 40/02(2012.01) (54)发明名称基于企业征信大数据知识图谱的企业风险检测方法和装置 (57)摘要本发明公开了基于企业征信大数据知识图谱的企业风险检测方法和装置，其中，该方法包括：通过分散数据子域数据构建企业征信大数据统一信息模型；基于企业征信大数据统一信息模型，利用自顶向下方式构建第一企业征信大数据领域本体；以及通过自底向上的构建方式对企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；基于构建好的本体，利用企业征信大数据构建企业征信大数据知识图谱，通过知识图谱进行特征获取，将获取的特征数据输入训练好的风控模型输出分类结果，并用于分类企业。本发明提升了企业征信领域知识图谱本体的精确性，提升了风控模型的性能。权利要求书2页说明书10页附图7页 CN 114817557 A 2022.07.29 CN 114817557 A 1.一种基于企业征信大数据知识图谱的企业风险检测方法，其特征在于，包括以下步骤：基于多个分散数据子域获得企业征信大数据统一信息模型；其中，所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构；通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接；基于实现所述跨域连接的企业征信大数据统一信息模型，利用自顶向下方式构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；基于所述第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中；利用所述企业征信大数据知识图谱进行企业特征数据获取，将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。 2.根据权利要求1所述的方法，其特征在于，所述企业征信大数据统一信息模型的层级化企业信息架构，包括：企业基本信息、企业人员信息、企业经营信息、企业资产信息、企业知识产权信息、企业财务信息、企业股权信息、司法数据、企业风险信息和辅助参考信息子域中的多种。 3.根据权利要求1所述的方法，其特征在于，所述通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体，包括：通过自底向上构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取；基于所述实体抽取和关系抽取，识别出所述数据中的命名实体与关系实例，并对于未能识别出的所述命名实体与关系实例进行质量判定；基于所述质量判定确定质量排名，选取优质新词并扩展所述第一企业征信大数据领域本体，以构建所述第二企业征信大数据领域本体。 4.根据权利要求1所述的方法，其特征在于，所述企业特征数据获取，包括：获取企业的基本属性特征、关联关系特征和研发创新能力特征；其中，从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发创新能力特征；以及，通过四类关系进行企业关系特征抽取，并通过最短路径算法以及社区发现算法，提取所述企业征信大数据知识图谱中的网络特征以获取所述企业的关联关系特征；其中，所述四类关系包括参股关系、投资关系、交易关系和诉讼关系。 5.根据权利要求1所述的方法，其特征在于，所述风控模型，包括：数据预处理、特征处理工程和结果分类。 6.根据权利要求5所述的方法，其特征在于，所述数据预处理，包括：对获取的所述企业特征数据进行预处理，将日期型数据转化为字符型变量，然后对全部字符型变量进行转化，得到数值型数据，提取所述数值型数据的IV值、 WOE、 efficiency和 rate。权　利　要　求　书 1/2 页 2 CN 114817557 A 27.根据权利要求6所述的方法，其特征在于，所述IV值、 WOE、 efficiency和rate的公式为：其中， Goodi和Badi表示统计每个分箱里的未违约企业数和违约企业数， GoodT和BadT分别表示总的未违约企业数和违约企业数。 8.根据权利要求 4所述的方法，其特征在于，所述特征处理工程，包括：删除缺失值超过50％的特征、只含有唯一值的特征、和其他特征相关性高于60％的特征、在梯度增强器中特征重要性为0.0的特征，从所述梯度增强器中不贡献累积特征重要性 99％的低重要性特征。 9.根据权利要求 4所述的方法，其特征在于，所述结果分类，包括：获取所述企业特征数据样本和企业标签；利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型，得到训练好的LightGBM分类模型；将所述特征处理工程处理后的特征，输入所述训练好的LightGBM分类模型，进行计算分类得到分类结果；其中，所述分类结果分为违约与正常。 10.一种基于企业征信大数据知识图谱的企业风险检测装置，其特征在于，包括：信息获取模块，用于基于多个分散数据子域获得企业征信大数据统一信息模型；其中，所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构；关系连接模块，用于通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接；本体构建模块，用于基于实现所述跨域连接的企业征信大数据统一信息模型，利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词并扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；图谱构建模块，用于基于所述第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中；计算分类模块，用于利用所述企业征信大数据知识图谱进行企业特征数据获取，将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。权　利　要　求　书 2/2 页 3 CN 114817557 A 3

专利 基于企业征信大数据知识图谱的企业风险检测方法和装置

专利基于企业征信大数据知识图谱的企业风险检测方法和装置