(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211325252.2 (22)申请日 2022.10.27 (71)申请人 哈尔滨工业大 学 (深圳) (哈尔滨工 业大学深圳科技创新研究院) 地址 518055 广东省深圳市南 山区桃源街 道哈尔滨工业大 学 (72)发明人 陈清财 杨新兰 李东方  (74)专利代理 机构 深圳市君胜知识产权代理事 务所(普通 合伙) 44268 专利代理师 陈专 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06Q 50/04(2012.01) (54)发明名称 一种从研报自动构建产业链图谱的方法及 相关设备 (57)摘要 本发明公开了一种从研报自动构建产业链 图谱的方法及相关设备。 方法包括: 载入面向研 报的产业链图谱模式; 获取原始研报文档集合, 分别对原始研报集合中的每一个原始研报文本 进行预处理, 得到目标文本; 采用实体关系同步 抽取模型同时抽取句子序列中的目标三元组和 目标独立实体; 采用指标属性抽取模 型抽取含有 指标描述的句子序列中的目标属性对; 将获取到 的一个或多个所述目标属性对与初始第二三元 组进行匹配对齐, 得到目标第二三元组; 将目标 第一三元组和目标第二三元组添加到目标产业 链图谱。 本发 明提供的从研报自动构建产业链图 谱的方法能有效应对复杂情境下通过研报文本 自动化构建大规模产业链图谱的需求, 降低人力 损耗与时间成本 。 权利要求书3页 说明书12页 附图3页 CN 115391569 A 2022.11.25 CN 115391569 A 1.一种从研报自动构建产业链图谱的方法, 其特 征在于, 包括: 载入面向研报的, 含有目标实体类型、 目标关系类型及目标属性类型的产业链图谱模 式, 在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信 息, 所述三元组为第一三元组或第二三元组, 所述第一三元组和所述第二三元组为结构为 “头实体类型 ‑关系类型 ‑尾实体类型 ”, 在所述第二三元组中, 所述关系类型还包括至少一 个与所述关系类型对应的属 性对, 所述属 性对为简单属 性对或复杂属 性对, 所述简单属 性 对包括一个第一属 性和一个第二属 性, 所述第一属 性为所述属 性对的名称, 所述第二属 性 为所述属 性对的取值; 所述复杂属 性对包括一个第一属 性和多个第二属 性, 所述复杂属 性 对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束; 获取原始研报文档集合, 分别对所述原始研报集合中的每一个原始研报文本进行预处 理, 得到目标文本, 所述目标文本由非空句子序列组成; 采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体, 所述目标三元组为目标第一 三元组或初始第二 三元组; 采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对, 所述目标属性 对中包括目标第一属性和目标第二属性; 对于包含属性对的句子序列, 将 获取到的一个或多个所述目标属性对与所述初始第 二 三元组进行匹配对齐, 得到目标第二三元组, 所述 目标第二三元组中包含了所述初始第二 三元组和所述初始第二 三元组对应的一个或多个所述目标属性对; 将所述目标第一 三元组和所述目标第二 三元组添加到目标产业链图谱。 2.根据权利要求1所述的从研报自动构建产业链图谱的方法, 其特征在于, 所述对所述 原始研报集 合中的每一个原 始研报文本进行 预处理, 包括: 通过光学字符识别技术对所述原始研报文本进行文本识别, 得到方便读写的第 一文字 文本; 对所述第一文字文本进行文本清洗, 去除所述第一文字文本中的噪音 字符, 得到第二文字文本, 所述噪音字符为对真实文本无实际描述作用的字符; 对所述第二文字文本进行分句处理, 将所述第二文字文本划分为非空句子序列, 得到 所述目标文本 。 3.根据权利要求1所述的从研报自动构建产业链图谱的方法, 其特征在于, 所述实体关 系同步抽取模型包括句子序列编码模块, 子任务特征选择模块和子任务目标信息预测模 块; 所述句子序列编码模块基于已标注实体和关系信 息的训练集和验证集, 采用通用预训 练模型对所述句子序列进行编码, 得到目标向量; 所述子任务特征选择模块用于获取实体抽取子任务和关系预测子任务分别对应的特 征信息, 所述实体抽取子任务用于根据所述目标向量抽取所述句子序列中的目标实体片 段; 所述子任务目标信息预测模块基于所述实体抽取子任务的特征信息判断所述目标实 体片段的类型是否属于所述目标实体类型, 若是, 则 保留所述 目标实体片段, 若不是, 则丢 弃所述目标实体片段; 所述子任务目标信息预测模块还基于所述关系预测子任务的特征信息判断所述实体权 利 要 求 书 1/3 页 2 CN 115391569 A 2对之间的关系, 得到目标关系的特征表示, 根据所述 目标关系的特征表示判断所述 目标关 系的类型是否属于所述 目标关系类型, 若是, 则 保留所述目标关系, 若不是, 则丢弃所述目 标关系; 根据所述目标实体片段及其对应的目标关系, 得到目标三元组, 没有对应关系的所述 目标实体片段则为所述目标独立实体信息 。 4.根据权利要求1所述的从研报自动构建产业链图谱的方法, 其特征在于, 所述抽取含 有指标描述的句子序列中的目标属性对, 包括: 判断所述句子序列是否包含指标, 若包含指标, 则采用所述指标属性抽取模型抽取所 述句子序列中的目标属性对; 所述目标属性对为简单属性对或复杂属性对。 5.根据权利要求1所述的从研报自动构建产业链图谱的方法, 其特征在于, 所述将 获取 到的一个或多个所述目标属性对与所述初始第二 三元组进行匹配对齐, 包括: 将获取到的所述目标属性对中的所述目标第二属性与对应的所述初始第二三元组进 行匹配对齐, 其中, 所述 目标第二属 性中的部分属 性与对应的所述初始第二三元组的关系 进行对齐, 所述目标第二属性中的另一部 分部分属性对应的取值与所述三元组中头实体或 尾实体进行匹配对齐, 得到 目标第二三元组, 所述目标第 二三元组中包含了所述初始第 二三元组和所述初始第 二 三元组对应的属性信息 。 6.根据权利要求1所述的从研报自动构建产业链图谱的方法, 其特征在于, 所述目标实 体类型的列表根据所述目标文本和所述目标任务场景需求动态调整; 所述目标关系类型的列表根据所述目标实体 类型和所述目标文本动态调整; 所述目标属性类型的列表根据所述目标属性类型和所述目标文本动态调整。 7.一种从研报自动构建产业链图谱的装置, 其特 征在于, 所述装置包括: 产业链图谱模式载入模块, 所述产业链图谱模式载入模块用于载入面向研报的, 含有 目标实体类型、 目标关系类型及目标属 性类型的产业链图谱模式, 在所述产业链图谱模式 中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息, 所述三元组为第一三元 组或第二三元组, 所述第一三元组和所述第二三元组为结构为 “头实体类型 ‑关系类型 ‑尾 实体类型 ”, 在所述第二三元组中, 所述关系类型还包括至少一个与所述关系类型对应的属 性对, 所述属 性对为简单属 性对或复杂属 性对, 所述简单属 性对包括一个第一属 性和一个 第二属性, 所述第一属性为所述属性对的名称, 所述第二属性为所述属性对的取值; 所述复 杂属性对包括一个第一属性和多个第二属性, 所述复杂属性对中的所述第二属性包括所述 复杂属性对的取值和至少一个对所述复杂属性对的约束; 目标文本获取模块, 所述目标文本获取模块用于获取原始研报文本集合, 分别对所述 原始研报集合中的每一个原始研报文本进行预处理, 得到目标文本, 所述 目标文本由非空 句子序列组成; 实体关系同步抽取模块, 所述实体关系同步抽取模块用于采用实体关系同步抽取模型 同时抽取所述句子序列中的目标三元组和目标独立实体, 所述目标三元组为目标第一三元 组或初始第二 三元组; 指标属性抽取模块, 所述指标属性抽取模块用于采用指标属性抽取模型, 所述指标属权 利 要 求 书 2/3 页 3 CN 115391569 A 3

.PDF文档 专利 一种从研报自动构建产业链图谱的方法及相关设备

安全报告 > 其他 > 文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种从研报自动构建产业链图谱的方法及相关设备 第 1 页 专利 一种从研报自动构建产业链图谱的方法及相关设备 第 2 页 专利 一种从研报自动构建产业链图谱的方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:37:32上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
热门文档
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。