专利 一种从研报自动构建产业链图谱的方法及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211325252.2 (22)申请日 2022.10.27 (71)申请人哈尔滨工业大学（深圳）（哈尔滨工业大学深圳科技创新研究院）地址 518055 广东省深圳市南山区桃源街道哈尔滨工业大学 (72)发明人陈清财　杨新兰　李东方　 (74)专利代理机构深圳市君胜知识产权代理事务所(普通合伙) 44268 专利代理师陈专 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06Q 50/04(2012.01) (54)发明名称一种从研报自动构建产业链图谱的方法及相关设备 (57)摘要本发明公开了一种从研报自动构建产业链图谱的方法及相关设备。方法包括：载入面向研报的产业链图谱模式；获取原始研报文档集合，分别对原始研报集合中的每一个原始研报文本进行预处理，得到目标文本；采用实体关系同步抽取模型同时抽取句子序列中的目标三元组和目标独立实体；采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对；将获取到的一个或多个所述目标属性对与初始第二三元组进行匹配对齐，得到目标第二三元组；将目标第一三元组和目标第二三元组添加到目标产业链图谱。本发明提供的从研报自动构建产业链图谱的方法能有效应对复杂情境下通过研报文本自动化构建大规模产业链图谱的需求，降低人力损耗与时间成本。权利要求书3页说明书12页附图3页 CN 115391569 A 2022.11.25 CN 115391569 A 1.一种从研报自动构建产业链图谱的方法，其特征在于，包括：载入面向研报的，含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式，在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息，所述三元组为第一三元组或第二三元组，所述第一三元组和所述第二三元组为结构为 “头实体类型 ‑关系类型 ‑尾实体类型 ”，在所述第二三元组中，所述关系类型还包括至少一个与所述关系类型对应的属性对，所述属性对为简单属性对或复杂属性对，所述简单属性对包括一个第一属性和一个第二属性，所述第一属性为所述属性对的名称，所述第二属性为所述属性对的取值；所述复杂属性对包括一个第一属性和多个第二属性，所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束；获取原始研报文档集合，分别对所述原始研报集合中的每一个原始研报文本进行预处理，得到目标文本，所述目标文本由非空句子序列组成；采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体，所述目标三元组为目标第一三元组或初始第二三元组；采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对，所述目标属性对中包括目标第一属性和目标第二属性；对于包含属性对的句子序列，将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐，得到目标第二三元组，所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对；将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。 2.根据权利要求1所述的从研报自动构建产业链图谱的方法，其特征在于，所述对所述原始研报集合中的每一个原始研报文本进行预处理，包括：通过光学字符识别技术对所述原始研报文本进行文本识别，得到方便读写的第一文字文本；对所述第一文字文本进行文本清洗，去除所述第一文字文本中的噪音字符，得到第二文字文本，所述噪音字符为对真实文本无实际描述作用的字符；对所述第二文字文本进行分句处理，将所述第二文字文本划分为非空句子序列，得到所述目标文本。 3.根据权利要求1所述的从研报自动构建产业链图谱的方法，其特征在于，所述实体关系同步抽取模型包括句子序列编码模块，子任务特征选择模块和子任务目标信息预测模块；所述句子序列编码模块基于已标注实体和关系信息的训练集和验证集，采用通用预训练模型对所述句子序列进行编码，得到目标向量；所述子任务特征选择模块用于获取实体抽取子任务和关系预测子任务分别对应的特征信息，所述实体抽取子任务用于根据所述目标向量抽取所述句子序列中的目标实体片段；所述子任务目标信息预测模块基于所述实体抽取子任务的特征信息判断所述目标实体片段的类型是否属于所述目标实体类型，若是，则保留所述目标实体片段，若不是，则丢弃所述目标实体片段；所述子任务目标信息预测模块还基于所述关系预测子任务的特征信息判断所述实体权　利　要　求　书 1/3 页 2 CN 115391569 A 2对之间的关系，得到目标关系的特征表示，根据所述目标关系的特征表示判断所述目标关系的类型是否属于所述目标关系类型，若是，则保留所述目标关系，若不是，则丢弃所述目标关系；根据所述目标实体片段及其对应的目标关系，得到目标三元组，没有对应关系的所述目标实体片段则为所述目标独立实体信息。 4.根据权利要求1所述的从研报自动构建产业链图谱的方法，其特征在于，所述抽取含有指标描述的句子序列中的目标属性对，包括：判断所述句子序列是否包含指标，若包含指标，则采用所述指标属性抽取模型抽取所述句子序列中的目标属性对；所述目标属性对为简单属性对或复杂属性对。 5.根据权利要求1所述的从研报自动构建产业链图谱的方法，其特征在于，所述将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐，包括：将获取到的所述目标属性对中的所述目标第二属性与对应的所述初始第二三元组进行匹配对齐，其中，所述目标第二属性中的部分属性与对应的所述初始第二三元组的关系进行对齐，所述目标第二属性中的另一部分部分属性对应的取值与所述三元组中头实体或尾实体进行匹配对齐，得到目标第二三元组，所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的属性信息。 6.根据权利要求1所述的从研报自动构建产业链图谱的方法，其特征在于，所述目标实体类型的列表根据所述目标文本和所述目标任务场景需求动态调整；所述目标关系类型的列表根据所述目标实体类型和所述目标文本动态调整；所述目标属性类型的列表根据所述目标属性类型和所述目标文本动态调整。 7.一种从研报自动构建产业链图谱的装置，其特征在于，所述装置包括：产业链图谱模式载入模块，所述产业链图谱模式载入模块用于载入面向研报的，含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式，在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息，所述三元组为第一三元组或第二三元组，所述第一三元组和所述第二三元组为结构为 “头实体类型 ‑关系类型 ‑尾实体类型 ”，在所述第二三元组中，所述关系类型还包括至少一个与所述关系类型对应的属性对，所述属性对为简单属性对或复杂属性对，所述简单属性对包括一个第一属性和一个第二属性，所述第一属性为所述属性对的名称，所述第二属性为所述属性对的取值；所述复杂属性对包括一个第一属性和多个第二属性，所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束；目标文本获取模块，所述目标文本获取模块用于获取原始研报文本集合，分别对所述原始研报集合中的每一个原始研报文本进行预处理，得到目标文本，所述目标文本由非空句子序列组成；实体关系同步抽取模块，所述实体关系同步抽取模块用于采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体，所述目标三元组为目标第一三元组或初始第二三元组；指标属性抽取模块，所述指标属性抽取模块用于采用指标属性抽取模型，所述指标属权　利　要　求　书 2/3 页 3 CN 115391569 A 3

专利 一种从研报自动构建产业链图谱的方法及相关设备

专利一种从研报自动构建产业链图谱的方法及相关设备