全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210927239.8 (22)申请日 2022.08.03 (71)申请人 浙商期货有限公司 地址 310000 浙江省杭州市西湖区天目山 路198号财通双冠 大厦东楼 9-12层 (72)发明人 杨胜利 吴福文 康维鹏 唐逐时  (74)专利代理 机构 杭州创智卓英知识产权代理 事务所(普通 合伙) 33324 专利代理师 唐超文 (51)Int.Cl. G06F 40/186(2020.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/215(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/84(2019.01) G06Q 40/06(2012.01) (54)发明名称 一种期货领域的投研报告处 理方法和系统 (57)摘要 本申请涉及一种期货领域的投研报告处理 方法, 其中, 该方法包括: 采集期货行业的原始数 据, 包括: 结构化数据、 半结构化数据和非结构化 数据, 其中, 结构化数据可 以通过关系型数据库 进行管理; 对结构化数据和半结构化数据, 进行 预处理得到第一语义数据, 对非结构化数据进行 预处理及语义结构化处理, 得到第二语义知 识数 据; 基于第一语义知识数据和第二语义知识数 据, 构建期货结构化基础数据和产业链关联图 谱; 根据期货结构化基础数据和产业链关联图 谱, 自动化进行进行投投研报告告选题以及自动 化生成投投研报告。 通过本申请, 解决了期货领 域传统投研方式可靠性较差的问题, 实现了效率 和可靠性。 权利要求书3页 说明书14页 附图4页 CN 115358201 A 2022.11.18 CN 115358201 A 1.一种期 货领域的投研报告处 理方法, 其特 征在于, 所述方法包括: 采集期货行业的原始数据, 包括: 结构化数据、 半结构化数据和非结构化数据, 其中, 所 述结构化数据可以通过关系型 数据库进行 管理; 对所述结构化数据和所述半结构化数据, 进行预处理, 到第 一语义数据, 对所述非结构 化数据进行 预处理及语义结构化处 理, 得到第二语义知识数据; 基于所述第 一语义知识数据和所述第 二语义知识数据, 构建期货结构化基础数据和产 业链关联图谱; 根据所述期货结构化基础数据和所述产业链关联图谱, 自动 化进行投研报告选题以及 自动化生成投研报告。 2.根据权利要求1所述的方法, 其特 征在于, 所述结构化数据为关系型 数据, 可通过关系型 数据库进存 储和管理; 所述半结构化数据为报表数据, 其非关系型 数据但具 备固定的数据格式; 所述非结构化数据为 不具备固定格式的文档数据。 3.根据权利要求2所述的方法, 其特征在于, 对所述结构化数据和所述半结构化数据, 进行预处理, 到第一语义数据包括: 对于所述结构化数据: 对其中的缺失数据进行忽略和/或补漏, 对其中的重复数据进行 合并和/或冗余剔除, 以及对其中的噪声数据进行平 滑处理; 对于所述半结构化数据, 通过Xpath定向抽取模板对所述非结构化数据进行抽取, 将数 据表格转换为可存 储的结构化库表数据; 集合所述预处理之后的结构化数据和所述结构化库表数据, 得到所述第 一语义知识数 据。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述非结构化数据进行预处理包 括: 提取所述非结构化数据中的文档对应的内容对象流, 对所述内容对象流进行解码得到 标准字符流; 对所述标准字符流进行信息提取得到目标信息, 其中, 所述目标信息包括: 标题信息、 事件信息、 来源信息、 正文 文本信息、 发布者信息 。 5.根据权利要求1所述的方法, 其特征在于, 对所述非结构化数据进行语义结构化处 理, 包括: 对非结构化数据中的文本进行分词, 并通过预训练模型获取所述文本中各个分词的实 体识别结果; 采用以Transformer为基础结构的BERT预训练模型, 对所述文本中各个分词进行分类 标记; 通过抽取 所述文本中的事 件信息, 进行事 件结构化处 理。 6.根据权利要求5所述的方法, 其特征在于, 对非结构化数据中的文本进行分词, 并通 过预训练模型获取 所述文本中各个分词的实体识别结果包括: 将文本拆分为多个单字, 基于所述单字、 所述单字的拼音和笔画结构, 得到所述单字对 应的字嵌入向量; 将所述字嵌入向量输入BiLSTM ‑CRF模型, 通过模型的BiLSTM层输出每个字嵌入向量对权 利 要 求 书 1/3 页 2 CN 115358201 A 2应于各个命名实体的得分; 通过模型的CRF层基于所述得分, 采用BI序列标签体系, 输出所述单词对应的实体识别 结果。 7.根据权利要求5所述的方法, 其特 征在于, 抽取 所述文本中的事 件信息包括: 通过启发式规则方式和模型 预测方式, 抽取 所述文本中的事 件信息, 其中, 所述启发式规则方式包括: 查找所述文本 中是否包含事件的触发关键词, 若是, 将所述 触发关键词在预设匹配模板中进行匹配, 以获取文本中的事 件元素; 所述模型预测方式包括: 通过BiLSTM ‑CRF模型, 基于文本的实体识别结果、 文本中间语 义信息、 最佳序列化标签和预设事 件类型, 获取事 件元素及其对应的事 件类别。 8.根据权利要求1所述的方法, 其特征在于, 构建期货产业链关联知识图谱包括: 构建 上下游产业链知识信息, 和构建事 件传导因子关系知识信息, 其中: 所述构建上 下游产业链知识信息包括: 获取上下游产业链关联关系, 将所述文本按照预设窗口长度进行句段划分, 得到用于 关系抽取的Context上下文; 对所述Context上下文中的实体, 依次根据所述关联关系进行 关联判定, 得到所述Co ntext上下文中实体符合所述关联关系的成立 概率; 所述构建事 件传导因子关系知识信息, 包括: 识别所述文本中的期 货品种及因子关键词; 将所述文本中的事件进行组合得到事件对, 并基于所述上下游产业链知识信息、 所述 因子关键词、 和所述Co ntext上下文对所述事 件对进行关系分类。 9.根据权利要求1所述的方法, 其特征在于, 所述基于所述期货产业链知识图谱, 生成 投研报告, 包括投研报告选题流 程和投研报告生成流 程, 其中: 所述投研报告选题流 程包括: 将所述事件进行事件聚合, 获取其中的热点事件, 基于所述期货产业链关联图谱, 分析 所述热点事件的起因链路; 基于所述期货产业链关联图谱, 参考所述起因链路, 通过限定深 度的广度优先算法, 获取所述热点事件的最佳关联传导链路; 基于所述热点事件, 所述热点 事件的起因链路和关联传导链路, 获取选题要素; 所述投研报告生成流 程包括包括: 获取与所述选题要素匹配度最高的预设投研报告生成模板, 其中, 所述预设投研报告 生成模板中定义有样式信息, 所述样式信息包括 篇章结构、 文本片段和数据图; 确定所述选题要素对应的目标热点事件, 获取所述目标热点事件的文本信息摘要, 其 中, 所述文本信息摘要包括: 事 件主体、 事 件信息、 跌幅信息、 成交量信息; 根据所述文本信息摘要获取行业指标数据, 并按照Echarts图表形式对所述行业指标 数据进行渲染, 得到反映所述事 件走势的可视化图表; 基于所述期货产业链关联图谱, 获取所述目标热点事件对应的目标起因事件和目标传 导事件, 获取所述 目标起因事件和所述 目标传导事件的文本摘要, 并生成所述目标起因事 件和所述目标传导事 件对应的可视化图表。 10.一种期货领域的投研报告处理系统, 其特征在于, 所述系统包括: 采集模块, 预处理 模块、 知识图谱构建模块和报告生成模块, 其中, 所述采集模块用于, 采集期货行业的原始数据, 包括: 结构化数据、 半结构化数据和非权 利 要 求 书 2/3 页 3 CN 115358201 A 3

PDF文档 专利 一种期货领域的投研报告处理方法和系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种期货领域的投研报告处理方法和系统 第 1 页 专利 一种期货领域的投研报告处理方法和系统 第 2 页 专利 一种期货领域的投研报告处理方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。