全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111389734.X (22)申请日 2021.11.22 (71)申请人 深圳深度赋智科技有限公司 地址 518000 广东省深圳市南 山区粤海街 道科技园社区科苑路8号讯美科技广 场1号楼815 (72)发明人 曹勇 吴承霖 张杨 陈焕坤  (74)专利代理 机构 北京知果之信知识产权代理 有限公司 1 1541 代理人 高科 (51)Int.Cl. G06F 40/284(2020.01) G06N 5/02(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于自动机器学习平台的智能信息抽 取系统构建方法 (57)摘要 本发明涉及自然语言处理的文档信息抽取 技术领域, 公开了一种基于自动机器学习平台的 智能信息抽取系统构建方法, 基于知识工程的方 法和自动机器学习平台复合抽取的方法来完成 信息抽取的任务, 基于自动机器学习平台完成模 型算子的自动选择, 自动对用户的输入进行预处 理、 建模分析、 标准输出和服务提供, 同时, 基于 知识工程的方法用于对特定字段的抽取, 自动机 器学习平台极大地优化现有基于深度学习的信 息抽取效果, 而基于传统的知识工程的方法提升 信息抽取的覆盖度和不同场景的抽取效果, 通过 综合两类抽取方法, 对于文档的结构信息、 上下 文信息、 特殊信息都能够有更加全面的定位和认 知。 权利要求书2页 说明书6页 附图3页 CN 114118077 A 2022.03.01 CN 114118077 A 1.一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 包括以下 步骤: S01: 设计自动机器学习平台系统架构, 包括前端设计、 算法设计、 后台部署三个板块; S02: 构建信息抽取公开数据集资源库, 同时融合用户提供的数据集形成增强数据集; S03: 构建数据集标注系统, 用户对需要抽取的部分重要信息进行标注, 将标注好的数 据作为训练数据; S04: 设计OCR算子, 实现多种类型文档的智能解析, 转换为信息抽取系统可用的数据集 格式; S05: 构建文本对齐算子、 词向量转换算子、 数据集增强算子, 对数据集进行预处理和数 据增强; S06: 构建自动机器学习平台, 基于主流 的bert类算子、 bilstm算子、 crf算子等构建模 型算子空间, 设计完备的算子超参数搜索空间, 通过实验论证各参数的最优取值范围; S07: 基于知识工程和模式识别的方法构建模板规则库, 从传统的信息抽取方法上实现 抽取流程; S08: 构建自动机器学习的训练pipeline、 离线测试pipeline和在线推理pipeline, 同 时完成微 服务部署; S09: 将两种方案的结果进行融合输出, 并做信息抽取结果的校验和评估, 最后以结构 化的方式进行输出。 2.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 步骤S01中, 设计自动机器学习平 台的UI界面, 包括登录注册、 上传数据、 选择 项目类型、 构建任务、 自动配置模 型参数组合、 自动构建模 型算子组合、 执行训练pipeline、 执行离线测试pipeline、 部署在线服务pipeline、 配置数据导出模 型、 查看解决方案等功能 模块。 3.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 步骤S 02中, 增强后的数据集按照一定的比例进 行训练集、 测试集的划分, 且训 练集不仅用于深度学习模型 的训练, 同时也输入到专家系统用于特征分析、 模板构建和规 则制定。 4.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 步骤S 03中, 提供用户标注的平台, 用户直接上传无标签数据, 同时通过标注平 台进行智能标注, 同时优化标注平台的操作流程、 标注效率, 实现同类信息自动标注、 相关 信息推荐标注。 5.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 步骤S06中, 构建完备的超参数搜索 空间和模型算子空间, 每次试验通过优化 算法自动选择一组解决方案进行训练, 得到训练结果后再调整解决方案的算子选择, 不断 迭代得到最优 模型。 6.根据权利要求5所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 模型训练过程中, 超参数 的定义方式为, 定义一个全范围的搜索空间, 包括学 习率、 迭代轮次、 批处理大小、 分字策略、 数据集划分比例, 在这个空间中, 每一次实验就按 照一定的优化策略对每一类超参数确定一个取值, 去迭代模型, 得到模型结果后, 模型选择权 利 要 求 书 1/2 页 2 CN 114118077 A 2一个更好的解决方案的值。 7.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 步骤S07中, 根据特征工程的方法对数据集进行分析, 总结出信息抽取的规则 集合, 按照集合去抽取对应字段的信息, 同时对抽取结果进行评估, 调整规则集合, 对规则 集合中的元 素进行增 加、 删除和修改, 以迭代模型和优化抽取效果。 8.根据权利要求7所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 基于自然语言文本中的模式识别和模式匹配方法从海量文本中抽取不同种类 的信息, 不局限于使用单一模式进行信息抽取, 基于深度学习模型和模板规则同时进行抽 取, 对不同字段 涉及不同的抽取 方案, 最终将抽取 结果进行汇总, 作为 最终输出。 9.根据权利要求8所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 对于模板规则的方法进行不断迭代, 每一轮迭代都需要对抽取效果进行评估 后, 根据指标 结果进行动态调整; 信息抽取模型的指标定义为精确率、 召回率和F1值三类, 其中精确率是信息抽取正确 的字段和所有抽取到的字段数的比率, 召回率是指抽取正确的字段和所有抽取正确的字段 的比率; 为了同时考虑查全率和查准率, 引 入F1值指标, F1值定义为正确率和召回率的调和平 均值, 其计算公式为: F1值=正确率*召回率*2/(正确率+召回率)。 10.根据权利要求9所述的一种基于自动机器学习平台的智能信息抽取系统构建方法, 其特征在于, 信息抽取后, 对抽取效果进行校验, 添加多重校验机制, 通过校验算子对抽取 结果进行格式化整理和校验, 允许用户在线校验抽取结果, 记录并保存抽取正确的字段用 以迭代算法模型, 优化抽取效果。权 利 要 求 书 2/2 页 3 CN 114118077 A 3

.PDF文档 专利 一种基于自动机器学习平台的智能信息抽取系统构建方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自动机器学习平台的智能信息抽取系统构建方法 第 1 页 专利 一种基于自动机器学习平台的智能信息抽取系统构建方法 第 2 页 专利 一种基于自动机器学习平台的智能信息抽取系统构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:59:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。