全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111390219.3 (22)申请日 2021.11.22 (71)申请人 深圳深度赋智科技有限公司 地址 518000 广东省深圳市南 山区粤海街 道科技园社区科苑路8号讯美科技广 场1号楼815 (72)发明人 林义章 万雨薇 洪思睿 张杨 吴承霖 (74)专利代理 机构 北京知果之信知识产权代理 有限公司 1 1541 代理人 高科 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/12(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于自动机 器学习的文本分类方法 (57)摘要 本发明公开了一种基于自动机器学习的文 本分类方法, 涉及文本分类技术领域, 此方法将 单次实验流程划分为依次连接和执行的预处理、 特征工程(可选)、 模型pipeline; 各pipeline支 持多种算子选择; 利用基于贝叶斯优化和遗传算 法的优化器从前次实验配置和结果获得反馈生 成用于下次实验的算子配置; 从搜索空间中搜索 出最优算子配置并返回。 本发明的有益效果为全 程自动化, 在使用者指定搜索空间后所需人力介 入为零, 系统会自动进行实验搜索最优配置, 能 够针对不同场景搜索出不同的最优算子配置, 且 搜索过程全程自动, 相关算法人员不再需要应对 每个文本分类场景进行单独地人工算法定制, 在 相同的时间内能输出更优的算子配置, 可使 得结 果准确, 可以提高流 程计算速度。 权利要求书1页 说明书7页 附图3页 CN 114398936 A 2022.04.26 CN 114398936 A 1.一种基于自动机器学习的文本分类方法, 包括以下步骤: S1:将单次实验流程划分为依次连接和执行的预处理、 特征工程(可选)、 模型 pipeline; S2:各pipel ine支持多种算子 选择; S3:利用基于贝叶斯优化和遗传算法的优化器从前次实验配置和结果获得反馈生成用 于下次实验的算子配置; S4:从搜索空间中搜索出最优算子配置并返回。 2.如权利要求1所述的一种基于自动机器学习的文本分类方法, 其特征在于, 每一 pipeline在文本分类任务下有具体功能及涵盖的具体算子, 具体而言: 预处理pipeline通过可配置长度的前向截断、 后向截断、 前向+后向截断、 可配置比例 的按比例截断等 算子执行数据预处 理; 特征工程pipel ine通过FastText, Gl oVe等算子生成embed ding, 为建模提供准备; 模型pipeline通过涵盖BERT类和非BERT类的诸多模型算子执行实际的模型训练, 对输 入文本或embed ding进行分类, 输出实验结果。 3.如权利要求2所述的一种基于自动机器学习的文本分类方法, 其特征在于, 涵盖BERT 类和非BERT类, 包括: BERT, RoBERTa, DistilBERT, ALBERT, ELECTRA, ERNIE, GPT2, XLNet, TextCNN, RCNN等约30个算子。 4.如权利要求3所述的一种基于自动机器学习的文本分类方法, 其特征在于, 预处理 pipeline接收训练数据及优化器产生的预处理算子配置, 构建相应的预处理算子, 并利用 预处理算子执 行数据预处 理。 5.如权利要求4所述的一种基于自动机器学习的文本分类方法, 其特征在于, 特征工程 pipeline的主要目的是生 成训练文本对应的embedding, 其接收预处理好的数据, 并从优化 器获得特征工程算子配置, 运用FastText, GloVe等算子生成embedding并将embedding传递 给模型pipel ine。 6.如权利要求5所述的一种基于自动机器学习的文本分类方法, 其特征在于, 模型 pipeline接收特征工程的embedding或直接接收预处理后的文本数据, 并从优化器获得模 型算子配置, 将embed ding或文本 输入模型算子, 训练模型。 7.如权利要求6所述的一种基于自动机器学习的文本分类方法, 其特征在于, 模型算子 训练完毕的同时, 会利用验证集数据得出此次实验的评估指标, 评估指标反映了利用当前 算子配置进行文本分类的表现, 系统会暂存下当前算子配置及对应指标。 8.如权利要求7所述的一种基于自动机器学习的文本分类方法, 其特征在于, 步骤S1 ‑ S4一次完成后, 系统判断总实验次数是否达到使用者规定的最大实验次数, 如果是, 系统从 暂存的所有实验记录内获取导致最优实验指标的配置, 即为最优配置, 输出配置, 如果不 是, 系统将此次实验的指标传至优化器, 系统回到S3 重新开始执行, 直到执 行预设的N次。 9.如权利要求8所述的一种基于自动机器学习的文本分类方法, 其特征在于, 步骤S1 ‑ S4多次完成后, 需要对每次进行实验数据与之前的实验数据比对, 如果有重复的直接进行 S3的操作, 如果 不重复, 进行总实验次数 是否达到使用者 规定的最大实验次数操作。 10.如权利要求9所述的一种基于自动机器学习的文本分类方法, 其特征在于, 每次实 验数据重复对比数据从各次实验所用算子配置及对应的实验结果内进行获取。权 利 要 求 书 1/1 页 2 CN 114398936 A 2一种基于自动机 器学习的文本分类方 法 技术领域 [0001]本发明涉及文本分类技术领域, 特别涉及一种基于自动机器学习的文本分类方 法。 背景技术 [0002]文本分类指的是给定文本, 预测文本所属类别的一种任务。 文本分类通常包含三 个步骤, 即预处理、 特征工程(可选)、 模型预测。 当前文本分类 state‑of‑the‑art(SOTA)方 法通常在对原始文本的预处理后, 以BERT类模型进行预测 。 虽然此类方法在某些场景下已 经能达到较为理想的效果, 但 欠缺也同样明显: 1、 由于预 处理有不同方法, 而BERT类模 型也 数量众多, 且每个模型均有诸如学习率、 权重衰减、 batch size等多个参数需要配置, 最终 效果也对模型的选择和配置的具体值敏感, 上述理想效果的实现通常需要 大量的实验找到 较优的预处理方式、 模型选择及参数。 2、 由于文本分类的实际应用场景千变万化, 例如, 给 新闻划分内容分类显然不同于给法律文书归档分类, 这就导致不同场景所适合的模型和参 数选择可能大有不同。 在一个场景中经反复调试得到的预 处理方式、 模型选择、 参数配置难 以用于另一个场景, 每一个场景在模型选择等方面均需要重新定制。 3、 由于可选模型和模 型包含的参数众多, 人力难以穷尽所有组合, 所做的实验仅能覆盖部 分组合, 因此有很大可 能存在未 经实验却效果更优的组合。 [0003]上述前两点, 大量的实验和依场景的每次定制尝试通常都需要人手工完成, 这就 导致了此类方法的人力时间成本较高。 而第三点的存在, 则表明了人工得到的配置组合其 效果可能并非最优。 [0004]上述问题可能通过自动机器学习得到解决。 自动机器学习旨在利用自动化的系统 代替机器学习流程中人工进行 的数据预处理、 特征工程、 模型选择、 调参等步骤。 虽然学术 界对自动机器学习的研究日渐丰富, 但在工业界具体实现自动机器学习系统的案例则不常 见, 而将自动机器学习用于文本分类这个实际任务的例子则更 是缺乏。 [0005]为解决上述问题。 为此, 提出一种基于自动机器学习的文本分类方法。 发明内容 [0006]本发明的目的在于提供一种基于自动机器学习的文本分类方法, 通过系统接收训 练数据和搜索空间, 并将搜索空间传输给优化器。 此外, 使用者定义 实验次数; 然后, 优化器 根据历史实验的记录, 即算子配置及对应的实验结果, 产生用于一次文本分类实验的算子 配置(无历史实验记录时, 即首次实验时, 随机产生)。 优化器的目标是获取最有 可能导致最 优结果的算子配置, 本系统使用遗传算法和贝叶斯优化 实现此获取的过程; 其次, 一次文本 分类实验开始, 一次实验由预处理pipeline、 特征工程pipeline、 模型pipeline依次拼接而 成, 预处理pipeline接收训练数据及优化器产生的预处理算子配置, 构建相应的预处理算 子, 并利用预处理算子执行数据预处理, 特征工程pipeline的主要目的是生成训练文本对 应的embedding, 其接收预处理好的数据, 并从优化器获得特征工程算子配置, 运用说 明 书 1/7 页 3 CN 114398936 A 3
专利 一种基于自动机器学习的文本分类方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 18:59:54
上传分享
举报
下载
原文档
(585.6 KB)
分享
友情链接
ISO IEC TS 17021-7 2014 Conformity assessment — Requirements for bodies providin.pdf
ISO 13640 2018 Buildings and civil engineering works Sealants Specifications for test substrates.pdf
ISO 5-4 2009 Photography and graphic technology — Density measurements — Part 4 Geometric conditions for reflection density.pdf
ISO TR 20520 2018 Traditional Chinese medicine — Infection control for acupuncture t.pdf
ISO 6898 1984 Open front mechanical power presses — Capacity ratings and dimensions.pdf
ISO 1839:1980 Tea - Sampling.pdf
ISO IEC 14496-33 2019 Information technology — Coding of audio-visual objects — Part 33 Internet video coding.pdf
ISO 8733 1997 Parallel pins with internal thread of unhardened steel and austenitic stainless steel.pdf
ISO 17266 2018 Cinematography — Multichannel analogue and digital photographic sound and control records on 35 mm motion-picture prints and negatives, and digital sound-control records on.pdf
ISO IEC 7816-8 2021 Identification cards — Integrated circuit cards — Part 8 Commands and mechanisms for security operations.pdf
GB-T 28772-2012 内燃机油分类.pdf
GB-T 17626.1-2006 电磁兼容 试验和测量技术 抗扰度试验总论.pdf
GB-T 20703-2006 船舶电气装置 取暖和烹调电器.pdf
GB-T 39352-2020 空间数据与信息传输系统 邻近空间链路协议 数据链路层.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB 11555-2009 汽车风窗玻璃除霜和除雾系统的性能和试验方法.pdf
GB-T 32424-2015 系统与软件工程 用户文档的设计者和开发者要求.pdf
GB-T 23602-2009 钛及钛合金表面除鳞和清洁方法.pdf
GB-T 2793-1995 胶粘剂不挥发物含量的测定.pdf
GB-T 40374-2021 硬质合金化学分析方法 铅量和镉量的测定 火焰原子吸收光谱法和电感耦合等离子体原子发射光谱法.pdf
1
/
3
12
评价文档
赞助2元 点击下载(585.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。