全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210937454.6 (22)申请日 2022.08.05 (71)申请人 中国传媒大 学 地址 100024 北京市朝阳区定福庄东 街1号 院中国传媒大 学 (72)发明人 张韬政 张家健  (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 毛燕生 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于迁移学习的专有领域中文分词方 法 (57)摘要 一种基于迁移学习的专有领域中文分词方 法, 属于计算程序技术领域。 基于迁移学习方法, 将公开领域数据的知识迁移到专有领域中文分 词模型中, 得到专有领域分词结果。 解决在进行 专有领域的中文分词时, 对于分词效果不佳, 且 分词成本比较高的问题。 权利要求书1页 说明书5页 附图1页 CN 115329724 A 2022.11.11 CN 115329724 A 1.一种基于迁移学习的专有领域中文分词方法, 其特征在于, 基于迁移学习方法, 将 公 开领域数据的知识迁移到专有领域中文分词模型中, 得到专有领域分词结果。 2.根据权利要求1所述的基于 迁移学习的专有领域中文分词方法, 其特 征在于, 步骤1, 利用预先标注的少量专有领域语料和大量公开领域语料输入待训练的专有领 域中文分词模型中进行训练, 得到专有领域中文分词模型; 步骤2, 将待分词的专有领域文本 输入专有领域中文分词模型中进行 标签概率预测; 步骤3, 根据预测结果确定待分词文本的分词结果。 3.根据权利要求2所述的基于迁移学习的专有领域中文分词方法, 其特征在于, 所述利 用预先标注的少量专有领域语料和大量公开领域语料输入待训练的专有领域中文分词模 型中进行训练, 具体包括: 利用冻结参数的BERT语言模型对预先标注 的少量专有领域语料和大量公开领域语料 进行编码, 得到专有领域语义向量和公开领域语义向量; 将专有领域语义向量和公开领域语义向量送入基于BI ‑LSTM的不对称共享神经网络中 进行进一 步的编码; 将编码后的专有领域语义向量和公开领域语义向量送入条件随机场神经网络进行解 码; 利用深度 学习技术将解码后的预测结果与实际结果进行对比, 令不对称共享结构和条 件随机场中的神经网络进行训练, 得到专有领域中文分词模型。 4.根据权利要求2所述的基于迁移学习的专有领域中文分词方法, 其特征在于, 所述将 待分词的专有领域文本 输入专有领域中文分词模型中进行 标签概率预测, 具体包括: 将待分词文本 输入专有领域中文分词模型; 待分词文本在专有领域中文分词模型中通过冻结参数的BERT语言模型对进行编码, 得 到待分词文本语义向量; 将待分词文本语义向量送入训练后的不对称共享神经网络、 条件随机场神经网络进行 预测,得到待分词文本的分词预测结果。权 利 要 求 书 1/1 页 2 CN 115329724 A 2一种基于迁移 学习的专有领域中文分词方 法 技术领域 [0001]本发明涉及一种基于迁移学习 的专有领域中文分词方法, 属于计算程序技术领 域。 背景技术 [0002]现有的中文分词方法并不能很好地解决专有领域的中文分词问题, 对于专业性强 的法律、 新闻、 医疗、 文 学作品等专有 领域来说, 结果通常不尽如人意。 目前应对专有 领域的 中文分词任务, 通常使用大量人工标注的方法扩充训练数据, 此类方法的人工成本、 时间成 本极高。 也有一部分学者使用参数迁移、 样本迁移 等迁移学习方法, 在不扩充训练数据的前 提下, 提升中文分词模型的表现, 但提升效果并不明显 。 发明内容 [0003]为了克服现有技术结构的不足,本发明提供一种基于迁移学习的专有领域中文分 词方法。 针对现有技术无法解决专有领域中文分词数据成本高或提升不明显的需求, 基于 迁移学习方法, 将公开领域数据的知识迁移到专有领域中文分词模型中, 使得专有领域分 词结果更准确。 [0004]本发明解决其技术问题所采用的技术方案是: 一种基于迁移学习的专有领域中文 分词方法, 基于迁移学习方法, 将公开领域数据的知识迁移到专有 领域中文分词模型中, 得 到专有领域分词结果。 [0005]包括如下步骤: [0006]步骤1, 利用预先标注的少量专有领域语料和大量公开领域语料输入待训练的专 有领域中文分词模型中进行训练, 得到专有领域中文分词模型; [0007]步骤2, 将待分词的专有领域文本输入专有领域中文分词模型中进行标签概率预 测; [0008]步骤3, 根据预测结果确定待分词文本的分词结果。 [0009]本发明能够解决在进行专有领域的中文分词时, 对于分词效果不佳, 且分词 成本 比较高的问题。 通常的专有 领域中文分词方法仅使用语言模型, 需要较长的模型训练 时间, 本发明使用冻结参数的BERT语言模型, 相比其他未冻结参数的语言模型方法, 在模型训练 过程中大幅度减少了需要训练的参数, 降低模型训练所需时间。 在冻结参数的BERT语言模 型上方, 本方法使用基于BI ‑LSTM的不对称共享神经网络。 基于BI ‑LSTM的不对称共享神经 网络中的BI ‑LSTM特征提取器能够对冻结参数的BERT语 言模型输出的专有 领域语义向量和 公开领域语义向量进 行进一步编码, 同时不对称共享神经网络能够将公开领域语义向量中 的知识提供给专有领域, 帮助专有领域性能更加出色。 因此本发明的方法能够在少数据量 的基础上, 出色的完成专有领域中文分词任务, 相比于其他方法, 在中文分词评价指标中提 高5到10个百分点。说 明 书 1/5 页 3 CN 115329724 A 3

PDF文档 专利 一种基于迁移学习的专有领域中文分词方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于迁移学习的专有领域中文分词方法 第 1 页 专利 一种基于迁移学习的专有领域中文分词方法 第 2 页 专利 一种基于迁移学习的专有领域中文分词方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。