全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211051412.9 (22)申请日 2022.08.30 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 丁锐  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 吴磊 (51)Int.Cl. G06F 40/151(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本处 理方法和装置 (57)摘要 本申请公开了一种可应用 于金融领域或其 他领域的文本处理方法和装置, 首先, 获取第一 输入文本, 第一输入文本的字 符数量大于预设字 符数量, 再利用滑动窗口将第一输入文本划分为 多个第二输入文本, 将第二输入文本输入至文本 模型, 得到文本模型输出的第一文本特征, 文本 模型包括池化层和全 连接层, 第一文本特征可以 用于实现对第一输入文本进行自然语 言处理。 如 此, 采用滑动窗口将输入文本划分为多个文本以 控制文本输入量, 并通过文本模 型对于输入文本 进行处理, 进而实现利用文本模 型处理字符长度 较长的文本 。 权利要求书2页 说明书6页 附图1页 CN 115392196 A 2022.11.25 CN 115392196 A 1.一种文本处 理方法, 其特 征在于, 所述方法包括: 获取第一输入文本, 所述第一输入文本的字符数量大于第一预设字符数量; 利用滑动窗口将所述第一输入文本划分为多个第二输入文本; 将所述第二输入文本输入文本模型, 得到所述文本模型输出的第一文本特征, 所述文 本模型包括池化层和全连接层, 所述第一文本特征用于实现对所述第一输入文本进行自然 语言处理。 2.根据权利要求1所述的方法, 其特征在于, 所述利用滑动窗口将所述第 一输入文本划 分为多个第二输入文本, 包括: 根据滑动窗口的第 二预设字符数量对所述第 一输入文本进行分段处理, 得到所述多个 第二输入文本, 所述第二预设字符数量小于或者 等于所述第一预设字符数量。 3.根据权利要求1所述的方法, 其特 征在于, 所述文本模型采用如下 方式训练得到: 获取训练数据, 所述训练数据包括第一训练文本和标签, 所述第一训练文本的字符数 量大于所述第一预设字符数量; 利用所述滑动窗口将所述第一训练文本划分为多个第二训练文本; 将所述第二训练文本 输入待训练模型的池化层, 得到所述池化层输出的池化特 征; 将所述池化特征输入所述待训练模型的全连接层, 得到所述全连接层输出的第 二文本 特征; 利用所述第二文本特 征和所述标签训练所述待训练模型, 得到所述文本模型。 4.根据权利要求3所述的方法, 其特征在于, 所述利用所述滑动窗口将所述第 一训练文 本划分为多个第二训练文本, 包括: 根据滑动窗口的第 二预设字符数量对所述第 一训练文本进行分段处理, 得到所述多个 第二训练文本, 所述第二预设字符数量小于或者 等于所述第一预设字符数量。 5.根据权利要求1所述的方法, 其特征在于, 所述第 一预设字符数量为所述文本模型字 符数量的接收上限值。 6.一种文本处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取第一输入文本, 所述第一输入文本的字符数量大于第一预设字符 数量; 划分模块, 用于利用滑动窗口将所述第一输入文本划分为多个第二输入文本; 特征输出模块, 用于将所述第二输入文本输入文本模型, 得到所述文本模型输出的第 一文本特征, 所述文本模型包括池化层和全连接层, 所述第一文本特征用于实现对所述第 一输入文本进行自然语言处 理。 7.根据权利要求6所述的装置, 其特征在于, 所述划分模块, 具体用于根据滑动 窗口的 第二预设字符数量对所述第一输入文本进行分段处理, 得到所述多个第二输入文本, 所述 第二预设字符数量小于或者 等于所述第一预设字符数量。 8.根据权利要求6所述的装置, 其特 征在于, 所述文本模型采用如下 方式训练得到: 获取训练数据, 所述训练数据包括第一训练文本和标签, 所述第一训练文本的字符数 量大于所述第一预设字符数量; 利用所述滑动窗口将所述第一训练文本划分为多个第二训 练文本; 将所述第二训练文本输入待训练模型的池化层, 得到所述池化层输出的池化特征; 将所述池化特征输入所述待训练模型的全连接层, 得到所述全连接层输出的第二文本特权 利 要 求 书 1/2 页 2 CN 115392196 A 2征; 利用所述第二文本特 征和所述标签训练所述待训练模型, 得到所述文本模型。 9.根据权利要求8所述的装置, 其特征在于, 所述利用所述滑动窗口将所述第 一训练文 本划分为多个第二训练文本, 包括: 根据滑动窗口的第 二预设字符数量对所述第 一训练文本进行分段, 确定所述多个第 二 训练文本, 所述第二预设字符数量小于或者 等于所述第一预设字符数量。 10.根据权利要求6所述的装置, 其特征在于, 所述第一预设字符数量为所述文本模型 字符数量的接收上限值。权 利 要 求 书 2/2 页 3 CN 115392196 A 3

PDF文档 专利 一种文本处理方法和装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法和装置 第 1 页 专利 一种文本处理方法和装置 第 2 页 专利 一种文本处理方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。