全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151825.4 (22)申请日 2022.09.21 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 申请人 工银科技有限公司 (72)发明人 汪美玲  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 吴会英 臧建明 (51)Int.Cl. G06F 40/126(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 交流文本分类方法、 装置、 设备及存 储介质 (57)摘要 本申请提供一种交流文本分类方法、 装置、 设备及存储介质。 该方法涉及人工智能技术领 域。 该方法包括: 获取待分类的目标交流文本: 目 标交流文本为金融机构交易员之间的交流文本; 将目标交流文本输入到已训练至收敛的分类模 型中, 已训练至收敛的分类模型包括目标自然语 言编码器、 目标全连接层及目标归一化分类层; 采用目标自然语言编码器对目标交流文本进行 特征编码, 以获得目标特征编码数据; 采用目标 全连接层对目标特征编码数据进行降维处理, 以 获得目标降维数据; 采用目标归一化分类层对目 标降维数据进行归一化分类处理, 以获得目标交 流文本分类类别, 目标交流文本分类类别为工作 类别、 闲聊类别及违规类别中的任意 一种。 权利要求书3页 说明书16页 附图5页 CN 115422888 A 2022.12.02 CN 115422888 A 1.一种交流文本分类方法, 其特 征在于, 所述方法包括: 获取待分类的目标交流文本; 所述目标交流文本为金融机构交易员之间的交流文本; 将所述目标交流文本输入到已训练至收敛的分类模型中, 所述已训练至收敛的分类模 型包括目标自然语言编码器、 目标全连接层 及目标归一 化分类层; 采用所述目标自然语言编码器对所述目标交流文本进行特征编码, 以获得目标特征编 码数据; 采用所述目标全连接层对所述目标特征编码数据进行降维处理, 以获得目标降维数 据; 采用所述目标归一化分类层对所述目标降维数据进行归一化分类处理, 以获得目标交 流文本分类类别, 所述 目标交流文本分类类别为工作类别、 闲聊类别及违规类别中的任意 一种。 2.根据权利要求1所述的方法, 其特征在于, 所述目标自然语言编码器为已训练至收敛 的变换网络的双向编码器Ber t编码器; 所述采用所述目标自然语言编码器对所述目标交流文本进行特征编码, 以获得目标特 征编码数据, 包括: 将目标交流文本与预设的初始位置 字符及终止位置 字符拼接为目标字符串; 将所述目标字符串输入到已训练至收敛的Ber t编码器中; 采用所述已训练至收敛的Bert编码器对所述目标字符串进行特征编码, 并将起始位置 特征编码后的数据确定为目标交流文本对应的目标 特征编码数据。 3.根据权利要求1所述的方法, 其特 征在于, 所述目标全连接层中包括目标降维算法; 所述采用所述目标全连接层对所述目标特征编码数据进行降维处理, 以获得目标降维 数据, 包括: 将所述目标 特征编码输入到目标全连接层中; 采用所述目标全连接层中的目标降维算法将所述目标特征编码降维到预设维度的目 标向量, 所述预设维度与分类 类别数量相同; 将所述目标向量确定为所述目标降维数据。 4.根据权利要求1所述的方法, 其特征在于, 所述目标归一化分类层包括目标softmax 归一化函数, 所述采用所述 目标归一化分类层对所述 目标降维数据进行归一化分类处理, 以获得目标交流文本分类 类别, 包括: 将所述目标降维数据输入到所述目标归一 化分类层; 采用所述目标归一化分类层中的目标softmax归一化函数基于所述目标降维数据确定 目标交流文本属于各分类 类别的概 率; 根据所述目标交流文本属于各分类 类别的概 率确定所述目标交流文本分类 类别。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述目标交流文本属于各分类类 别的概率确定所述目标交流文本分类 类别, 包括: 获取各分类类别的概 率中最大概 率; 将所述最大概率与预设概 率阈值进行对比; 若确定所述最大概率大于或等于预设概率阈值, 则确定所述目标交流文本分类类别为 最大概率对应的分类 类别。权 利 要 求 书 1/3 页 2 CN 115422888 A 26.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述将所述目标交流文本输入到 已训练至收敛的分类模型中之前, 所述方法还 包括: 获取对预设分类模型进行训练的训练数据, 所述训练数据包括: 交流文本样本及标注 的分类类别标签; 采用所述训练数据对所述预设 分类模型进行训练; 将满足预设的训练收敛 条件的分类模型确定为训练至收敛的分类模型。 7.根据权利要求6所述的方法, 其特征在于, 所述预设分类模型包括: 预设自然语言编 码器、 预设全连接层 及预设归一 化分类层; 所述采用所述训练数据对所述预设 分类模型进行训练, 包括: 采用所述预设 自然语言编码器对交流文本样本进行特征编码, 以获得样本特征编码数 据; 采用所述预设全连接层对所述样本特征编码数据进行降维处理, 以获得样本降维数 据; 采用所述预设归一化分类层对所述样本降维数据进行归一化分类处理, 以获得交流文 本样本的训练中的分类 类别; 根据所述交流文本样本训练中的分类类别及标注的分类类别标签计算样本交叉熵损 失值; 基于所述样本交叉熵损失值调整预设分类模型中的训练参数, 以对预设分类模型进行 训练。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述交流文本样本训练中的分类 类别及标注的分类 类别标签 计算样本交叉熵损失值, 包括: 根据所述交流文本样本训练中的分类类别及标注的分类类别标签计算单样本交叉熵 损失值; 根据多个单样本交叉熵损失值计算全部样本的交叉熵损失值。 9.根据权利要求8所述的方法, 其特征在于, 所述将满足预设的训练收敛条件的分类模 型确定为训练至收敛的分类模型, 包括: 确定全部样本的交叉熵损失值是否 达到最小; 若确定全部样本的交叉熵损失值达到最小, 则将达到最小的全部样本的交叉熵损失值 对应的分类模型确定为训练至收敛的分类模型。 10.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述获取待分类的目标交流文 本, 包括: 响应于用户终端发送的文本分类请求, 从预设数据库中获取待分类的目标交流文本; 所述文本分类请求是用户触发文本分类操作界面中的第一分类组件获得的; 所述采用所述目标归一化分类层对所述目标降维数据进行归一化分类处理, 以获得目 标交流文本分类 类别之后, 还 包括: 若确定目标交流文本分类类别为违规类别, 则从交流服务器中获取该目标交流文本的 违规关联信息, 并向用户终端发送违规告警消息, 所述违规告警消息中包括该目标交流文 本及所述违规关联信息; 若确定目标交流文本分类类别为闲聊类别, 则从交流服务器中获取该目标交流文本的权 利 要 求 书 2/3 页 3 CN 115422888 A 3

.PDF文档 专利 交流文本分类方法、装置、设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 交流文本分类方法、装置、设备及存储介质 第 1 页 专利 交流文本分类方法、装置、设备及存储介质 第 2 页 专利 交流文本分类方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。