全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211152573.7 (22)申请日 2022.09.21 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 申请人 工银科技有限公司 (72)发明人 汪美玲  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 吴会英 刘芳 (51)Int.Cl. G06F 40/126(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 交流文本中违规内容的识别方法、 装置、 设 备及存储介质 (57)摘要 本申请提供一种交流文本中违规内容的识 别方法、 装置、 设备及存储介质, 该方法涉及人工 智能技术。 该方法包括: 获取待分类的目标交流 文本; 采用已训练至收敛的文本编码网络模型对 目标交流文本进行特征编码, 以获得目标特征编 码数据; 采用已训练至收敛的自编码网络模型对 目标特征编码数据重建编码, 以获得目标重建编 码数据; 已训练至收敛的文本编码网络模型和已 训练至收敛的自编码网络模型是基于训练样本 训练获得的, 训练样本均为合规交流文本样本; 计算目标特征编码数据与 目标重建编码数据之 间的目标差异数据; 根据目标差异数据识别目标 交流文本中是否包括违规内容。 本申请方通过人 工智能就能实现识别目标交流文本中是否有违 规内容, 节约时间。 权利要求书3页 说明书17页 附图6页 CN 115422889 A 2022.12.02 CN 115422889 A 1.一种交流文本中违规内容的识别方法, 其特 征在于, 所述方法包括: 获取待识别的目标交流文本; 采用已训练至收敛的文本编码网络模型对所述目标交流文本进行特征编码, 以获得目 标特征编码数据; 采用已训练至收敛的自编码网络模型对所述目标特征编码数据重建编码, 以获得目标 重建编码数据; 所述已训练至收敛的文本编码网络模型和所述已训练至收敛的自编 码网络 模型是基于训练样本训练获得的, 所述训练样本均为 合规交流文本样本; 计算所述目标 特征编码数据与所述目标重建编码数据之间的目标差异数据; 根据所述目标差异数据识别所述目标交流文本中是否包括违规内容。 2.根据权利要求1所述的方法, 其特征在于, 所述已训练至收敛的自编码网络模型包 括: 第一目标全连接层和 第二目标全连接层; 所述第一目标全连接层中包括第一激活函数, 所述第二目标全连接层中包括第二激活函数; 采用已训练至收敛的自编码网络模型对所述目标特征编码数据重建编码, 以获得目标 重建编码数据, 包括: 将所述目标 特征编码数据输入到第一目标全连接层中; 采用所述第一目标全连接层中的第一激活函数作为目标自编码器对所述目标特征编 码数据进行降维处 理, 以获得目标降维编码数据; 将所述目标降维编码数据输入到第二目标全连接层中; 采用所述第二目标全连接层中的第二激活函数作为目标自解码器对所述目标降维编 码数据进行升维处 理, 以获得目标重建编码数据。 3.根据权利要求1所述的方法, 其特征在于, 所述计算所述目标特征编码数据与所述目 标重建编码数据之间的目标差异数据, 包括: 计算所述目标 特征编码数据与所述目标重建编码数据之间的均方误差; 将所述均方误差确定为所述目标差异数据。 4.根据权利要求3所述的方法, 其特征在于, 所述目标特征编码数据与 所述目标重建编 码数据为同维度的向量的形式; 所述计算所述目标 特征编码数据与所述目标重建编码数据之间的均方误差, 包括: 计算所述目标 特征编码数据与所述目标重建编码数据在每 个元素上的差值; 计算所述在每 个元素上的差值平方和, 并计算所述平方和与向量维度的商值; 将所述商值确定为所述均方误差 。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标差异数据识别所述目标 交流文本中是否包括违规内容, 包括: 将所述目标差异数据与预设识别阈值进行对比; 若确定所述目标差异数据大于或等于所述预设识别阈值, 则确定所述目标交流文本中 包括违规内容; 若确定所述目标差异数据小于所述预设识别阈值, 则确定所述目标交流文本中不包括 所述违规内容。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述采用已训练至收敛的文本编 码网络模型对所述 目标交流文本进行特征编码, 以获得目标特征编码数据之前, 所述方法权 利 要 求 书 1/3 页 2 CN 115422889 A 2还包括: 获取对预设文本编码网络模型和预设自编码网络模型进行训练的训练样本; 采用所述训练样本对所述预设文本编码网络模型和预设自编码网络模型进行训练; 将满足预设的训练收敛条件的文本编码网络模型和自编码网络模型确定为已训练至 收敛的文本编码网络模型和已训练至收敛的自编码网络模型。 7.根据权利要求6所述的方法, 其特征在于, 所述采用所述训练样本对所述预设文本编 码网络模型和预设自编码网络模型进行训练, 包括: 采用所述预设文本编码网络模型对训练样本进行特征编码, 以获得样本特征编码数 据; 采用所述预设 自编码网络模型对所述样本特征编码数据重建编码, 以获得样本重建编 码数据; 计算所述样本特 征编码数据与所述重建编码数据之间的样本 差异数据; 根据所述样本 差异数据计算全样本均方误差损失值; 基于所述全样本均方误差损失值调整预设文本编码网络模型和预设自编码网络模型 中的训练参数, 以对预设文本编码网络模型和预设自编码网络模型进行训练。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述样本差异数据计算全样本均 方误差损失值, 包括: 将单个训练样本对应的样本 差异数据确定为单样本均方误差损失值; 根据多个单样本均方误差损失值计算全样本均方误差损失值。 9.根据权利要求8所述的方法, 其特征在于, 所述将满足预设的训练收敛条件的文本编 码网络模型和自编码网络模型分别确定为已训练至 收敛的文本编码网络模型和已训练至 收敛的自编码网络模型, 包括: 确定全样本均方误差损失值是否 达到最小; 若确定全样本均 方误差损失值达到最小, 则将达到最小的全样本均 方误差损失值对应 的文本编码网络模型和自编码网络模型确定为已训练至 收敛的文本编码网络模型和已训 练至收敛的自编码网络模型。 10.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述目标交流文本为金融机构 交易员之间的交流文本; 所述违规内容包括以下任意一种内容: 信息泄露内容、 内幕交易内容、 利益输送内容、 价格操控内容; 若确定所述目标交流文本中包括违规内容, 则所述方法还 包括: 从交流服务器 中获取该目标交流文本的违规关联信 息, 并向用户终端发送违规告警消 息, 所述违规告警消息中包括该目标交流文本及所述违规关联信息 。 11.根据权利要求10所述的方法, 其特征在于, 若确定所述目标交流文本 中包括违规内 容, 所述方法还 包括: 响应于用户终端发送的目标交流文本违规内容分类请求, 对所述目标交流文本进行违 规内容分类处 理, 获得所述违规内容的分类 类别; 所述违规内容的分类 类别为信息泄 露、 内幕交易、 利益输送、 价格操控中的任意 一种。 12.一种交流文本中违规内容的识别装置, 其特 征在于, 所述装置包括:权 利 要 求 书 2/3 页 3 CN 115422889 A 3

.PDF文档 专利 交流文本中违规内容的识别方法、装置、设备及存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 交流文本中违规内容的识别方法、装置、设备及存储介质 第 1 页 专利 交流文本中违规内容的识别方法、装置、设备及存储介质 第 2 页 专利 交流文本中违规内容的识别方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。