专利交流文本中违规内容的识别方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211152573.7 (22)申请日 2022.09.21 (71)申请人中国工商银行股份有限公司地址 100140 北京市西城区复兴门内大街 55号申请人工银科技有限公司 (72)发明人汪美玲　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师吴会英　刘芳 (51)Int.Cl. G06F 40/126(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称交流文本中违规内容的识别方法、装置、设备及存储介质 (57)摘要本申请提供一种交流文本中违规内容的识别方法、装置、设备及存储介质，该方法涉及人工智能技术。该方法包括：获取待分类的目标交流文本；采用已训练至收敛的文本编码网络模型对目标交流文本进行特征编码，以获得目标特征编码数据；采用已训练至收敛的自编码网络模型对目标特征编码数据重建编码，以获得目标重建编码数据；已训练至收敛的文本编码网络模型和已训练至收敛的自编码网络模型是基于训练样本训练获得的，训练样本均为合规交流文本样本；计算目标特征编码数据与目标重建编码数据之间的目标差异数据；根据目标差异数据识别目标交流文本中是否包括违规内容。本申请方通过人工智能就能实现识别目标交流文本中是否有违规内容，节约时间。权利要求书3页说明书17页附图6页 CN 115422889 A 2022.12.02 CN 115422889 A 1.一种交流文本中违规内容的识别方法，其特征在于，所述方法包括：获取待识别的目标交流文本；采用已训练至收敛的文本编码网络模型对所述目标交流文本进行特征编码，以获得目标特征编码数据；采用已训练至收敛的自编码网络模型对所述目标特征编码数据重建编码，以获得目标重建编码数据；所述已训练至收敛的文本编码网络模型和所述已训练至收敛的自编码网络模型是基于训练样本训练获得的，所述训练样本均为合规交流文本样本；计算所述目标特征编码数据与所述目标重建编码数据之间的目标差异数据；根据所述目标差异数据识别所述目标交流文本中是否包括违规内容。 2.根据权利要求1所述的方法，其特征在于，所述已训练至收敛的自编码网络模型包括：第一目标全连接层和第二目标全连接层；所述第一目标全连接层中包括第一激活函数，所述第二目标全连接层中包括第二激活函数；采用已训练至收敛的自编码网络模型对所述目标特征编码数据重建编码，以获得目标重建编码数据，包括：将所述目标特征编码数据输入到第一目标全连接层中；采用所述第一目标全连接层中的第一激活函数作为目标自编码器对所述目标特征编码数据进行降维处理，以获得目标降维编码数据；将所述目标降维编码数据输入到第二目标全连接层中；采用所述第二目标全连接层中的第二激活函数作为目标自解码器对所述目标降维编码数据进行升维处理，以获得目标重建编码数据。 3.根据权利要求1所述的方法，其特征在于，所述计算所述目标特征编码数据与所述目标重建编码数据之间的目标差异数据，包括：计算所述目标特征编码数据与所述目标重建编码数据之间的均方误差；将所述均方误差确定为所述目标差异数据。 4.根据权利要求3所述的方法，其特征在于，所述目标特征编码数据与所述目标重建编码数据为同维度的向量的形式；所述计算所述目标特征编码数据与所述目标重建编码数据之间的均方误差，包括：计算所述目标特征编码数据与所述目标重建编码数据在每个元素上的差值；计算所述在每个元素上的差值平方和，并计算所述平方和与向量维度的商值；将所述商值确定为所述均方误差。 5.根据权利要求1所述的方法，其特征在于，所述根据所述目标差异数据识别所述目标交流文本中是否包括违规内容，包括：将所述目标差异数据与预设识别阈值进行对比；若确定所述目标差异数据大于或等于所述预设识别阈值，则确定所述目标交流文本中包括违规内容；若确定所述目标差异数据小于所述预设识别阈值，则确定所述目标交流文本中不包括所述违规内容。 6.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述采用已训练至收敛的文本编码网络模型对所述目标交流文本进行特征编码，以获得目标特征编码数据之前，所述方法权　利　要　求　书 1/3 页 2 CN 115422889 A 2还包括：获取对预设文本编码网络模型和预设自编码网络模型进行训练的训练样本；采用所述训练样本对所述预设文本编码网络模型和预设自编码网络模型进行训练；将满足预设的训练收敛条件的文本编码网络模型和自编码网络模型确定为已训练至收敛的文本编码网络模型和已训练至收敛的自编码网络模型。 7.根据权利要求6所述的方法，其特征在于，所述采用所述训练样本对所述预设文本编码网络模型和预设自编码网络模型进行训练，包括：采用所述预设文本编码网络模型对训练样本进行特征编码，以获得样本特征编码数据；采用所述预设自编码网络模型对所述样本特征编码数据重建编码，以获得样本重建编码数据；计算所述样本特征编码数据与所述重建编码数据之间的样本差异数据；根据所述样本差异数据计算全样本均方误差损失值；基于所述全样本均方误差损失值调整预设文本编码网络模型和预设自编码网络模型中的训练参数，以对预设文本编码网络模型和预设自编码网络模型进行训练。 8.根据权利要求7所述的方法，其特征在于，所述根据所述样本差异数据计算全样本均方误差损失值，包括：将单个训练样本对应的样本差异数据确定为单样本均方误差损失值；根据多个单样本均方误差损失值计算全样本均方误差损失值。 9.根据权利要求8所述的方法，其特征在于，所述将满足预设的训练收敛条件的文本编码网络模型和自编码网络模型分别确定为已训练至收敛的文本编码网络模型和已训练至收敛的自编码网络模型，包括：确定全样本均方误差损失值是否达到最小；若确定全样本均方误差损失值达到最小，则将达到最小的全样本均方误差损失值对应的文本编码网络模型和自编码网络模型确定为已训练至收敛的文本编码网络模型和已训练至收敛的自编码网络模型。 10.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述目标交流文本为金融机构交易员之间的交流文本；所述违规内容包括以下任意一种内容：信息泄露内容、内幕交易内容、利益输送内容、价格操控内容；若确定所述目标交流文本中包括违规内容，则所述方法还包括：从交流服务器中获取该目标交流文本的违规关联信息，并向用户终端发送违规告警消息，所述违规告警消息中包括该目标交流文本及所述违规关联信息。 11.根据权利要求10所述的方法，其特征在于，若确定所述目标交流文本中包括违规内容，所述方法还包括：响应于用户终端发送的目标交流文本违规内容分类请求，对所述目标交流文本进行违规内容分类处理，获得所述违规内容的分类类别；所述违规内容的分类类别为信息泄露、内幕交易、利益输送、价格操控中的任意一种。 12.一种交流文本中违规内容的识别装置，其特征在于，所述装置包括：权　利　要　求　书 2/3 页 3 CN 115422889 A 3

专利 交流文本中违规内容的识别方法、装置、设备及存储介质

专利交流文本中违规内容的识别方法、装置、设备及存储介质