全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210960893.9 (22)申请日 2022.08.11 (71)申请人 中国银联股份有限公司 地址 200135 上海市浦东 新区含笑路36号 (72)发明人 曾泽华 佘萧寒 高鹏飞 杨燕明  邱雪涛 余玮琦  (74)专利代理 机构 北京东方亿 思知识产权代理 有限责任公司 1 1258 专利代理师 彭琼 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) (54)发明名称 信息处理方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种信息处理方法、 装置、 设 备及存储介质。 该信息处理方法包括: 根据商户 全称中的M个字, 生成与商户全称对应的包括M个 字中每个字的字符序列; 接着, 将字符序列输入 至由人工标注的样本集和预训练语言模型训练 得到的商户简称提取模型, 得到与字符序列对应 的包括标识字符的目标序列, 然后, 对标识字符 中第一标识字符对应的目标字进行拼接, 得到商 户简称, 如此, 通过引入人工标注的样本集和预 训练语言模 型的语义信息, 使得商户简称提取模 型即可以学习商户全称中每个字的字意, 也可以 通过预训练语言模型引入中文文本的大量语义 知识, 实现对拟声词、 音译词的有效识别, 提高了 从商户全称中提取商户简称的准确度。 权利要求书4页 说明书20页 附图4页 CN 115409024 A 2022.11.29 CN 115409024 A 1.一种信息处 理方法, 包括: 获取商户的商户全称, 所述商户全称包括M个字, M为大于1的正整数; 根据所述M个字, 生成与所述商户全称对应的字符序列, 所述字符序列包括所述M个字 中每个字的字符; 将所述字符序列输入商户简称提取模型, 得到与所述字符序列对应的目标序列, 所述 目标序列包括标识字符, 所述标识字符用于标识所述M个字中的每个字是否出现在商户简 称中, 所述商户简称提取模型由人工标注的样本集和预训练语言模型训练得到; 对所述标识字符中第一标识字符对应的目标字进行拼接, 得到所述商户简称, 所述第 一标识字符还用于标识所述目标字在所述商户简称中的位置 。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述字符序列输入商户简称提取模 型, 得到与所述字符序列对应的目标序列, 包括: 将所述字符序列输入商户简称提取模型, 计算所述字符序列中第j个字符对应的概率 值集合, 所述第 j个字符对应的概率值集合包括所述第j 个字符为 非商户简称的字符的第一 概率值、 所述第 j个字符为商户简称的首个字符的第二概率值和所述第 j个字符为所述商户 简称的非首个字符的第三 概率值, j∈[1, M]; 根据所述第一概率值、 所述第 二概率值和所述第 三概率值, 生成与所述第j个字符对应 的字的标识字符; 基于所述标识字符, 从所述商户简称提取模型输出与所述字符序列对应的目标序列。 3.根据权利要求2所述的方法, 其特征在于, 所述标识字符还包括第二标识字符, 所述 第二标识字符用于标识与所述第二标识字符对应的字未 出现在商户简称中; 所述根据所述第 一概率值、 所述第 二概率值和所述第 三概率值, 生成与所述第j个字符 对应的字的标识字符, 包括: 在所述第一概率值小于所述第二概率值和所述第三概率值的情况下, 生成与所述第j 个字符对应的字的第一标识字符; 在所述第一概率值大于所述第二概率值和所述第三概率值的情况下, 生成与所述第j 个字符对应的字的第二标识字符。 4.根据权利要求3所述的方法, 其特征在于, 所述第 一标识字符包括第 一子标识字符和 第二子标识字符; 所述在所述第 一概率值小于所述第 二概率值和所述第 三概率值的情况下, 生成与 所述 第j个字符对应的字的第一标识字符, 包括: 在所述第一概率值小于所述第 二概率值和所述第 三概率值、 且所述第 二概率值大于所 述第三概率值的情况 下, 生成与所述第j个字符对应的字的第一子标识字符; 在所述第一概率值小于所述第 二概率值和所述第 三概率值、 且所述第 二概率值小于所 述第三概率值的情况 下, 生成与所述第j个字符对应的字的第二子标识字符; 其中, 所述第一子标识字符用于标识所述第j个字符对应的字是在所述商户简称中的首位, 所述第二子标识字符用于标识所述第j个字符对应的字是在所述商户简称中的非首位。 5.根据权利要求1或2所述的方法, 其特征在于, 所述将所述字符序列输入商户简称提 取模型, 得到与所述字符序列对应的目标序列之前, 所述方法还 包括: 获取样本集, 所述样本集包括样本商户的样本商户全称和样本商户简称;权 利 要 求 书 1/4 页 2 CN 115409024 A 2通过字符分割算法, 分别对所述样本商户全称和所述样本商户简称字符进行分割, 得 到与所述样本商户全称对应的第一样本字符序列和与所述样本商户简称对应的第二样本 字符序列, 所述第一样本字符序列包括所述样本商户全称中每个样本字的字符, 所述第二 样本字符序列包括所述样本商户简称中每 个样本字的字符; 根据所述第 一样本字符序列和所述第 二样本字符序列对预训练语言模型进行训练, 在 所述预训练语言模型满足预设训练条件的情况 下, 得到所述商户简称提取模型。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述第 一样本字符序列和所述第 二样本字符序列对预训练语言模型进 行训练, 在所述预训练语言模型满足预设训练条件的 情况下, 得到所述商户简称提取模型, 包括: 将所述第一样本字符序列输入所述预训练语言模型, 并通过所述预训练语言模型计算 第三样本字符序列, 所述第三样本字符序列包括所述样本商户全称中每个字是否出现在商 户简称的样本标识字符, 所述样本标识字符包括还用于标识样本目标字在所述样本简称中 的位置, 所述样本目标字为所述样本商户全称中出现在样本商户简称的字; 基于所述第 三样本字符序列和所述第 二样本字符序列, 计算所述第 三样本字符序列和 所述第二样本 字符序列之间的交叉熵; 在所述交叉熵大于或者等于预设交叉熵的情况下, 通过适应矩估计优化器对所述预训 练语言模型进行优化迭代处理, 直至优化迭代 次数满足预设优化迭代 次数的情况下, 得到 商户简称提取模型。 7.根据权利要求5所述的方法, 其特 征在于, 所述获取样本集, 包括: 获取样本商户的样本商户全称; 通过分词算法和词频统计算法, 对所述样本商户全称进行处理, 得到初始样本商户简 称; 向至少两个用户端分别发送第 一指令, 所述第 一指令包括所述样本商户全称和所述初 始样本商户简称, 所述第一指 令用于指示用户端确定所述样本商户全称和所述初始样本商 户简称是否匹配; 接收所述至少两个用户端发送的N个反馈结果, N 为大于2的正整数; 在所述N个反馈结果中的任意两个反馈结果包括所述样本商户全称和所述初始样本商 户简称的匹配信息的情况下, 将所述初始样本商户简称确定为与所述样本商户全称对应的 样本商户简称; 根据所述样本商户全称和与所述样本商户全称对应的样本商户简称, 生成样本集。 8.根据权利要求7所述的方法, 其特征在于, 所述反馈结果还包括用户端对所述初始样 本商户简称修改后的修改样本商户简称; 所述根据 所述样本商户全称和与 所述样本商户全称对应的样本商户简称, 生成样本集 之前, 所述方法还 包括: 在所述N个反馈结果中的任意两个反馈结果包括所述修改样本商户简称的情况下, 将 所述修改样本商户简称确定为与所述样本商户全称对应的样本商户简称。 9.根据权利要求7所述的方法, 其特征在于, 所述通过分词算法和词频统计算法, 对所 述样本商户全称进行处 理, 得到初始样本商户简称, 包括: 通过预设冗余 算法, 对所述样本商户全称进行去冗余处 理, 得到样本商户名称信息;权 利 要 求 书 2/4 页 3 CN 115409024 A 3

PDF文档 专利 信息处理方法、装置、设备及存储介质

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息处理方法、装置、设备及存储介质 第 1 页 专利 信息处理方法、装置、设备及存储介质 第 2 页 专利 信息处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。