(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211054500.4
(22)申请日 2022.08.31
(65)同一申请的已公布的文献号
申请公布号 CN 115146743 A
(43)申请公布日 2022.10.04
(73)专利权人 平安银行股份有限公司
地址 518000 广东省深圳市罗湖区深南 东
路5047号
(72)发明人 陈子意 陈杭 李骁 朱益兴
于欣璐 张静 赖众程 宫春光
(74)专利代理 机构 广东良马律师事务所 4 4395
专利代理师 马戎
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)A61B 5/00(2006.01)
A61B 5/16(2006.01)
G10L 25/63(2013.01)
G06F 40/30(2020.01)
(56)对比文件
WO 2019085 330 A1,2019.0 5.09
CN 111382403 A,2020.07.07
CN 106570496 A,2017.04.19
Julio C. S. Jacques Jun ior et
al..First Impres sions: A Survey o n
Vision-based Ap parent Perso nality Trait
Analysis. 《arXiv:1804.08046v3》 .2019,
洪兆金 等.基 于深度神经网络的语音情感
识别及性格分析. 《信息化研究》 .2020,第46卷
(第1期),
审查员 曹春晓
(54)发明名称
性格识别模型的训练方法、 性格识别方法、
装置及系统
(57)摘要
本发明公开了性格识别模型的训练方法、 性
格识别方法、 装置及系统, 方法包括: 获取具有 性
格色彩标注信息的训练数据, 训练数据包括音 频
训练数据以及文本训练数据; 将训练数据输入至
预先构建的双模态性格识别模型中, 获得模型输
出结果, 双模态性格识别模型包括文本特征提取
模型和语音特征提取模型; 根据模 型输出结果与
训练数据的性格色彩标注信息, 获得损失函数
值; 根据损失函数值更新双模态 性格识别模型的
模型参数, 直到双模态性格识别模 型满足预设收
敛条件。 通过融合了语音和文本的双模态信息对
性格识别模 型进行训练, 使 得训练完成的模型能
充分利用客户的语音和文本信息实现准确 高效
的性格色彩识别, 提高了性格色彩识别的覆盖
率。
权利要求书3页 说明书11页 附图9页
CN 115146743 B
2022.12.16
CN 115146743 B
1.一种性格识别模型的训练方法, 其特 征在于, 包括:
获取具有性格色彩标注信 息的训练数据, 所述训练数据包括音频训练数据以及与 所述
音频训练数据对应的文本训练数据;
将所述训练数据输入至预先构建的双模态性格识别模型中, 获得模型输出结果, 所述
双模态性格识别模型包括文本特 征提取模型和语音特 征提取模型;
根据所述模型输出 结果与所述训练数据的性格色彩标注信息, 获得损失函数值;
根据所述损失函数值更新所述双模态性格识别模型的模型参数, 直到所述双模态性格
识别模型满足预设收敛 条件则完成模型训练;
所述将所述训练数据输入至预先构建的双模态性格识别模型中, 获得模型输出结果之
前, 所述方法还 包括:
将所述文本训练数据输入至文本预训练模型中进行周期性的训练, 直到完成预设周期
训练后得到所述文本特征提取模型, 使得文本特征提取模型适应训练数据来源的业务系统
所对应的场景;
将所述音频训练数据输入至语音预训练模型中进行周期性的训练, 直到完成预设周期
训练后得到所述语音 特征提取模型, 使得语音特征提取模型适应训练数据来源的业务系统
所对应的场景;
所述根据所述损失函数值更新所述双模态性格识别模型的模型参数, 具体包括:
在模型训练过程中进行阶段性的参数更新, 在当前训练周期小于等于周期阈值时, 不
更新所述文本特 征提取模型和所述语音特 征提取模型的参数;
直到当前训练周期大于周期阈值时同步更新所述文本特征提取模型和所述语音特征
提取模型的参数, 所述参数指的是文本特征提取模型和语音特征提取模型中的
Transformer参数。
2.根据权利要求1所述的性格识别模型的训练方法, 其特征在于, 所述获取具有性格色
彩标注信息的训练数据之前, 所述方法还 包括:
从预设业务数据库中采集存量录音数据并构建数据集, 所述数据集包括训练数据、 验
证数据和 测试数据。
3.根据权利要求2所述的性格识别模型的训练方法, 其特征在于, 所述从预设业务数据
库中采集存量录音数据并构建数据集, 包括:
从预设业 务数据库中获取用户的存量录音;
对所述存量录音 进行语音 文本转换, 得到对应的录音 文本;
根据所述录音文本的时间戳, 对所述存量录音进行音频切分并对所述录音文本进行文
本分割, 得到若干个音频片段以及文本片段;
接收对每条音频片段以及文本片段的性格色彩标注信息, 构建得到数据集;
将所述数据集按预设比例划分为训练数据、 验证数据和 测试数据。
4.根据权利要求3所述的性格识别模型的训练方法, 其特征在于, 所述根据所述录音文
本的时间戳, 对所述存量录音进行音频切分并对所述录音文本进行文本分割, 得到若干个
音频片段以及文本片段之前, 所述方法还 包括:
根据所述存量录音的声道信息, 提取指定声道的用户音频 数据。
5.根据权利要求3所述的性格识别模型的训练方法, 其特征在于, 所述接收对每条音频权 利 要 求 书 1/3 页
2
CN 115146743 B
2片段以及文本片段的性格色彩标注信息, 构建得到数据集之前, 所述方法还 包括:
对文本长度小于预设长度的文本片段进行 过滤。
6.根据权利要求1所述的性格识别模型的训练方法, 其特征在于, 所述将所述训练数据
输入至预 先构建的双模态性格识别模型中, 获得模型输出 结果, 包括:
将所述音频训练数据输入至语音特 征提取模型中, 提取 得到语音表征张量;
将所述文本训练数据输入至文本特 征提取模型中, 提取 得到文本表征张量;
将所述语音表征张量与所述文本表征张量连接后输入至全连接层中进行分类, 输出不
同性格色彩的概 率分布。
7.一种性格识别方法, 其特 征在于, 包括:
将待识别数据输入至预先完成训练 的双模态性格识别模型中进行性格色彩识别, 所述
待识别数据包括待识别音频 数据和对应的待识别文本数据;
输出所述待识别数据的性格色彩识别结果;
其中, 所述预先完成训练的双模态性格识别模型为采用如权利要求1 ‑6任意一项所述
的训练方法得到的双模态性格识别模型。
8.根据权利要求7所述的性格识别方法, 其特征在于, 当所述待识别音频数据为单句音
频时, 所述输出 所述待识别数据的性格色彩识别结果, 包括:
获取所述双模态性格识别模型输出的不同性格色彩的概 率分布;
将概率最高的性格色彩作为所述单句音频的性格色彩识别结果。
9.根据权利要求8所述的性格识别方法, 其特征在于, 当所述待识别音频数据为音频集
合时, 所述输出 所述待识别数据的性格色彩识别结果, 包括:
获取所述双模态性格识别模型对所述音频集合中每条音频输出的不同性格色彩的概
率分布;
统计得到各个性格色彩的概率之和, 将概率之和最高的性格色彩作为所述音频集合的
性格色彩识别结果。
10.一种性格识别模型的训练装置, 其特 征在于, 包括:
数据获取模块, 用于获取具有性格色彩标注信息的训练数据, 所述训练数据包括音频
训练数据以及与所述音频训练数据对应的文本训练数据;
训练输入模块, 用于将所述训练数据输入至预先构建的双模态性格识别模型中, 获得
模型输出 结果, 所述双模态性格识别模型包括文本特 征提取模型和语音特 征提取模型;
损失计算模块, 用于根据所述模型输出结果与所述训练数据的性格色彩标注信息, 获
得损失函数值;
训练更新模块, 用于根据所述损 失函数值更新所述双模态性格识别模型的模型参数,
直到所述双模态性格识别模型满足预设收敛 条件则完成模型训练;
第一预训练模块, 用于将所述文本训练数据输入至文本预训练模型中进行周期性的训
练, 直到完成预设周期训练后得到所述文本特征提取模型, 使得文本特征提取模型适应训
练数据来源的业 务系统所对应的场景;
第二预训练模块, 用于将所述音频训练数据输入至语音预训练模型中进行周期性的训
练, 直到完成预设周期训练后得到所述语音特征提取模型, 使得语音特征提取模型适应训
练数据来源的业 务系统所对应的场景;权 利 要 求 书 2/3 页
3
CN 115146743 B
3
专利 性格识别模型的训练方法、性格识别方法、装置及系统
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:58上传分享