专利交互方法、交互装置、电子设备以及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111672307.2 (22)申请日 2021.12.31 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人胡诗卉　何山　胡金水　殷兵　刘聪　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人刘希 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/338(2019.01) G06F 16/33(2019.01) G06V 40/16(2022.01)G06F 40/295(2020.01) G06K 9/62(2022.01) G06V 10/774(2022.01) (54)发明名称交互方法、交互装置、电子设备以及存储介质 (57)摘要本申请公开了交互方法、交互装置、电子设备以及存储介质，其中，该交互方法包括：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本；利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。通过上述方案，本申请交互方法对应的虚拟形象能够进行类人的情感表达，从而能够使用户对应获得更自然，更具趣味性的交互体验。权利要求书2页说明书13页附图8页 CN 114357135 A 2022.04.15 CN 114357135 A 1.一种交互方法，其特征在于，所述交互方法包括：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；基于所述问询文本与所述情感类型标签确定所述问询文本的回复文本，并基于所述问询文本以及所述回复文本形成对话文本；利用所述对话文本以及所述情感类型标签得到与所述情感类型标签匹配的情感回应数据；将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应。 2.根据权利要求1所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签得到与所述情感类型标签匹配的情感回应数据的步骤，还包括：利用所述对话文本以及所述情感类型标签合成与所述情感类型标签对应的带有情感的语音；所述将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应的步骤，还包括：将所述带有情感的语音加载到所述虚拟形象中，通所述虚拟形象对所述带有情感的语音进行播放。 3.根据权利要求2所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的带有情感的语音的步骤，还包括：利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的所述带有情感的语音以及面部表情动画；所述将所述带有情感的语音加载到所述虚拟形象中，通所述虚拟形象对所述带有情感的语音进行播放的步骤，还包括：将所述带有情感的语音以及面部表情动画加载到所述虚拟形象中，通过所述虚拟形象对所述带有情感的语音进行播放以及对所述面部表情动画进行展示。 4.根据权利要求3所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的所述带有情感的语音以及面部表情动画的步骤，还包括：将所述对话文本以及所述情感类型标签输入到文本合成语音以及面部动画模型中，利用所述文本合成语音以及面部动画模型基于所述情感类型标签生成情感状态编码；利用所述情感状态编码确定所述带有情感的语音以及所述面部表情动画。 5.根据权利要求 4所述的交互方法，其特征在于，所述交互方法还包括：将所述情感类型标签、第一对话文本样本及其对应的情感回应样本输入到第一预设网络模型；所述第一预设网络模型基于所述第一对话文本样本以及所述情感类型标签合成与所述情感类型标签对应的语音预测数据以及面部表情动画预测数据，并通过所述语音预测数据以及面部表情动画预测数据与所述情感回应样本进行比对，得到相应的第一匹配程度结果；根据所述第一匹配程度结果和所述情感回应样本对所述第一预设网络模型进行训练，并将训练完成后的模型确定为所述文本合成语音以及面部动画模型。 6.根据权利要求2 ‑5中任一项所述的交互方法，其特征在于，所述利用所述对话文本以权　利　要　求　书 1/2 页 2 CN 114357135 A 2及所述情感类型标签合成与所情感类型标签对应的带有情感的语音的步骤，还包括：利用所述对话文本以及所述带有情感的语音合成与所情感类型标签对应的肢体动作；所述将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应的步骤，还包括：将所述肢体动作加载到所述虚拟形象中，通所述虚拟形象对所述肢体动作进行展示。 7.根据权利要求6所述的交互方法，其特征在于，所述利用所述对话文本以及所述带有情感的语音合成与所情感类型标签对应的肢体动作的步骤，还包括：获取到所述对话文本中的命名实体；利用所述命名实体确定对应的初始肢体动作；获取所述带有情感的语音的重音或/和节奏信息；利用所述初始肢体动作以及所述重音或/和节奏信息合成所述与所情感类型标签对应的肢体动作。 8.根据权利要求7所述的交互方法，其特征在于，所述利用所述对话文本以及所述带有情感的语音合成与所情感类型标签对应的肢体动作的步骤，还包括：将所述对话文本以及所述带有情感的语音输入到动作合成模型中，利用所述动作合成模型合成与所情感类型标签对应的肢体动作。 9.根据权利要求7 所述的交互方法，其特征在于，所述交互方法还包括：将所述情感类型标签、第二对话文本样本和带有情感的语音样本及对应的肢体动作样本输入到第二预设网络模型；所述第二预设网络模型基于所述第二对话文本样本以及所述带有情感的语音样本合成与所述情感类型标签对应的肢体动作预测数据，并通过所述肢体动作预测数据与所述肢体动作样本进行比对，得到相应的第二匹配程度结果；根据所述第二匹配程度结果和所述肢体动作样本对所述第二预设网络模型进行训练，并将训练完成后的模型确定为所述动作合成模型。 10.一种交互装置，其特征在于，所述交互装置包括：获取模块，用于获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；处理模块，用于基于所述问询文本与所述情感类型标签确定所述问询文本的回复文本，并基于所述问询文本以及所述回复文本形成对话文本，以利用所述对话文本以及所述情感类型标签得到与所述情感类型匹配的情感回应数据；展示模块，用于将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应。 11.一种电子设备，其特征在于，所述电子设备包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1 ‑9中任一项所述的交互方法。 12.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1 ‑9中任一项所述的交互方法。权　利　要　求　书 2/2 页 3 CN 114357135 A 3

专利 交互方法、交互装置、电子设备以及存储介质

专利交互方法、交互装置、电子设备以及存储介质