专利语音处理方法、处理装置、处理设备、车辆和介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211177957.4 (22)申请日 2022.09.27 (65)同一申请的已公布的文献号申请公布号 CN 115273818 A (43)申请公布日 2022.11.01 (73)专利权人小米汽车科技有限公司地址 100176 北京市北京经济技术开发区科创十街15号院5号楼6层618室 (72)发明人李超　秦斌　王刚　刘黎　 (74)专利代理机构北京法胜知识产权代理有限公司 11922 专利代理师石茵汀 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/18(2013.01)G10L 15/26(2006.01) G10L 15/30(2013.01) G06N 20/00(2019.01) 审查员王玥 (54)发明名称语音处理方法、处理装置、处理设备、车辆和介质 (57)摘要本公开提出一种语音处理方法、处理装置、处理设备、车辆和介质，所述方法包括：获取车载终端采集到的语音的音频数据；在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果；向服务器发送音频数据，以使服务器对音频数据执行语音处理流程得到语音处理流程中最后一个处理环节的第三处理结果；向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程得到第二处理结果；根据三个处理结果对语音进行响应。本公开通过增加第二处理结果，提高了服务器接收到音频数据和车载终端本地接收到处理结果的可能性。权利要求书2页说明书12页附图2页 CN 115273818 B 2022.12.13 CN 115273818 B 1.一种语音处理方法，其特征在于，包括以下步骤：获取车载终端采集到的语音的音频数据；在所述车载终端本地对所述音频数据执行语音处理流程，以得到所述语音处理流程中最后一个处理环节的第一处理结果，以及所述语音处理流程中至少一个中间处理环节的第一中间结果；向服务器发送所述音频数据，以使所述服务器对所述音频数据执行所述语音处理流程，以得到所述语音处理流程中最后一个处理环节的第三处理结果；向所述服务器发送所述至少一个中间处理环节的第一中间结果，以使所述服务器对所述第一中间结果继续执行所述语音处理流程，以得到第二处理结果；根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应；所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应，包括：在所述第一处理结果的置信度小于阈值，且在设定时间内从所述服务器获取到所述第二处理结果和所述第三处理结果中的多个处理结果，则采用机器学习模型对所述多个处理结果进行融合，以得到目标处理结果；其中，所述置信度用于指示对应处理结果与所述语音的匹配程度；基于所述目标处理结果，对所述语音进行响应。 2.根据权利要求1所述的方法，其特征在于，所述向所述服务器发送所述至少一个中间处理环节的第一中间结果，包括：每当所述车载终端本地执行一个所述中间处理环节完毕，向所述服务器发送已执行完毕的中间处理环节的第一中间结果。 3.根据权利要求1所述的方法，其特征在于，所述向服务器发送所述音频数据，包括：在所述语音处理流程中最后一个处理环节执行完毕的情况下，向所述服务器发送所述音频数据。 4.根据权利要求1 ‑3任一项所述的方法，其特征在于，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应，包括：根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定目标处理结果；其中，所述置信度用于指示对应处理结果与所述语音的匹配程度；基于所述目标处理结果，对所述语音进行响应。 5.根据权利要求4所述的方法，其特征在于，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定目标处理结果，包括：根据所述设定规则的指示，在所述第一处理结果的置信度大于或等于阈值的情况下，将所述第一处理结果作为所述目标处理结果；和/或，根据所述设定规则的指示，在所述第一处理结果的置信度小于所述阈值的情况下，根据所述第二处理结果和所述第三处理结果中的至少一个，确定所述目标处理结果。 6.根据权利要求5所述的方法，其特征在于，所述根据所述第二处理结果和所述第三处权　利　要　求　书 1/2 页 2 CN 115273818 B 2理结果中的至少一个，确定所述目标处理结果，包括：在设定时间内从所述服务器获取到所述第二处理结果和所述第三处理结果中的一个处理结果，将获取到的所述一个处理结果作为所述目标处理结果。 7.根据权利要求1所述的方法，其特征在于，所述采用所述机器学习模型对所述多个处理结果进行融合，以得到所述目标处理结果，包括：对所述多个处理结果进行语义特征提取，以得到所述多个处理结果的语义特征；将所述多个处理结果的语义特征，以及所述多个处理结果的置信度，输入所述机器学习模型进行融合，以得到所述机器学习模型输出的所述目标处理结果。 8.一种语音处理装置，其特征在于，包括：第一获取模块，用于获取车载终端采集到的语音的音频数据；第二获取模块，用于在所述车载终端本地对所述音频数据执行语音处理流程，以得到所述语音处理流程中最后一个处理环节的第一处理结果，以及所述语音处理流程中至少一个中间处理环节的第一中间结果；第一发送模块，用于向服务器发送所述音频数据，以使所述服务器对所述音频数据执行所述语音处理流程，以得到所述语音处理流程中最后一个处理环节的第三处理结果；第二发送模块，用于向所述服务器发送所述至少一个中间处理环节的第一中间结果，以使所述服务器对所述第一中间结果继续执行所述语音处理流程，以得到第二处理结果；响应模块，用于根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应；所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应，包括：在所述第一处理结果的置信度小于阈值，且在设定时间内从所述服务器获取到所述第二处理结果和所述第三处理结果中的多个处理结果，则采用机器学习模型对所述多个处理结果进行融合，以得到目标处理结果；其中，所述置信度用于指示对应处理结果与所述语音的匹配程度；基于所述目标处理结果，对所述语音进行响应。 9.一种语音处理设备，其特征在于，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1 ‑7中任一项所述的语音处理方法。 10.一种车辆，其特征在于，包括：如权利要求9所述的语音处理设备。 11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的语音处理方法。权　利　要　求　书 2/2 页 3 CN 115273818 B 3

专利 语音处理方法、处理装置、处理设备、车辆和介质

专利语音处理方法、处理装置、处理设备、车辆和介质