专利 适用于虚拟机器人的自然语言数据处理方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211387971.7 (22)申请日 2022.11.08 (71)申请人天嘉科技（南京）有限公司地址 210046 江苏省南京市栖霞区尧化街道科创路1号金港科创园一期1号楼 110-A室 (72)发明人曹少天　徐培宇　周雪　 (74)专利代理机构苏州科权知识产权代理事务所(普通合伙) 32561 专利代理师杨文龙 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/279(2020.01) (54)发明名称适用于虚拟机器人的自然语言数据处理方法及系统 (57)摘要本申请提供一种适用于虚拟机器人的自然语言数据处理方法及系统。该方法通过终端设备获取自闭症患者的指令语句，并通过专注力头环获取自闭症患者的专注度值，然后，专注力头环根据专注度值以及预设专注度区间范围确定处理指令，并将处理指令发送至终端设备，以指示终端设备根据处理指令确定对应的目标自然语言处理模型，终端设备根据目标自然语言处理模型对指令语句进行处理，并根据处理结果以及专注度值确定回复语句，最后，终端设备根据回复语句的内容信息确定对应形象类型的目标虚拟机器人，并通过目标虚拟机器人播放回复语句，从而以满足自闭症患者不同专注度状态下的交互需求。权利要求书3页说明书13页附图3页 CN 115438168 A 2022.12.06 CN 115438168 A 1.一种适用于虚拟机器人的自然语言数据处理方法，其特征在于，应用于虚拟机器人交互系统，所述系统包括：终端设备以及与所述终端设备通信连接的专注力头环，所述终端设备中配置有不同形象类型的虚拟机器人；所述方法，包括：通过所述终端设备获取自闭症患者的指令语句，并通过所述专注力头环获取所述自闭症患者的专注度值；所述专注力头环根据所述专注度值以及预设专注度区间范围确定处理指令，并将所述处理指令发送至所述终端设备，以指示所述终端设备根据所述处理指令确定对应的目标自然语言处理模型；所述终端设备根据所述目标自然语言处理模型对所述指令语句进行处理，并根据处理结果以及所述专注度值确定回复语句；所述终端设备根据所述回复语句的内容信息确定对应形象类型的目标虚拟机器人，并通过所述目标虚拟机器人播放所述回复语句。 2.根据权利要求1所述的适用于虚拟机器人的自然语言数据处理方法，其特征在于，在所述终端设备根据所述目标自然语言处理模型对所述指令语句进行处理之前，还包括：对所述指令语句进行分词处理，并根据分词结果构建所述指令语句对应的文本序列；根据所述自然语言处理模型计算所述指令语句对应的所述文本序列出现的概率；若所述概率大于预设阈值，则确定所述指令语句为正常指令。 3.根据权利要求2所述的适用于虚拟机器人的自然语言数据处理方法，其特征在于，所述专注力头环根据所述专注度值以及预设专注度区间范围确定处理指令，包括：若所述专注度值处于预设第一专注度区间，则所述处理指令为第一处理指令，所述第一处理指令用于指示所述终端设备选择第一自然语言处理模型；若所述专注度值处于预设第二专注度区间，则所述处理指令为第二处理指令，所述第二处理指令用于指示所述终端设备选择第二自然语言处理模型；其中，所述预设第二专注度区间的最小值为所述预设第一专注度区间的最大值；在所述第一自然语言处理模型中，计算所述指令语句对应的所述文本序列出现的概率时，所述文本序列中的M个分词相互关联；在所述第二自然语言处理模型中，计算所述指令语句对应的所述文本序列出现的概率时，所述文本序列中的N个分词相互关联； M与N为大于1的正整数，且N大于 M。 4.根据权利要求3所述的适用于虚拟机器人的自然语言数据处理方法，其特征在于，在所述第一自然语言处理模型中，所述指令语句对应的所述文本序列出现的概率的计算公式为：；；其中，为所述文本序列中的第n个分词, 为在第一预设语料库中出现的次数，所述第一预设语料库为基于自闭症患者常用语言所建立的语料库；在所述第二自然语言处理模型中，所述指令语句对应的所述文本序列出现的概率的计算公式为：；权　利　要　求　书 1/3 页 2 CN 115438168 A 2；其中，所述文本序列为，为所述文本序列中的第n个分词, 为序列在预设语料库中出现的次数，为序列在预设语料库中出现的次数；所述预设语料库为在基础语料库的基础上结合自闭症患者常用语言所建立的语料库。 5.根据权利要求4所述的适用于虚拟机器人的自然语言数据处理方法，其特征在于，所述根据处理结果以及所述专注度值确定回复语句，包括：根据所述处理结果以及预设问答模型确定初始回复语句，其中，所述预设问答模型基于Seq2seq模型建立；若所述专注度值处于所述预设第一专注度区间，且所述初始回复语句的字数大于预设字数，则对所述初始回复语句进行精简处理，以生成所述回复语句，所述回复语句的字数小于所述预设字数；若所述专注度值处于所述预设第一专注度区间，且所述初始回复语句的字数小于或等于预设字数，则所述回复语句为所述初始回复语句；若所述专注度值处于所述预设第二专注度区间，则所述回复语句为所述初始回复语句。 6.根据权利要求5所述的适用于虚拟机器人的自然语言数据处理方法，其特征在于，所述对所述初始回复语句进行精简处理，以生成所述回复语句，包括：根据预设停用词表过滤所述初始回复语句中的停用词，以生成中间回复语句；对所述中间回复语句进行分词处理，以确定所述中间回复语句所对应的第一文本序列；根据预设词性指定规则保留所述第一文本序列中指定词性的词语，以形成第二文本序列；将所述第二文本序列中的各个词语设置为PageRank算法中的一个节点，并通过所述 PageRank算法计算得到的重要性最高的若干词语，以形成第三文本序列；根据所述第三文本序列生成所述回复语句。 7.根据权利要求3 ‑6中任意一项所述的适用于虚拟机器人的自然语言数据处理方法，其特征在于，还包括：通过所述终端设备获取沟通人员的沟通语句；若所述专注度值处于所述预设第一专注度区间，则根据预设停用词表过滤所述沟通语句中的停用词，以生成中间沟通语句；对所述中间沟通语句进行分词处理，以确定所述中间沟通语句所对应的第四文本序列；根据预设词性指定规则保留所述第四文本序列中指定词性的词语，以形成第五文本序列；将所述第五文本序列中的各个词语设置为PageRank算法中的一个节点，并通过所述 PageRank算法计算得到的重要性最高的若干词语，以形成第六文本序列；权　利　要　求　书 2/3 页 3 CN 115438168 A 3

专利 适用于虚拟机器人的自然语言数据处理方法及系统

专利适用于虚拟机器人的自然语言数据处理方法及系统