专利基于时空注意力机制的可形变物体形状控制系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210573963.5 (22)申请日 2022.05.24 (71)申请人清华大学深圳国际研究生院地址 518055 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼 (72)发明人梁斌　王学谦　莫凯　夏崇坤　 (74)专利代理机构深圳新创友知识产权代理有限公司 4 4223 专利代理师方艳平 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/40(2022.01) G06V 10/422(2022.01) G06V 10/774(2022.01) B25J 9/16(2006.01)B25J 15/08(2006.01) (54)发明名称基于时空注意力机制的可形变物体形状控制系统及方法 (57)摘要本发明公开了一种基于时空注意力机制的可形变物体形状控制系统及方法，该系统包括时空特征提取模块以及抓取和放置位置生成模块，时空特征提取模块将输入的可形变物体当前形状的图像和达到可形变物体目标形状的示教操作序列的图像组进行特征嵌入得到嵌入向量块，提取嵌入向量块的时空特征，根据嵌入向量块的时空特征得到时空特征向量，并将时空特征向量输出至抓取和放置生成模块；抓取和放置生成模块包括抓取点生成译码器和放置点生成译码器，两者分别接收时空特征向量，并根据时空特征向量分别得到抓取热力图和放置热力图，以使得机器人能够根据抓取热力图和放置热力图对可形变物体进行抓取和放置操作。本发明提高了系统框架的操作效率与自主性。权利要求书2页说明书9页附图3页 CN 114863282 A 2022.08.05 CN 114863282 A 1.一种基于时空注意力机制的可形变物体形状控制系统，其特征在于，包括时空特征提取模块以及抓取和放置位置生成模块，其中：所述时空特征提取模块将输入的可形变物体当前形状的图像和达到可形变物体目标形状的示教操作序列的图像组进行特征嵌入得到嵌入向量块，然后提取所述嵌入向量块的时空特征，并从提取的时空特征中筛选出所述嵌入向量块中当前形状以及目标形状的时空特征，根据输入的图像和图像组中可形变物体当前形状和目标形状的空间结构将当前形状以及目标形状的时空特征分别进行重排列得到两组特征向量，再拼接两组特征向量得到时空特征向量，并将所述时空特征向量输出至所述抓取和放置生成模块；所述抓取和放置生成模块包括抓取点生成译码器和放置点生成译码器，所述抓取点生成译码器和所述放置点生成译码器分别接收所述时空特征向量，并根据所述时空特征向量分别得到抓取热力图和放置热力图，以使得机器人能够根据所述抓取热力图和放置热力图对可形变物体进行抓取和放置操作。 2.一种基于时空注意力机制的可形变物体形状控制方法，其特征在于，采用权利要求1 所述的系统来对可形变物体的形状进行控制，包括以下步骤： S1：将可形变物体当前形状的图像和达到可形变物体目标形状的示教操作序列的图像组输入到所述时空特征提取模块，并对输入的图像和图像组进行特征嵌入得到嵌入向量块； S2：提取所述嵌入向量块的时空特征； S3：从提取的时空特征中筛选出所述嵌入向量块中当前形状以及目标形状的时空特征； S4：根据输入到所述时空特征提取模块的图像和图像组中可形变物体当前形状和目标形状的空间结构，将步骤S 3中的当前形状以及目标形状的时空特征分别进行重排列得到两组特征向量，再拼接两组特征向量得到时空特征向量，将所述时空特征向量输出至所述抓取和放置生成模块； S5：所述抓取点生成译码器和所述放置点生成译码器分别接收所述时空特征向量，并根据所述时空特征向量分别得到抓取热力图和放置热力图，以使得机器人能够根据所述抓取热力图和放置热力图对可形变物体进行抓取和放置操作； S6：获取经机器人抓取和放置操作后的可形变物体的图像，并将经机器人抓取和放置操作后的可形变物体的图像作为可形变物体当前形状的图像重复执行步骤S1至S 6，直至达到预设条件后停止。 3.根据权利要求2所述的方法，其特征在于，步骤S1中对输入的图像和图像组进行特征嵌入得到嵌入向量块具体包括：将输入的每一幅尺寸为N ×N的图像分解为a ×a的小块，并对分解得到的所有小块进行线性的特征嵌入，以嵌入到M维的特征向量，得到嵌入向量块；步骤S4中得到的时空特征向量的维度为其中a能够被N整除。 4.根据权利要求2所述的方法，其特征在于，步骤S2具体包括： S21：对所述嵌入向量块进行层标准化操作，并对所述嵌入向量块进行时间维度上的多头注意力计算； S22：将经步骤S21计算得到的嵌入向量块与输入到步骤S21的嵌入向量块进行残差连权　利　要　求　书 1/2 页 2 CN 114863282 A 2接； S23：对步骤S22得到的嵌入向量块进行层标准化操作，并对所述嵌入向量块进行空间维度上的多头注意力计算； S24：将经步骤S23计算得到的嵌入向量块与输入到步骤S23的嵌入向量块进行残差连接； S25：对步骤S22得到的嵌入向量块进行层标准化操作，并将进行层标准化操作后的嵌入向量块输入到多层感知机中； S26：将步骤S25得到的嵌入向量块与输入到步骤S25的嵌入向量块进行残差连接；重复步骤S21至S26 至少一次，以提取所述嵌入向量块的时空特征。 5.根据权利要求2所述的方法，其特征在于，步骤S5 中所述抓取点生成译码器和所述放置点生成译码器分别对所述时空特征向量进行上采样，以生成抓取热力图和放置热力图，其中所述抓取热力图中的每个点代表输入图像中对应像素点的抓取成功率，所述放置热力图中的每个点代表输入图像中对应像素点的放置成功率，所述机器人以所述抓取热力图中的最大值对应的像素点作为抓取位置、所述放置热力图中的最大值对应的像素点作为放置位置来对可形变物体进行抓取和放置操作。 6.根据权利要求2所述的方法，其特征在于，步骤S5 中所述抓取点生成译码器和所述放置点生成译码器分别采用渐进上采样的方式对所述时空特征向量进行上采样。 7.根据权利要求6所述的方法，其特征在于，所述抓取点生成译码器和所述放置点生成译码器分别包括log2n/m个抓取点生成译码单元和放置点生成译码单元，每个所述抓取点生成译码单元和每个所述放置点生成译码单元分别执行以下步骤：首先通过1 ×1的二维卷积操作以改变特征向量的通道数，然后通过双线性差值操作以使得尺寸变为原来的两倍；其中n为所述时空特征向量的尺寸， m为所述抓取热力图或所述放置热力图的尺寸。 8.根据权利要求2所述的方法，其特征在于，在执行步骤S1至S6之前还包括S0：采用随机数据对权利要求1所述的系统进行预训练。 9.根据权利要求8所述的方法，其特征在于，重复执行步骤A1至A4以生成预训练所采用的所述随机数据，其中步骤A1至A4如下： A1：搭建仿真场景，并随机生成可形变物体； A2：随机选取可形变物体的某个点作为抓取点，并随机生成一个放置点，以使机器人在仿真场景中进行抓取和放置操作； A3：采集仿真场景中机器人进行抓取和放置操作前后的图像，以记录机器人进行抓取和放置操作时的抓取和放置操作的具体位置； A4：重复T次步骤A1至A3，以得到一组与可形变物体的T步随机交互数据。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现权利要求2至9任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114863282 A 3

专利 基于时空注意力机制的可形变物体形状控制系统及方法

专利基于时空注意力机制的可形变物体形状控制系统及方法