专利图像识别方法、装置、设备、存储介质及计算机程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210431971.6 (22)申请日 2022.04.22 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人陈珮娴　张梦丹　沈云航　盛柯恺　高雨婷　李珂　孙星　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师李文静 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图像识别方法、装置、设备、存储介质及计算机程序产品 (57)摘要本申请公开了一种图像识别方法、装置、设备、存储介质及计算机程序产品，涉及机器学习领域。该方法包括：获取目标图像，目标图像中包括对象元素；对目标图像进行n次特征提取，得到 n个候选特征，第i次特征提取是基于第i ‑1次提取得到的第i ‑1个候选特征执行的， 0＜ i≤n；对n 个候选特征进行聚合编码，得到聚合特征；对聚合特征进行对象识别，得到对象识别结果。即，对目标图像进行n次特征提取得到的n个候选特征进行聚合编码后，得到单个聚合特征并对其进行对象识别的方式，能够提高对象识别结果的输出效率以及准确度。本申请可应用于车联网、云技术、人工智能、智慧交通、地图、出行导航以及自动驾驶等各种场景。权利要求书2页说明书17页附图7页 CN 115131634 A 2022.09.30 CN 115131634 A 1.一种图像识别方法，其特征在于，所述方法包括：获取目标图像，所述目标图像中包括对象元素，所述对象元素作为图像内容处于所述目标图像中；对所述目标图像进行n次特征提取，得到n个候选特征，其中， n为大于1的整数，且第i次特征提取是基于第i ‑1次提取得到的第i ‑1个候选特征执行的， 0＜i≤n；对n个候选特征进行聚合编码，得到聚合特征；对所述聚合特征进行对象识别，得到对象识别结果，其中，所述对象识别结果用于指示所述目标图像中所包含的对象元素信息，所述对象元素信息包括对象类别和对象显示位置中的至少一种。 2.根据权利要求1所述的方法，其特征在于，所述对n个候选特征进行聚合编码，得到聚合特征，包括：在聚合第k个候选特征时，将前k ‑1个候选特征聚合得到的候选聚合特征向第k个候选特征的特征尺寸进行采样，得到第k ‑1个待聚合特征， 1＜k＜n；将第k个候选特征与所述第k ‑1个待聚合特征进行融合，得到第k ‑1个候选聚合特征，直至所述n个候选特征聚合完成，得到所述聚合特征。 3.根据权利要求2所述的方法，其特征在于，所述将第k个候选特征与所述第k ‑1个待聚合特征进行融合，得到第k ‑1个候选聚合特征，包括：基于注意力机制对所述第k个候选特征与所述第k ‑1个待聚合特征进行加权融合，得到所述第k个候选聚合特征。 4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述目标图像进行n次特征提取，得到n个候选特征，包括：对所述目标图像进行n次下采样，得到n个下采样结果作为n个候选特征，其中，对第i ‑1 次下采样得到的下采样结果进行第i次下采样，得到第i个下采样结果作为第i个候选特征。 5.根据权利要求4所述的方法，其特征在于，所述对所述目标图像进行n 次下采样，得到 n个下采样结果作为 n个候选特征，包括：对所述目标图像进行图像块分割，得到m个图像块， m为正整数；对所述m个图像块分别进行n次下采样，得到n个下采样结果作为n个候选特征，其中， m 个图像块的第p次下采样结果组合得到第p个候选特征， 1＜p＜n。 6.根据权利要求1至3任一所述的方法，其特征在于，所述对象元素信息包括所述对象类别和所述对象显示位置；所述对所述聚合特征进行对象识别，得到对象识别结果，包括：对所述聚合特征进行特征采样，得到通用特征；通过注意力机制对所述通用特征进行位置特征采样，得到位置特征；对所述通用特征进行对象识别，得到所述对象类别；对所述位置特征进行对象识别，得到所述对象显示位置。 7.根据权利要求6所述的方法，其特征在于，所述对象识别结果是通过对象识别模型进行识别得到的，所述对象识别模型是通过如下方式训练的：获取样本图像，所述样本图像标注有样本对象元素的参考对象类别和参考显示位置，所述样本对象元素是所述样本图像的显示元素；权　利　要　求　书 1/2 页 2 CN 115131634 A 2将所述样本图像输入样本识别模型，输出得到所述样本对象元素对应的预测对象类别和预测显示位置；基于所述参考对象类别和所述预测对象类别之间的分类差异，确定类别损失；基于所述参考显示位置和所述预测显示位置之间的位置差异，确定位置损失；根据所述类别损失和所述位置损失，对所述样本识别模型进行训练，得到所述对象识别模型。 8.一种图像识别装置，其特征在于，所述装置包括：获取模块，用于获取目标图像，所述目标图像中包括对象元素，所述对象元素作为图像内容处于所述目标图像中；提取模块，用于对所述目标图像进行n次特征提取，得到n个候选特征，其中， n为大于1 的整数，且第i次特征提取是基于第i ‑1次提取得到的第i ‑1个候选特征执行的， 0＜i≤n；编码模块，用于对n个候选特征进行聚合编码，得到聚合特征；识别模块，用于对所述聚合特征进行对象识别，得到对象识别结果，其中，所述对象识别结果用于指示所述目标图像中所包含的对象元素信息，所述对象元素信息包括对象类别和对象显示位置中的至少一种。 9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的图像识别方法。 10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的图像识别方法。 11.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至7任一所述的图像识别方法。权　利　要　求　书 2/2 页 3 CN 115131634 A 3

专利 图像识别方法、装置、设备、存储介质及计算机程序产品

专利图像识别方法、装置、设备、存储介质及计算机程序产品