使用环境 |
在机器人抓取任务中,尤其是在多物体堆叠的复杂场景下,物体之间存在遮挡和重叠,导致抓取检测困难。 |
使用对象 |
检测和识别堆叠场景中的多个物体及其可抓取区域。 |
使用目的 |
提高抓取检测精度:通过多尺度区域注意力机制,提高对复杂堆叠场景中物体抓取点的检测精度。 增强鲁棒性:在复杂背景下,减少背景噪声的干扰,提高模型的抗干 |
输入数据 |
图像数据:堆叠场景的RGB图像和深度信息 标注数据:抓取点的标注信息,用于训练和验证模型 |
输出数据 |
抓取区域:检测到的可抓取区域的位置和形状 抓取置信度:对抓取区域的置信度评分 |
硬件配置 |
CPU:Intel Core i7-10700K
GPU:NVIDIA GeForce RTX 2080Ti
内存:至少16GB RAM
摄像头:用于获取堆叠场景的RGB图像和深度信息 |
样本获取 |
数据集:使用VMRD视觉操作关系数据集(5185张图像)和Cornell抓取数据集(885张图像)。通过数据增强(如随机裁剪、旋转、翻转)扩充数据集。 训练集/测试集:VMRD数据集按9:1比例分为训练集和测试集;Cornell数据集按4:1比例分为训练集和测试集。 |
测试结果 |
VMRD数据集:平均检测准确率为98.18%
Cornell数据集:平均检测准确率为98.0%
参数量:8.97M
推理速度:9.5 FPS |
执行速度 |
推理速度:9.5 FPS |
资源消耗 |
CPU占用率:在训练过程中,CPU占用率约为60%。 内存占用:在训练过程中,内存占用约为50%。 |
源码类型 |
算法的主要实现语言为Python,适合快速开发和测试。 |
文件大小 |
算法程序文件120KB,权重文件320MB |
相关备注 |
|