

为了开发这个系统,纽约大学和meta的研究人员在五个家庭的10个房间里测试了Stretch,这是一个由Hello robot公司制造的商用机器人,由一个轮式单元、一个高杆和一个可伸缩的手臂组成。
当研究人员和机器人在一个房间里时,他们会使用Record3D扫描周围的环境,这是一款iPhone应用程序,使用手机的激光雷达系统拍摄3D视频并与机器人分享。
OK-Robot系统随后在视频帧上运行了一个开源的人工智能对象检测模型。这与其他开源模型相结合,帮助机器人识别房间里的物体,如玩具龙、一管牙膏和一副扑克牌,以及房间周围的位置,包括椅子、桌子和垃圾桶。
然后,研究小组指示机器人捡起一个特定的物品,并将其移动到一个新的位置。机器人的钳臂在58.5%的情况下成功做到了这一点;在不那么杂乱的房间里,成功率上升到82%。(他们的研究尚未经过同行评议。)
谷歌DeepMind高级计算机视觉研究科学家马蒂亚斯·明德勒(Matthias Minderer)表示,最近的人工智能热潮导致了语言和计算机视觉能力的巨大飞跃,使机器人研究人员能够使用三年前还不存在的开源人工智能模型和工具。
他说:“我想说,完全依赖现成的模型是非常不寻常的,让它们发挥作用是非常令人印象深刻的。”