
套用PayPal联合创始人、科技企业家Peter Thiel的话来说就是“我们本想要酷酷的机器人,但我们只得到了有着140字输入限制的汉堡机器人Flippy”。但是,科学家们正在逐步取得进展,赋予机器人与人类一样的能力,可以对周围的环境进行观察和反应。
该领域的一些最新进展是本月在年度机器人大会暨马萨诸塞州剑桥科学与系统会议上所提出来的。这些论文深入探讨了一些话题,包括如何让机器人更健谈,帮助他们理解语言的模糊性,以及帮助他们在复杂的空间中观察和导航等。

研究人员对机器人的算法进行了训练,方式是对大约4,000种常见的家用物品进行3D扫描,如床铺、椅子、桌子,甚至是马桶。然后,他们测试了机器人以鸟类的视角观察和分辨出900个新的3D物体的能力。相对于其他计算机视觉技术50%的正确率而言,该算法在其75%的时间内做出了正确的猜测。
研究人员表示,他们的研究并不是训练机器对3D物体进行分类的首例。他们的方法不同之处在于,他们对机器人学习物体分类的空间进行限制。
“想象一下所有可能的物体存在的空间,”研究人员解释道:“这就是说,假如你有微型乐高积木,我告诉你,你可以随意将它们粘在一起来创造不同的东西。你可以创造出很多东西!”
这种无限的可能性可能会最终带来人或机器都不能够识别的物体。
“问题在于,命令可以有不同的抽象级别,这可能会导致机器人无法有效地规划其行为或根本无法完成任务。”Arumugam在一份新闻稿中说。
研究最终从虚拟环境进入了真实世界,使用了一个 和Roomba相似的机器人,90%的情况下,该机器人可以做到一秒内对指令做出反应。相反,当无法识别任务的特异性时,机器人需要20秒或更多秒的时间来计划任务约50%的时间。
论文中提到的这种新机器学习技术的一个应用是在仓库环境中工作的机器工人,但还有许多领域可以从一个更全能的机器中受益,这种机器能够在具体操作和一般化任务之间无缝切换。
“其他可能受益于这样系统的领域包括自动驾驶汽车、辅助机器人技术以及医疗机器人等。”Singularity Hub在回答一封邮件来信时这样说。

即使相对“话多”的聊天机器人也可能会被问的无言以对,因为未来人机谈话可能变得更加复杂。根据Burchfiel的说法,人类的视力也是如此。
虽然深度学习技术极大地改善了模式匹配——谷歌能找到任何一张猫的照片——但人类的视力具有的能力远不止于找东西。
“有两个大领域我认为人工智能认知还有很长的路要走:归纳性偏见和形式推理,” Burchfiel说。他解释道,前者本质上是人们用来帮助他们推理的背景知识。他使用大街上的一个水坑作为例子。例如,人们习惯于认为这是一滩水,而不是一块玻璃。他说:“这种偏见可以解释为什么当看着云的时候我们会认为看到了人脸,因为我们对于人脸有很强的偏好。”虽然乍一听起来很简单,但它却为我们所做的大部分事情提供了动力。人类对自己期望看到的东西有一种非常直观的理解,这让认知变得更容易。
形式推理同样重要。在Burchfiel的例子中,当一台机器学习了水向下流的原理后,它可以利用深度学习算法计算出所有河流的流向。但它还没有拥有人类将此知识扩展到其他事物上的能力,例如研究水在火星的管道系统里是如何运动的。
“在过去的几十年里,我们做了很多这样的形式推理……但我们还没有找到如何将它与标准的机器学习方法结合起来以创造出一个在现实世界中有益的无缝化系统。”Burchfiel表示。机器人在人类身上还有很多东西需要学习,这应该会让我们感觉良好,因为这证明人类才是地球上最复杂的。
更多阅读: