我一直在思考数据的问题。 对于大型语言模型来说,似乎有源源不断的数据流。只需不断输入即可。 但对于机器人来说,情况就不同了。这是一个严酷的沙漠。 我们能做些什么呢?
@cot_research 2/x 让我印象深刻的是这种巨大的不对称性。LLM(大型语言模型)训练于数万亿个标记。 相比之下,机器人数据集则小得多;通常小1000000倍。 这是因为物理反馈循环缓慢且成本高昂。每一次真实的交互都会消耗硬件。
3/x 那么,我们如何弥补这个差距呢?一个关键的方法是模拟。 它让机器人在不损坏的情况下学习。它们可以失败一千次,仍然能够站起来。 这就是物理智商开始扩展的地方。更多的计算意味着更智能的策略。
4/x 但模拟是有其局限性的。存在一个持续的“模拟与现实差距”。 物理学很难准确建模。表面行为过于可预测。 在虚拟厨房中完美工作的策略可能在真实的地面上会遇到困难。
5/x 这就是为什么现实世界的数据是不可妥协的。机器人需要多模态感知:视觉、触觉、力觉、音频。 每个传感器填补了其他传感器留下的空白。它们提供了真实的上下文。 将这些信号进行层叠,称为多模态融合,使机器人能够决定接下来要做什么。
6/x 我发现人类示范在这里特别引人注目。 向机器人展示如何做某件事比让它从头开始发现规则要高效得多。 想想远程操作,甚至是物理引导机器人。我们是在教它们,而不仅仅是收集原始数据。
7/x 对我来说,这里的真实故事是收敛。模拟为我们提供了规模。 但现实世界的数据,那些混乱且不可预测的部分,使模型保持在实际基础上。 它揭示了在完美模拟中从未出现的假设。
8/8 最终,我认为物理人工智能的前进道路依赖于一个关键的转变。 训练不是一次性的数据集摄取;而是一个持续的、自适应的学习过程。 这为自主经济建立了基础信任层。
我在我最新的机器人文章中详细说明了如何做到这一点:
3.49K