2024-12-22 17:07:05 科技 35742阅读
一些公司或实验室正在推动人工智能的世界建模能力。其中,人工智能先驱之一李飞飞教授的世界实验室筹集了2.3亿美元,用于构建“大世界模型”。 Google DeepMind 还聘请了 Sora 团队负责人 Tim Brooks 和另一位专家 William Peebles 来开发“世界模拟器”。
“我们头脑中所持有的周围世界的图像只是模型。没有人头脑正常的人可以想象整个世界、一个政府或一个国家,只选择它们之间的概念和关系,并根据心智模型的定义用它们来表示真实的系统。 (心智模型)在美国计算机工程师、管理理论家、系统科学家杰伊·赖特·福雷斯特(Jay Wright Forrester)1971年所著《社会系统的反直觉行为》一书中提出。
“AI世界”插画。照片:诺维塔
世界模型被认为是继承自心智模型,两者都受到人类大脑的启发。大脑从感官中获取抽象表征,从而形成对周围世界的具体理解。大脑基于模型做出的预测会影响一个人感知世界的方式。
研究人员 David Ha 和 Jürgen Schmidhuber 以棒球运动员的比赛方式为例。这些人只有一毫秒的时间来决定如何挥动球杆,这个参数比从视觉向大脑发送信号所需的时间还要短。为此,他们需要在球到达之前预测如何投球以及球的方向。 “如果应用世界模型,这就是人工智能达到人类水平的方面,”Ha和Schmidhuber写道在Github上发布的一份联合报告中。专家表示,像Sora这样从文本创建视频的人工智能陷入了所谓的“恐怖谷”。这意味着,人工智能创建的视频有很多错误,尤其是快速移动的视频,部分原因是算法无法像人脑那样预测下一个“模型”。
据
TechCrunch报道,视频生成人工智能工具现在可以准确预测篮球的弹跳,但它实际上并不知道原因。同样,语言模型也不能真正理解单词和短语背后的概念。
然而,世界模型通过“理解”球弹跳的原因,帮助人工智能变得真正智能。为了获得这种洞察力,世界模型需要接受各种数据类型的训练,例如照片、音频、视频和文本,目的是对世界如何运作以及什么是可能的解释行动结果进行内部推断。 . Snap 前人工智能主管兼世界建模公司 Higgsfield 首席执行官亚历克斯·马什拉博夫 (Alex Mashrabov) 表示:“观众希望他们看到的东西像现实中一样。”
TechCrunch。 “一个足够强大的世界模型引擎将了解物体如何移动,而不必等待创建者‘画线’让它移动。”
但创建更好的视频只是世界模型应用的一部分。人工智能研究人员有一天,正如 Meta 的人工智能总监 Yann LeCun 所预测的那样,它们可以用于数字和物理领域的复杂预测和规划。 Top 今年,LeCun 描述了世界模型如何帮助人工智能系统实现期望的目标通过推理达到目标。模型采用一个初始故事,例如一个脏房间的视频,给它一个洁净室的目标,以及实现该目标的一系列操作,例如部署吸尘器来扫地、洗碗、倒垃圾。在这个过程中,AI不仅通过摄像头和传感器进行识别,而且在更深层次上“知道”如何从脏到干净。
“我们需要机器能够理解世界,能够记住一切事情,有直觉,具有常识——可以在人类水平上进行推理和计划,”LeCun 说。 “当前的人工智能系统无法做任何这些事情。它们可能还需要十年的时间。”
OpenAI 表示 Sora 可以被认为是早期的世界模型模拟动作,例如画家在画布上留下笔触。不过,该公司也承认,完成该功能还需要很长时间。
尽管潜力巨大,但构建世界模型的成本很高,因为与现在相比,它需要巨大的计算能力。据估计,一个小工具可以消耗数千个最强大的GPU来进行训练。
此外,世界模型的输入数据量也比大型语言模型大很多倍。 Higgsfield 的 Mashrabov 评论道:“模型的训练数据必须足够广泛,以涵盖不同的场景,但也必须非常具体,以便人工智能能够深刻理解该场景的细微差别。” “数据的缺乏正在减缓进展。”
Runway AI首席执行官Cristóbal Valenzuela也认为,数据是构建世界模型道路上的最大障碍。 “模型需要大量数据和技术来创建一致的环境地图、导航和环境内的交互。”g,”瓦伦苏埃拉在博客中写道。
然而,马什拉博夫相信,如果所有这些障碍都被克服,世界模型在连接人工智能与现实世界方面将“更强”,特别是与机器人结合时。
“今天的机器人是由于不了解周围环境,他们的工作能力受到限制。世界模型可以赋予他们这种能力,”他说。“通过先进的模型,人工智能可以对其所处的任何场景产生个人理解,并开始推理可能的解决方案。”
Bao Lam人工智能、机器人的“福利”
一家公司停止招聘,因为“人工智能无所不能”