首页 综合要闻 > 内容

Meta开源多感官AI模型结合六种数据

时间:2023-05-10 11:04:46   来源:  编辑:

Meta宣布了一种新的开源AI模型,该模型将多个数据流连接在一起,包括文本、音频、视觉数据、温度和运动读数。

该模型目前只是一个研究项目,没有直接的消费者或实际应用,但它指出了生成式人工智能系统的未来,可以创造身临其境的多感官体验,并表明Meta在竞争对手持续分享人工智能研究的时候像OpenAI和Google都变得越来越隐秘。

该研究的核心概念是将多种类型的数据链接在一起,形成一个单一的多维索引(或“嵌入空间”,使用AI术语)。这个想法可能看起来有点抽象,但正是这个相同的概念支撑了最近生成人工智能的繁荣。

多模态AI模型是生成式AI热潮的核心

例如,DALL-E、StableDiffusion和Midjourney等AI图像生成器都依赖于在训练阶段将文本和图像链接在一起的系统。他们在将信息与图像描述联系起来的同时寻找视觉数据中的模式。这就是使这些系统能够根据用户的文本输入生成图片的原因。许多以相同方式生成视频或音频的人工智能工具也是如此。

Meta表示,其模型ImageBind是第一个将六种类型的数据组合到单个嵌入空间中的模型。模型中包含的六种数据类型是:视觉(以图像和视频的形式);热(红外图像);文本;声音的;深度信息;以及——最有趣的是——由惯性测量单元或IMU生成的运动读数。(IMU存在于手机和智能手表中,它们用于执行一系列任务,从将手机从横向切换为纵向到区分不同类型的身体活动。)

来自Meta博客文章的屏幕截图显示了不同类型的链接数据,例如火车图片、火车喇叭的音频以及有关火车3D形状的深度信息。

Meta的ImageBind模型结合了六种类型的数据:音频、视觉、文本、深度、温度和运动。图片:元

这个想法是,未来的人工智能系统将能够以与当前人工智能系统对文本输入相同的方式交叉引用这些数据。例如,想象一个未来的虚拟现实设备,它不仅可以生成音频和视觉输入,还可以生成您在物理舞台上的环境和动作。你可能会要求它模拟一次长途航行,它不仅会让你置身于一艘背景为海浪声的船上,还会有你脚下甲板的摇晃和凉爽的海风。

在一篇博客文章中,Meta指出,其他感觉输入流可以添加到未来的模型中,包括“触摸、语音、气味和大脑fMRI信号”。它还声称这项研究“使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力。”(当然,不管怎样。取决于这些步骤有多小。)

当然,这一切都是推测性的,而且像这样的研究的直接应用可能会更加有限。例如,去年,Meta展示了一种AI模型,该模型可以根据文本描述生成短而模糊的视频。像ImageBind这样的工作展示了系统的未来版本如何合并其他数据流,例如生成音频以匹配视频输出。

不过,对于行业观察家来说,这项研究也很有趣,因为Meta正在开源底层模型——人工智能领域越来越受到审查的实践。

那些反对开源的人,比如OpenAI,表示这种做法对创作者有害,因为竞争对手可以复制他们的作品,而且它可能具有潜在危险,让恶意行为者可以利用最先进的人工智能模型。拥护者回应说,开源允许第三方检查系统的错误并改善他们的一些失败。他们指出,它甚至可能提供商业利益,因为它实质上允许公司招募第三方开发人员作为无偿工人来改进他们的工作。

到目前为止,Meta一直坚定地站在开源阵营中,尽管并非没有困难。(例如,其最新的语言模型LLaMA今年早些时候在网上泄露。)在许多方面,它在AI方面缺乏商业成就(该公司没有与Bing、Bard或ChatGPT竞争的聊天机器人)使得这种方法成为可能。同时,对于ImageBind,它将继续执行此策略。

标签:
最新文章