LLaVA 1.5:GPT-4 Vision 的开源替代品
多模态语言模型(LMM)的快速发展标志着生成人工智能历史的转折点。这种演变以 OpenAI 的 GPT-4 Vision 为代表,随着 LLaVA 1.5(一种有前途的开源解决方案)的到来,呈现出一个新的维度。让我们深入探讨创新和可访问性齐头并进的动态。
LMM 的机制
LMM 使用多层架构进行操作。它们结合了用于处理视觉元素的预训练模型、用于理解和响应用户指令的大型语言模型(LLM)以及用于链接视觉和语言的多模式连接器。
他们的训练分两个阶段进行:视觉和语言之间的协调阶段,然后进行微调以响应视觉请求。此过程虽然高效,但通常需要大量 IT 资源,并且依赖于丰富且准确的数据库。
LLaVA 1.5的优点
LLaVA 1.5 使用 CLIP 模型进行视觉处理,使用 Vicuna 进行语言处理。与基于 ChatGPT 和 GPT-4 文本版本的原始模型 LLaVA 不同,LLaVA 1.5 使用多层感知器 (MLP) 连接语言模型和视觉编码器。此次更新使 LLaVA 1.5 在 12 个多模式基准测试中的 11 个上优于其他开源 LMM,这要归功于其训练数据库中添加了大约 600,000 个示例。
开源 LMM 的未来
LLaVA 1.5 的在线演示可供所有人使用,即使预算有限,也显示出有希望的结果。但需要注意的是,ChatGPT 生成的数据的使用仅限于非商业目的。
尽管有这样的限制,LLaVA 1.5 为开源 LMM 的未来铺平了道路。其成本效益、生成可扩展训练数据的能力以及处理视觉指令的效率使其成为未来创新的先驱。
LLaVA 1.5 只是一系列开发的第一步,这些开发将与开源社区的进步保持同步。通过预期更高效、更易于使用的模型,我们可以设想一个未来,每个人都可以使用生成式人工智能技术,从而揭示人工智能的无限潜力。