LLaVA 1.5: una alternativa de código abierto a GPT-4 Vision
El rápido desarrollo de los modelos de lenguaje multimodal (LMM) marca un punto de inflexión en la historia de la inteligencia artificial generativa. Esta evolución, encarnada por GPT-4 Vision de OpenAI, adquiere una nueva dimensión con la llegada de LLaVA 1.5, una prometedora solución de código abierto. Sumerjámonos en esta dinámica donde innovación y accesibilidad van de la mano.
La mecánica de LMM
Los LMM funcionan utilizando una arquitectura multicapa. Combinan un modelo previamente entrenado para procesar elementos visuales, un modelo de lenguaje grande (LLM) para comprender y responder a las instrucciones del usuario y un conector multimodal para vincular la visión y el lenguaje.
Su formación se desarrolla en dos etapas: una fase de alineación entre visión y lenguaje, seguida de un ajuste fino para responder a las solicitudes visuales. Este proceso, aunque eficiente, a menudo requiere importantes recursos de TI y depende de una base de datos rica y precisa.
Las ventajas de LLaVA 1.5
LLaVA 1.5 utiliza el modelo CLIP para el procesamiento visual y Vicuña para el lenguaje. A diferencia del modelo original, LLaVA, que se basó en las versiones de texto de ChatGPT y GPT-4, LLaVA 1.5 conecta el modelo de lenguaje y el codificador visual mediante un perceptrón multicapa (MLP). Esta actualización permitió a LLaVA 1.5 superar a otros LMM de código abierto en 11 de 12 puntos de referencia multimodales, gracias a la adición de aproximadamente 600.000 ejemplos a su base de datos de capacitación.
El futuro de los LMM de código abierto
La demostración online de LLaVA 1.5, accesible a todos, muestra resultados prometedores, incluso con un presupuesto limitado. Sin embargo, cabe señalar que el uso de los datos generados por ChatGPT se limita a fines no comerciales.
A pesar de esta restricción, LLaVA 1.5 allana el camino para el futuro de los LMM de código abierto. Su rentabilidad, su capacidad para generar datos de entrenamiento escalables y su eficiencia en el procesamiento de instrucciones visuales lo convierten en un precursor de futuras innovaciones.
LLaVA 1.5 es sólo el primer paso de una serie de desarrollos que seguirán el ritmo de los avances en la comunidad de código abierto. Al anticipar modelos más eficientes y accesibles, podemos imaginar un futuro en el que la tecnología de IA generativa esté al alcance de todos, revelando el potencial ilimitado de la inteligencia artificial.
