LLaVA 1.5: Uma alternativa de código aberto ao GPT-4 Vision
O rápido desenvolvimento de modelos de linguagem multimodais (LMM) marca um ponto de viragem na história da inteligência artificial generativa. Esta evolução, incorporada pela Visão GPT-4 da OpenAI, assume uma nova dimensão com a chegada do LLaVA 1.5, uma solução promissora de código aberto. Vamos mergulhar nesta dinâmica onde inovação e acessibilidade andam de mãos dadas.
A mecânica do LMM
Os LMMs operam usando uma arquitetura multicamadas. Eles combinam um modelo pré-treinado para processar elementos visuais, um modelo de linguagem grande (LLM) para compreender e responder às instruções do usuário e um conector multimodal para vincular visão e linguagem.
Seu treinamento ocorre em duas etapas: uma fase de alinhamento entre visão e linguagem, seguida de ajuste fino para responder às solicitações visuais. Este processo, embora eficiente, muitas vezes requer recursos computacionais significativos e depende de uma base de dados rica e precisa.
As vantagens do LLaVA 1.5
LLaVA 1.5 utiliza o modelo CLIP para processamento visual e Vicuna para linguagem. Ao contrário do modelo original, LLaVA, que foi baseado nas versões de texto do ChatGPT e GPT-4, o LLaVA 1.5 conecta o modelo de linguagem e o codificador visual usando um perceptron multicamadas (MLP). Esta atualização permitiu que o LLaVA 1.5 superasse outros LMMs de código aberto em 11 dos 12 benchmarks multimodais, graças à adição de aproximadamente 600.000 exemplos ao seu banco de dados de treinamento.
O futuro dos LMMs de código aberto
A demonstração online do LLaVA 1.5, acessível a todos, mostra resultados promissores, mesmo com um orçamento limitado. No entanto, importa referir que a utilização dos dados gerados pelo ChatGPT está limitada a fins não comerciais.
Apesar desta restrição, o LLaVA 1.5 abre caminho para o futuro dos LMMs de código aberto. Sua relação custo-benefício, capacidade de gerar dados de treinamento escaláveis e eficiência no processamento de instruções visuais fazem dele um precursor de inovações futuras.
O LLaVA 1.5 é apenas o primeiro passo de uma série de desenvolvimentos que acompanharão os avanços na comunidade de código aberto. Ao antecipar modelos mais eficientes e acessíveis, podemos imaginar um futuro onde a tecnologia generativa de IA estará ao alcance de todos, revelando o potencial ilimitado da inteligência artificial.