LLaVA 1.5 : Une alternative open source à GPT-4 Vision
Le développement rapide des modèles langage multimodaux (LMM) marque un tournant dans l’histoire de l’intelligence artificielle générative. Cette évolution, incarnée par GPT-4 Vision d’OpenAI, prend une nouvelle dimension avec l’arrivée de LLaVA 1.5, une solution open source prometteuse. Plongeons dans cette dynamique où innovation et accessibilité vont de pair.
La mécanique des LMM
Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour le traitement des éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal pour relier la vision et le langage.
Leur formation se déroule en deux étapes : une phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, requiert souvent des ressources informatiques importantes et dépend d’une base de données riche et précise.
Les atouts de LLaVA 1.5
LLaVA 1.5 utilise le modèle CLIP pour le traitement visuel et Vicuna pour le langage. Contrairement au modèle original, LLaVA, qui se basait sur les versions textuelles de ChatGPT et GPT-4, LLaVA 1.5 connecte le modèle de langage et l’encodeur visuel à l’aide d’un perceptron multicouche (MLP). Cette mise à jour a permis à LLaVA 1.5 de dépasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux, grâce à l’ajout d’environ 600 000 exemples à sa base de données d’entraînement.
L’avenir des LMM open source
La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, il convient de noter que l’utilisation des données générées par ChatGPT est limitée à des fins non commerciales.
Malgré cette restriction, LLaVA 1.5 ouvre la voie à l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement évolutives et son efficacité dans le traitement des instructions visuelles en font un précurseur des innovations à venir.
LLaVA 1.5 n’est que le premier pas vers une série de développements qui suivront le rythme des avancées de la communauté open source. En anticipant des modèles plus efficaces et accessibles, nous pouvons envisager un futur où la technologie de l’IA générative sera à la portée de tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.
