LLaVA 1.5 : Une alternative open source à GPT-4 Vision
Table of Contents
Les modèles langage multimodaux (LMM) sont en plein essor dans le domaine de l’intelligence artificielle générative. Le GPT-4 Vision d’OpenAI en est un exemple, mais il existe une nouvelle alternative open source appelée LLaVA 1.5. Cette solution allie innovation et accessibilité.
La mécanique des LMM
Les LMM utilisent une architecture multicouche qui combine un modèle pré-entraîné pour le traitement des éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal pour relier la vision et le langage. Ces modèles sont formés en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Cependant, ce processus est souvent coûteux en termes de ressources computationnelles et nécessite une base de données riche et précise.
Les atouts de LLaVA 1.5
LLaVA 1.5 utilise le modèle CLIP pour le traitement des éléments visuels et Vicuna pour le langage. Contrairement au modèle original LLaVA qui se basait sur les versions textuelles de ChatGPT et GPT-4, LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel via un perceptron multicouche (MLP). Cela permet d’enrichir la base de données d’apprentissage avec des questions-réponses visuelles, ce qui a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.
L’avenir des LMM open source
LLaVA 1.5 présente des résultats prometteurs, même avec un budget limité, grâce à sa démonstration en ligne accessible à tous. Cependant, il est important de noter que l’utilisation des données générées par ChatGPT est limitée à des fins non commerciales. Malgré cette limitation, LLaVA 1.5 ouvre la voie à un avenir où les LMM open source deviendront plus rentables, évolutifs dans la génération de données d’apprentissage et efficaces dans l’interprétation des instructions visuelles. Il s’agit d’un avant-goût des innovations à venir dans le domaine de l’intelligence artificielle.
LLaVA 1.5 n’est que le début d’une série d’avancées de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un futur où la technologie de l’IA générative sera accessible à tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.