LLaVA 1.5 : Une alternative open source à GPT-4 Vision
Le développement rapide des modèles de langage multimodaux (LMM) ouvre de nouvelles perspectives dans le domaine de l’intelligence artificielle générative. Cette évolution, illustrée par le GPT-4 Vision d’OpenAI, prend une nouvelle dimension avec l’arrivée de LLaVA 1.5, une solution open source en pleine expansion. Plongeons dans cette dynamique où l’innovation rime avec l’accessibilité.
La mécanique des LMM
Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour traiter les éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal pour relier la vision et le langage.
Leur formation se déroule en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, nécessite souvent des ressources informatiques importantes et une base de données riche et précise.
Les atouts de LLaVA 1.5
LLaVA 1.5 s’appuie sur le modèle CLIP pour l’encodage visuel et sur Vicuna pour le langage. Le modèle original, LLaVA, utilisait les versions textuelles de ChatGPT et GPT-4 pour l’ajustement visuel, ce qui a généré 158 000 exemples d’entraînement.
LLaVA 1.5 va plus loin en reliant le modèle de langage et l’encodeur visuel via un perceptron multicouche (MLP), enrichissant ainsi sa base de données d’entraînement avec des questions-réponses visuelles. Cette mise à jour, qui comprend environ 600 000 exemples, a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.
L’avenir des LMM open source
La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, une mise en garde subsiste : l’utilisation des données générées par ChatGPT limite son utilisation à des fins non commerciales.
Malgré cette limitation, LLaVA 1.5 ouvre une fenêtre sur l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement évolutives et son efficacité dans l’ajustement des instructions visuelles en font une préfiguration des futures innovations.
LLaVA 1.5 n’est que le premier pas d’une mélodie qui accompagnera les avancées de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un avenir où la technologie de l’IA générative sera à la portée de tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.