IA : Meta dévoile Llama 3.2, capable de gérer des contenus visuels et textuels
Publié le 3 Octobre 2024
Meta dévoile Llama 3.2, capable de gérer des contenus visuels et textuels.
Quelques mois seulement après le lancement de Llama 3, le géant américain a annoncé lors de son événement Meta Connect, le 25 septembre dernier, la nouvelle version de sa famille, Llama 3.2. Cette dernière version comprend deux grandes catégories de modèles : 11B et 90B, capables de traiter des images, ainsi que 1B et 3B, uniquement textuels.
Avec 11 et 90 milliards de paramètres, ces deux modèles sont capables de traiter à la fois du texte et des images, grâce à une nouvelle structure disposant d’un encodeur d’image, en plus du modèle de langage. Ces fonctionnalités permettent notamment d’analyser une image contenant des graphiques et d’en extraire les chiffres clés, ainsi que de générer des légendes sous des images sélectionnées.
Les modèles 1B et 3B
Plus compacts, ces deux modèles sont conçus pour les smartphones et outils périphériques et sont en somme des outils de traitement de texte, destinés à générer des résumés ou à réécrire des contenus. Bien que leurs usages soient disponibles sur smartphones et tablettes, ils n’en perdent pas moins leurs performances élevées.
Llama 3.2 est aussi ouvert à la discussion puisqu’il est désormais possible de converser naturellement avec son IA. Tout comme Gemini de Google, Llama peut adopter différents tons de voix et s’adapter à son interlocuteur. Meta propose également de traduire directement les voix des créateurs de contenu pour faciliter leur compréhension sur les réseaux sociaux.
/https%3A%2F%2Fi.ytimg.com%2Fvi%2FavXkpM6XZuc%2Fhqdefault.jpg)
Llama 3.2 is Beating OpenAI at Their Own Game (Real-Time AI Voice, Vision...)
Meta's Llama 3.2 AI is making waves by surpassing major competitors like OpenAI, offering real-time voice interaction, vision capabilities, and advanced data processing. This new AI model can handle