Google présente son nouveau modèle Gemini 2.5 Flash Image, qui permet de générer et éditer des images via des commandes textuelles. L'outil inclut des fonctions de fusion d'images multiples et de cohérence des personnages.
Google a confirmé que le mystérieux modèle "nano-banana" est en réalité son nouveau système Gemini 2.5 Flash Image, conçu pour la génération et l'édition d'images par intelligence artificielle. Le système permet aux utilisateurs de créer et modifier du contenu visuel en utilisant des instructions en langage naturel, élargissant les capacités du modèle Gemini 2.0 Flash présenté précédemment.
Parmi les caractéristiques principales du nouveau modèle figure la capacité de maintenir la cohérence visuelle des personnages ou objets à travers plusieurs images. Cette fonction s'avère utile pour les développeurs qui ont besoin de créer du contenu cohérent, comme des supports promotionnels de produits ou des narratifs visuels nécessitant des personnages reconnaissables dans différents scénarios.
Le système intègre également des fonctions d'édition localisée permettant des modifications spécifiques sur des parties particulières d'une image. Les utilisateurs peuvent supprimer des éléments indésirables, modifier les poses des sujets, appliquer des effets de flou sélectif ou ajouter de la couleur aux photographies en noir et blanc grâce à de simples commandes textuelles.
Une caractéristique notable est la capacité de fusionner plusieurs images d'entrée en une seule composition. Cette fonction permet de combiner des objets de différentes photographies, d'appliquer des schémas de couleurs spécifiques aux espaces intérieurs ou de créer des scènes photoréalistes intégrant des éléments provenant de diverses sources visuelles.
Le modèle utilise les connaissances générales de Gemini pour interpréter les contextes du monde réel, permettant une génération d'images plus précise sémantiquement. Cette intégration facilite la création de contenu éducatif interactif et la compréhension de diagrammes dessinés à la main.
Gemini 2.5 Flash Image est disponible via l'API Gemini, Google AI Studio et Vertex AI pour les entreprises. Le prix établi est de 30 dollars par million de tokens de sortie, chaque image équivalant à 1 290 tokens, représentant un coût de 0,039 dollar par image générée.
Google a développé plusieurs applications de démonstration montrant les capacités du modèle, incluant des éditeurs de photos, des outils de design d'intérieur et des systèmes de dessin collaboratif. Ces applications sont disponibles comme modèles personnalisables dans Google AI Studio.
Toutes les images créées ou éditées avec ce modèle incluent un filigrane numérique invisible SynthID, permettant l'identification du contenu généré ou modifié par IA. L'entreprise a établi des partenariats avec des plateformes comme OpenRouter.ai et fal.ai pour élargir l'accès des développeurs au nouveau modèle.
Points clés:
Gemini est l'assistant d'intelligence artificielle de Google développé par DeepMind. Travaille avec texte, images, audio, vidéo et code. Génère du contenu, répond aux questions et se connecte ...
Google AI développe des plateformes avancées qui améliorent la vie des gens. Son écosystème Gemini intègre modèles, produits et APIs, stimulant l'innovation responsable et permettant aux ...
05/02/2026
Kuaishou Technology a présenté Kling AI 3.0, qui comprend quatre nouveaux modèles de génération vidéo et image avec des améliorations ...
05/02/2026
OpenAI a présenté Frontier, une plateforme conçue pour permettre aux entreprises de construire, déployer et gérer des agents d'intelligence ...
02/02/2026
SpaceX a acquis xAI pour créer un système intégré d'intelligence artificielle et de technologie spatiale. L'entreprise a annoncé des centres de ...
30/01/2026
Anthropic a annoncé la disponibilité de plugins dans Cowork, son outil d'automatisation de tâches qui permet aux utilisateurs sans profil ...