Veille IA #14

Cette semaine, les annonces les plus utiles ne tiennent pas seulement à la taille des modèles. Elles concernent surtout leur appropriation : exécution locale d’un générateur d’images, publication des composants d’un grand modèle destiné aux agents, et intégration plus structurée de l’IA dans les outils de travail.

Du côté de la recherche, deux études d’Anthropic permettent aussi de mieux situer les progrès actuels. L’IA accélère déjà certaines tâches de développement et d’analyse scientifique, mais elle reste encadrée par des choix, des validations et des données fournis par des humains.

Outils retenus

Ideogram 4.0 : un modèle d’image ouvert et utilisable en local

Ideogram 4.0 est le premier modèle à poids ouverts publié par Ideogram. Il compte 9,3 milliards de paramètres, produit des images jusqu’en 2K et prend en charge le texte multilingue ainsi que le placement contrôlé des éléments.

La disponibilité d’une version NF4 capable de tenir sur un GPU doté de 24 Go de mémoire est particulièrement importante. Elle place le modèle à portée d’une station de travail haut de gamme, sans imposer une infrastructure réservée aux centres de calcul.

Pour un lecteur technique, cette ouverture change plusieurs choses en pratique : il devient possible de tester le modèle localement, de mieux contrôler les données qui lui sont confiées et de l’intégrer dans des chaînes de production sans dépendre exclusivement d’un service distant. La génération correcte de texte et le contrôle du placement sont notamment utiles pour les affiches, les visuels éditoriaux, les maquettes et les supports marketing.

Ideogram 4.0 constitue ainsi l’essai local le plus concret de la semaine. Ses détails techniques permettent d’aller au-delà de l’annonce et d’évaluer les contraintes réelles de déploiement.

Nemotron 3 Ultra : NVIDIA ouvre un grand modèle pour les agents longs

NVIDIA publie les poids et les recettes de Nemotron 3 Ultra, un modèle à mélange d’experts de 550 milliards de paramètres. Seuls 55 milliards sont actifs lors d’un calcul donné, une architecture conçue pour limiter le coût d’exécution malgré la taille totale du modèle.

Le modèle vise les agents qui doivent raisonner et agir pendant des séquences prolongées. Ce positionnement concerne les systèmes capables d’enchaîner des appels d’outils, de manipuler un contexte important et de poursuivre une tâche en plusieurs étapes.

La publication des poids et des recettes intéressera surtout les équipes qui veulent héberger, adapter ou étudier leur propre infrastructure d’agents. Elle donne davantage de latitude qu’une interface de programmation fermée pour observer le comportement du modèle et maîtriser son déploiement.

NVIDIA annonce des gains de débit pouvant atteindre cinq fois ceux des solutions comparées. Ces chiffres restent toutefois des mesures produites par NVIDIA : ils doivent être vérifiés sur des charges de travail représentatives avant de guider un choix d’architecture.

Codex : des plugins organisés autour des métiers

La mise à jour de Codex regroupe applications, compétences et procédures au sein de six plugins orientés métier. Les plugins existaient déjà, mais cette évolution leur donne une structure plus directement exploitable par les équipes.

L’intérêt est organisationnel autant que technique. Au lieu de traiter l’assistant comme un outil générique auquel chacun doit réexpliquer son environnement, une équipe peut réunir ses intégrations et ses méthodes dans un ensemble cohérent. Cela facilite la répétition de procédures communes et la diffusion de pratiques adaptées à chaque rôle.

Codex ajoute également les annotations et propose, en préversion pour les entreprises, des mini-sites partageables. Ces fonctions peuvent rendre les résultats plus faciles à commenter, à présenter et à transmettre en dehors de l’interface de travail initiale.

Pour les organisations qui utilisent déjà Codex, cette mise à jour est immédiatement actionnable : elle invite à formaliser les procédures récurrentes et à les rapprocher des outils employés par chaque métier.

Mémoire ChatGPT : moins d’informations périmées ou contradictoires

OpenAI déploie un nouveau système de synthèse pour la mémoire de ChatGPT. Son objectif est de réduire l’accumulation de souvenirs devenus obsolètes ou contradictoires. La capacité est également doublée pour les abonnements Plus et Pro.

Une mémoire plus grande n’est utile que si les informations conservées restent cohérentes. Le travail de synthèse est donc au moins aussi important que l’augmentation de capacité : il doit permettre à ChatGPT de mieux distinguer les préférences durables des éléments ponctuels qui ne devraient plus influencer ses réponses.

En pratique, cette évolution peut réduire le besoin de répéter son contexte et limiter les réponses fondées sur d’anciennes instructions. Le bénéfice devra néanmoins être jugé dans la durée, notamment lorsque les projets, préférences ou contraintes d’un utilisateur évoluent.

Le déploiement commence aux États-Unis avant de s’étendre à d’autres pays. Les étapes de disponibilité peuvent être suivies dans les notes de version de ChatGPT.

Recherche

L’IA accélère la R&D, sans encore la conduire seule

Le problème étudié est simple à formuler : si les modèles d’IA contribuent à leur propre développement, peuvent-ils provoquer une accélération autonome et continue de la recherche qui les améliore ?

Dans une étude sur l’amélioration récursive, Anthropic indique que plus de 80 % du code fusionné en interne est attribué à Claude. L’entreprise rapporte également huit fois plus de code produit par ingénieur qu’en 2024.

Ces résultats témoignent d’une automatisation très poussée de l’exécution logicielle. Un modèle peut produire une part importante du code, accélérer les itérations et augmenter le volume de travail qu’un ingénieur est capable de superviser.

Ils ne démontrent cependant pas encore une amélioration récursive autonome. Le choix des problèmes à résoudre, la définition des objectifs, la validation des résultats et la constitution des données restent sous responsabilité humaine. Autrement dit, l’IA accélère fortement le travail à l’intérieur d’un cadre de recherche, mais elle ne remplace pas encore la conception et le contrôle de ce cadre.

Il faut aussi garder à l’esprit que ces mesures sont internes à Anthropic et n’ont pas été évaluées indépendamment. Leur intérêt est réel pour comprendre l’évolution des pratiques de développement, mais elles ne suffisent pas à établir une tendance générale pour l’ensemble de l’industrie.

Claude commence à lire des spectres chimiques

Identifier la structure d’une molécule à partir de données expérimentales est un travail spécialisé. La résonance magnétique nucléaire, ou RMN, produit des spectres dont l’interprétation aide les chimistes à déterminer l’organisation des atomes dans une molécule.

Anthropic a évalué Claude Opus 4.7 sur cette tâche et présente les résultats dans son étude Making Claude a Chemist. Le modèle égale ou dépasse ChemDraw et MestReNova sur plusieurs mesures. Il retrouve également les huit structures simples utilisées dans les tests concernés.

Ce résultat suggère qu’un modèle généraliste peut assister un chimiste dans l’examen de spectres, la formulation d’hypothèses et la vérification de structures possibles. L’usage le plus crédible à ce stade est celui d’un second regard capable d’accélérer l’analyse, plutôt que celui d’un système autonome chargé de conclure seul.

La portée de l’expérience reste limitée : elle comprend 20 molécules pour la prédiction, 15 pour l’identification, peu de solvants et aucune stéréochimie. Les performances devront donc être confirmées sur des molécules plus nombreuses, plus variées et plus complexes avant d’envisager un usage général.

Conclusion

Ideogram 4.0 est l’annonce la plus immédiatement testable pour les équipes qui disposent d’un GPU de 24 Go. Dans les environnements professionnels, les plugins Codex et la nouvelle mémoire de ChatGPT sont les évolutions les plus directement applicables.

Les travaux d’Anthropic dessinent quant à eux une trajectoire plus progressive qu’une rupture soudaine : l’IA automatise une part croissante de l’exécution technique et commence à soutenir des analyses scientifiques spécialisées, tandis que la définition des problèmes et la validation restent des responsabilités humaines.