Veille IA #14

Cette semaine, les annonces les plus utiles ne tiennent pas seulement à la taille des modèles. Elles concernent surtout leur appropriation : exécution locale d’un générateur d’images, publication des composants d’un grand modèle destiné aux agents, et intégration plus structurée de l’IA dans les outils de travail.

Du côté de la recherche, deux études d’Anthropic permettent aussi de mieux situer les progrès actuels. L’IA accélère déjà certaines tâches de développement et d’analyse scientifique, mais elle reste encadrée par des choix, des validations et des données fournis par des humains.

Un troisième travail, beaucoup plus méthodologique, utilise Age of Empires II pour poser une question moins spectaculaire qu’elle n’en a l’air : à partir de quand attribuons-nous trop vite aux modèles des qualités humaines comme la compréhension, la conscience ou la morale ?

Outils retenus

Ideogram 4.0 : un modèle d’image ouvert et utilisable en local

Ideogram 4.0 est le premier modèle à poids ouverts publié par Ideogram. Il compte 9,3 milliards de paramètres, produit des images jusqu’en 2K et prend en charge le texte multilingue ainsi que le placement contrôlé des éléments.

La disponibilité d’une version NF4 capable de tenir sur un GPU doté de 24 Go de mémoire est particulièrement importante. Elle place le modèle à portée d’une station de travail haut de gamme, sans imposer une infrastructure réservée aux centres de calcul.

Pour un lecteur technique, cette ouverture change plusieurs choses en pratique : il devient possible de tester le modèle localement, de mieux contrôler les données qui lui sont confiées et de l’intégrer dans des chaînes de production sans dépendre exclusivement d’un service distant. La génération correcte de texte et le contrôle du placement sont notamment utiles pour les affiches, les visuels éditoriaux, les maquettes et les supports marketing.

Ideogram 4.0 constitue ainsi l’essai local le plus concret de la semaine. Ses détails techniques permettent d’aller au-delà de l’annonce et d’évaluer les contraintes réelles de déploiement.

Nemotron 3 Ultra : NVIDIA ouvre un grand modèle pour les agents longs

NVIDIA publie les poids et les recettes de Nemotron 3 Ultra, un modèle à mélange d’experts de 550 milliards de paramètres. Seuls 55 milliards sont actifs lors d’un calcul donné, une architecture conçue pour limiter le coût d’exécution malgré la taille totale du modèle.

Le modèle vise les agents qui doivent raisonner et agir pendant des séquences prolongées. Ce positionnement concerne les systèmes capables d’enchaîner des appels d’outils, de manipuler un contexte important et de poursuivre une tâche en plusieurs étapes.

La publication des poids et des recettes intéressera surtout les équipes qui veulent héberger, adapter ou étudier leur propre infrastructure d’agents. Elle donne davantage de latitude qu’une interface de programmation fermée pour observer le comportement du modèle et maîtriser son déploiement.

NVIDIA annonce des gains de débit pouvant atteindre cinq fois ceux des solutions comparées. Ces chiffres restent toutefois des mesures produites par NVIDIA : ils doivent être vérifiés sur des charges de travail représentatives avant de guider un choix d’architecture.

Codex : des plugins organisés autour des métiers

La mise à jour de Codex regroupe applications, compétences et procédures au sein de six plugins orientés métier. Les plugins existaient déjà, mais cette évolution leur donne une structure plus directement exploitable par les équipes.

L’intérêt est organisationnel autant que technique. Au lieu de traiter l’assistant comme un outil générique auquel chacun doit réexpliquer son environnement, une équipe peut réunir ses intégrations et ses méthodes dans un ensemble cohérent. Cela facilite la répétition de procédures communes et la diffusion de pratiques adaptées à chaque rôle.

Codex ajoute également les annotations et propose, en préversion pour les entreprises, des mini-sites partageables. Ces fonctions peuvent rendre les résultats plus faciles à commenter, à présenter et à transmettre en dehors de l’interface de travail initiale.

Pour les organisations qui utilisent déjà Codex, cette mise à jour est immédiatement actionnable : elle invite à formaliser les procédures récurrentes et à les rapprocher des outils employés par chaque métier.

Mémoire ChatGPT : moins d’informations périmées ou contradictoires

OpenAI déploie un nouveau système de synthèse pour la mémoire de ChatGPT. Son objectif est de réduire l’accumulation de souvenirs devenus obsolètes ou contradictoires. La capacité est également doublée pour les abonnements Plus et Pro.

Une mémoire plus grande n’est utile que si les informations conservées restent cohérentes. Le travail de synthèse est donc au moins aussi important que l’augmentation de capacité : il doit permettre à ChatGPT de mieux distinguer les préférences durables des éléments ponctuels qui ne devraient plus influencer ses réponses.

En pratique, cette évolution peut réduire le besoin de répéter son contexte et limiter les réponses fondées sur d’anciennes instructions. Le bénéfice devra néanmoins être jugé dans la durée, notamment lorsque les projets, préférences ou contraintes d’un utilisateur évoluent.

Le déploiement commence aux États-Unis avant de s’étendre à d’autres pays. Les étapes de disponibilité peuvent être suivies dans les notes de version de ChatGPT.

Recherche

L’IA accélère la R&D, sans encore la conduire seule

Le problème étudié est simple à formuler : si les modèles d’IA contribuent à leur propre développement, peuvent-ils provoquer une accélération autonome et continue de la recherche qui les améliore ?

Dans une étude sur l’amélioration récursive, Anthropic indique que plus de 80 % du code fusionné en interne est attribué à Claude. L’entreprise rapporte également huit fois plus de code produit par ingénieur qu’en 2024.

Ces résultats témoignent d’une automatisation très poussée de l’exécution logicielle. Un modèle peut produire une part importante du code, accélérer les itérations et augmenter le volume de travail qu’un ingénieur est capable de superviser.

Ils ne démontrent cependant pas encore une amélioration récursive autonome. Le choix des problèmes à résoudre, la définition des objectifs, la validation des résultats et la constitution des données restent sous responsabilité humaine. Autrement dit, l’IA accélère fortement le travail à l’intérieur d’un cadre de recherche, mais elle ne remplace pas encore la conception et le contrôle de ce cadre.

Il faut aussi garder à l’esprit que ces mesures sont internes à Anthropic et n’ont pas été évaluées indépendamment. Leur intérêt est réel pour comprendre l’évolution des pratiques de développement, mais elles ne suffisent pas à établir une tendance générale pour l’ensemble de l’industrie.

Claude commence à lire des spectres chimiques

Identifier la structure d’une molécule à partir de données expérimentales est un travail spécialisé. La résonance magnétique nucléaire, ou RMN, produit des spectres dont l’interprétation aide les chimistes à déterminer l’organisation des atomes dans une molécule.

Anthropic a évalué Claude Opus 4.7 sur cette tâche et présente les résultats dans son étude Making Claude a Chemist. Le modèle égale ou dépasse ChemDraw et MestReNova sur plusieurs mesures. Il retrouve également les huit structures simples utilisées dans les tests concernés.

Ce résultat suggère qu’un modèle généraliste peut assister un chimiste dans l’examen de spectres, la formulation d’hypothèses et la vérification de structures possibles. L’usage le plus crédible à ce stade est celui d’un second regard capable d’accélérer l’analyse, plutôt que celui d’un système autonome chargé de conclure seul.

La portée de l’expérience reste limitée : elle comprend 20 molécules pour la prédiction, 15 pour l’identification, peu de solvants et aucune stéréochimie. Les performances devront donc être confirmées sur des molécules plus nombreuses, plus variées et plus complexes avant d’envisager un usage général.

Si les LLM ont des attributs humains, alors Age of Empires II aussi

Le titre du papier d’Adrian de Wynter ressemble à une plaisanterie, mais son argument vise un problème sérieux : la tendance à interpréter les réponses d’un modèle avec des notions humaines telles que la compréhension, la conscience, la morale ou l’introspection.

Pour rendre cette critique concrète, l’auteur construit dans l’éditeur de scénarios d’Age of Empires II des portes logiques, puis un perceptron 1 bit capable d’apprendre la fonction AND. Des chèvres circulant entre différents terrains servent de signaux binaires. Le dispositif est rudimentaire et lent, mais il exécute bien un calcul neuronal élémentaire.

L’expérience sert à illustrer l’importance du support et de l’interface. Un système qui répond dans une fenêtre de dialogue avec fluidité paraît facilement « comprendre » ce qu’il dit. Le même calcul, représenté par des chèvres qui se déplacent sur une carte, suscite beaucoup moins cette impression. Pourtant, changer la représentation ne suffit pas à changer la nature du calcul.

Le papier ne conclut donc ni que les LLM possèdent des attributs humains, ni qu’ils en sont dépourvus. Il soutient plutôt que les expériences qui présupposent l’une de ces réponses risquent de devenir circulaires : elles interprètent un comportement avec la notion qu’elles cherchent précisément à démontrer.

L’auteur propose une « hypothèse nulle » plus prudente. Elle consiste à mesurer des comportements définis précisément, ainsi que leurs causes et leurs capacités prédictives, sans les présenter immédiatement comme la preuve d’une qualité humaine générale. Une explication produite par un modèle peut ainsi être étudiée comme une réaction observable à une entrée, sans supposer d’emblée qu’elle révèle une compréhension de son propre état.

Une revue exploratoire de 315 articles accompagne cet argument. Elle estime que 57 % du corpus part d’attributs humains prêtés aux LLM. Ce chiffre doit toutefois être interprété avec prudence : la recherche bibliographique est étroite, l’échantillon réduit et l’étiquetage a été réalisé avec GPT-5.2 comme juge. Cette partie ne constitue donc pas une mesure définitive de tout le domaine.

La contribution la plus utile du papier reste sa discipline de langage : distinguer ce qu’un système fait de ce que l’observateur pense que ce comportement signifie. Les démonstrations réalisées dans le jeu rendent cette mise en garde particulièrement mémorable.

Conclusion

Ideogram 4.0 est l’annonce la plus immédiatement testable pour les équipes qui disposent d’un GPU de 24 Go. Dans les environnements professionnels, les plugins Codex et la nouvelle mémoire de ChatGPT sont les évolutions les plus directement applicables.

Les travaux d’Anthropic dessinent quant à eux une trajectoire plus progressive qu’une rupture soudaine : l’IA automatise une part croissante de l’exécution technique et commence à soutenir des analyses scientifiques spécialisées, tandis que la définition des problèmes et la validation restent des responsabilités humaines.

Le détour par Age of Empires II apporte le contrepoint méthodologique de la semaine : mesurer les capacités des modèles reste indispensable, mais leur attribuer des qualités humaines exige des critères indépendants de leur manière de se présenter.

Veille IA #14#

Outils retenus#

Ideogram 4.0 : un modèle d’image ouvert et utilisable en local#

Nemotron 3 Ultra : NVIDIA ouvre un grand modèle pour les agents longs#

Codex : des plugins organisés autour des métiers#

Mémoire ChatGPT : moins d’informations périmées ou contradictoires#

Recherche#

L’IA accélère la R&D, sans encore la conduire seule#

Claude commence à lire des spectres chimiques#

Si les LLM ont des attributs humains, alors Age of Empires II aussi#

Conclusion#