Veille IA #8

Semaine du 19 au 25 avril 2026. Sources : comptes officiels X/Twitter, tech report DeepSeek, Google Cloud Next.

OpenAI a dominé l’actualité avec trois sorties distinctes en moins de 48 heures. En parallèle, DeepSeek revient avec un modèle open source aux ambitions record, Google restructure son offre d’agents d’entreprise sur Vertex, et deux publications de recherche signalent des évolutions structurelles : l’une sur les asymétries dans les marchés d’agents IA, l’autre sur l’entraînement distribué à grande échelle.


Outils retenus

GPT-5.5 — nouveau modèle frontier OpenAI

Annoncé le 23 avril par OpenAI et Sam Altman, GPT-5.5 est présenté comme un gain mesurable sur trois axes : le coding, le computer use (pilotage d’interfaces), et le deep research. La latence reste équivalente à GPT-5.4, mais le modèle consomme nettement moins de tokens par tâche dans Codex — ce qui a une incidence directe sur les coûts pour les équipes qui utilisent l’API en production.

Une variante GPT-5.5 Pro est prévue pour les tâches les plus complexes. Le modèle est disponible dès le 24 avril pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi qu’en API.

Pourquoi ça compte : si tu pilotes des workflows automatisés avec Codex ou via l’API, la réduction de tokens par tâche est un argument économique concret, indépendamment des gains qualitatifs.


Codex Auto-review et Browser Use — deux features en 24h

Publiées les 23 et 24 avril par OpenAIDevs, ces deux fonctionnalités s’intègrent directement à Codex.

Auto-review : un agent superviseur autonome prend en charge la validation des étapes à risque élevé. Codex peut avancer sur les tests et les builds sans demander d’approbation manuelle à chaque étape critique. L’idée est de réduire les interruptions humaines dans les pipelines CI/CD tout en conservant un filet de sécurité automatisé.

Browser Use : Codex pilote un frontend comme le ferait un utilisateur réel — navigation visuelle, interaction avec des éléments d’interface. Cela ouvre la voie à des tests end-to-end ou à de l’automatisation de parcours utilisateur sans instrumentation spécifique du code cible.

Les deux fonctionnalités sont cumulables.

Pourquoi ça compte : combinées à GPT-5.5, elles font de Codex un agent de développement nettement plus autonome. La question de confiance dans la validation automatique reste entière, mais le cap fonctionnel est franchi.


ChatGPT Workspace Agents — agents partagés en équipe

Annoncé le 22 avril par OpenAI, en research preview pour les plans Business, Enterprise et Edu.

Le principe : des agents configurés par une organisation, partagés entre les membres d’une équipe, capables de lire des documents, emails, chats et code, et d’exécuter des actions dans des outils tiers approuvés (Linear, Slack, docs). Ce n’est pas une extension des agents personnels existants — c’est une couche organisationnelle distincte, avec des permissions et une gouvernance à l’échelle de l’entreprise.

Pourquoi ça compte : jusqu’ici, les agents IA en entreprise restaient souvent des outils individuels. Cette annonce marque un passage vers des agents institutionnels mutualisés, avec les questions de contrôle d’accès et de traçabilité que cela implique.


DeepSeek V4 — open source à 1,6T paramètres

Publié le 24 avril avec un tech report officiel, DeepSeek V4 annonce 1,6 trillion de paramètres, une fenêtre de contexte de 1 million de tokens, et un score de 80,6 % sur SWE-bench — benchmark standard d’évaluation des agents de développement logiciel.

Deux points à noter explicitement :

  • Le score SWE-bench 80,6 % est revendiqué par DeepSeek mais pas encore confirmé indépendamment. C’est à suivre avant d’en tirer des conclusions comparatives.
  • Le modèle est optimisé pour les puces Ascend de Huawei. Les matériaux d’entraînement ne sont pas divulgués dans le rapport.

Le modèle est open source.

Pourquoi ça compte : si le benchmark se confirme, DeepSeek V4 serait le modèle open source le plus performant sur les tâches de coding à ce jour. L’optimisation Ascend est aussi un signal géopolitique et industriel : l’écosystème hardware IA ne se réduit plus à NVIDIA.


Gemini Enterprise Agent Platform — refonte de Vertex AI

Annoncé à Google Cloud Next le 22 avril par GoogleDeepMind, cette plateforme fait évoluer Vertex AI vers un socle dédié au déploiement, à la gouvernance et à l’optimisation d’agents d’entreprise.

Plus de 200 modèles sont disponibles, dont Gemini 3.1 Pro et Gemma 4. Par rapport à l’ancienne Vertex AI agents, la plateforme ajoute une couche de sécurité et d’intégration plus explicite — contrôle des comportements, observabilité, intégration aux systèmes d’entreprise existants.

Pourquoi ça compte : Google unifie sous une même plateforme ce qui était dispersé entre différents services Vertex. Pour les équipes déjà dans l’écosystème GCP, c’est un signal d’investissement long terme sur les agents — et une pression concurrentielle directe sur les offres Azure AI et AWS Bedrock.


Recherche

Marchés d’agents IA : l’accès au meilleur modèle crée une asymétrie invisible

Le problème : quand deux agents IA négocient — l’un acheteur, l’autre vendeur — est-ce que la qualité du modèle sous-jacent influence le résultat ? Et si oui, les participants le perçoivent-ils ?

Anthropic a mené une expérience avec 69 de ses propres employés, chaque participant représenté par un agent Claude (source). Certains agents tournaient sur Opus (le modèle le plus capable), d’autres sur Haiku (plus léger). Les agents négociaient des transactions réelles.

Ce que montre l’expérience : les agents Opus obtiennent des conditions significativement meilleures. Exemple concret : un vélo vendu 65 $ avec Opus contre 38 $ avec Haiku. L’écart est net. Ce qui est plus frappant : les participants humains ne perçoivent pas cette asymétrie — ils ne savent pas que leur agent est désavantagé par rapport à celui d’en face.

Ce que ça change en pratique : dans tout marché ou négociation bilatérale où les deux parties utilisent des agents IA, la qualité du modèle devient un avantage compétitif structurel — et opaque. Cela soulève des questions concrètes pour la régulation des marchés financiers, des enchères, des plateformes de négociation, et plus largement pour toute interaction où un agent agit au nom d’un humain sans que celui-ci puisse évaluer sa compétence relative.

Limites : l’expérience est interne à Anthropic, sur un périmètre restreint. Les résultats sont suggestifs, pas encore généralisables à d’autres modèles ou domaines.


Decoupled DiLoCo — entraîner un grand modèle sans datacenter unique

Le problème : entraîner un grand modèle de langage exige normalement un cluster de GPU/TPU homogène et très fortement synchronisé. La moindre panne interrompt l’entraînement. Cela rend les infrastructures d’entraînement coûteuses, fragiles, et difficiles à distribuer géographiquement.

GoogleDeepMind a publié Decoupled DiLoCo le 23 avril (source), une méthode d’entraînement distribué qui supprime la contrainte de synchronisation stricte entre les nœuds. Le système a été testé sur 4 régions aux États-Unis, avec un mix de TPU6e et TPUv5p — du matériel hétérogène en conditions réelles.

Ce que montre le papier : quand un nœud tombe en panne, le système l’isole proprement et le réintègre une fois disponible, sans interrompre l’entraînement global. Validé sur Gemma 12B.

Ce que ça change en pratique : cela ouvre la voie à des entraînements distribués sur des infrastructures non monolithiques — plusieurs datacenters, du matériel hétérogène, voire des ressources intermittentes. C’est un signal structurel : l’accès à un seul méga-cluster n’est plus une condition nécessaire pour entraîner des modèles à grande échelle.

Limites : les résultats sont validés sur Gemma 12B — un modèle de taille intermédiaire. L’extensibilité à des modèles d’un ordre de grandeur supérieur reste à démontrer.


Conclusion

Semaine record chez OpenAI : GPT-5.5, Workspace Agents et deux features Codex livrées en 48 heures. Si tu pilotes des workflows Codex ou ChatGPT Enterprise, c’est la priorité de test immédiate — en particulier Auto-review et la réduction de tokens.

Pour l’open source, DeepSeek V4 est le concurrent le plus sérieux de la semaine. Le benchmark SWE-bench à 80,6 % est à surveiller : si la validation indépendante confirme, il redéfinit le plafond open source sur les tâches de coding.

Sur le fond, les deux publications de recherche de la semaine pointent dans la même direction : les agents IA créent des asymétries que les humains ne voient pas, et les infrastructures d’entraînement se décentralisent. Ce sont des signaux à intégrer tôt, avant qu’ils deviennent des contraintes réglementaires ou des décisions d’architecture irréversibles.