Veille IA #16
Cette semaine confirme une tendance assez nette : l’IA avance moins par annonces spectaculaires que par raffinements d’usage, bancs d’essai plus exigeants et cadres de sécurité plus structurés. Pour un lecteur technique, l’intérêt est donc moins de courir après chaque nouveauté que de repérer ce qui change réellement dans la manière de construire, tester et superviser des systèmes.
Outils retenus
OpenAI Codex ajoute des reports de réinitialisation de limites
OpenAI Codex ajoute des “rate limit resets” reportables, une évolution utile pour les développeurs qui travaillent par pics plutôt qu’en continu.
Source : https://x.com/OpenAI/status/2065225362544726371
Ce n’est pas un nouvel outil, mais c’est une mise à jour produit concrète. En pratique, elle peut rendre l’usage de Codex plus prévisible pour les équipes qui concentrent leur travail sur quelques grosses sessions de développement, de revue ou de refactorisation.
Le point à surveiller reste la fiabilité des compteurs. Pour les usages professionnels, les limites ne sont pas seulement une contrainte commerciale : elles influencent l’organisation du travail, la planification des tâches longues et la capacité à intégrer l’assistant dans un flux de production régulier.
Qwen3.6-27B-MTP-pi-reasoning-GGUF pour agents de code locaux
Un modèle communautaire, Qwen3.6-27B-MTP-pi-reasoning-GGUF, a été repéré et mis en avant par Tongyi. Il est intéressant pour les agents de code locaux, notamment parce qu’il s’inscrit dans la dynamique des modèles utilisables hors API centralisée.
Source : https://x.com/Ali_TongyiLab/status/2067136712653037611
L’intérêt technique est clair : les équipes qui expérimentent avec des agents locaux cherchent souvent un compromis entre coût, confidentialité, latence et capacité de raisonnement. Ce type de modèle peut donc compter pour des prototypes internes, des workflows de développement isolés ou des environnements où l’envoi de code à un service externe est difficile.
Il faut toutefois le lire comme un modèle à tester, pas comme un nouveau standard. La base Qwen3.6-27B est antérieure, et l’enjeu réel sera la qualité observée sur des tâches concrètes : modification de code existant, suivi d’instructions longues, gestion des erreurs et capacité à rester cohérent dans un agent outillé.
Google DeepMind teste l’IA pour les permis de construire au Royaume-Uni
Google DeepMind teste un prototype d’IA pour les permis de construire au Royaume-Uni. Ce n’est pas un outil public, mais le cas d’usage est parlant : réduire le travail répétitif des agents publics, avec un objectif annoncé allant jusqu’à 50 %.
Source : https://x.com/GoogleDeepMind/status/2067188693694136664
Pour un lecteur technique, ce signal compte parce qu’il montre un déplacement vers des workflows administratifs complexes, où les documents, règles et exceptions pèsent souvent plus lourd que l’interface utilisateur. L’enjeu n’est pas seulement de générer du texte, mais d’aider à traiter des dossiers structurés, répétitifs et sensibles.
Ce type de prototype pose aussi une question plus large : comment intégrer l’IA dans des processus publics sans transformer l’automatisation en boîte noire ? Même lorsque l’outil n’est pas disponible, le cas d’usage mérite d’être suivi pour ce qu’il dit de l’industrialisation de l’IA dans les métiers de procédure.
Anthropic Project Fetch phase 2
Anthropic a présenté la phase 2 de Project Fetch, un banc d’essai pour agents incarnés. Opus 4.7 y programme plus vite que l’équipe humaine assistée précédente, mais échoue encore la tâche finale.
Source : https://x.com/AnthropicAI/status/2067651699486200091
L’intérêt n’est pas dans un produit directement actionnable, mais dans la lisibilité du test. Les agents incarnés doivent relier perception, planification, action et correction d’erreur. C’est une forme d’évaluation plus proche de tâches réelles que les simples démonstrations textuelles.
Le résultat est utile précisément parce qu’il est ambivalent : le modèle progresse sur la vitesse de programmation, mais ne va pas encore au bout. Pour les équipes qui conçoivent des agents, c’est un rappel important : une amélioration locale, même spectaculaire, ne garantit pas la réussite d’une chaîne complète.
Recherche
Avant de parler méthode, le problème simple est celui-ci : les modèles d’IA peuvent sembler compétents parce qu’ils restituent bien des connaissances, mais cela ne suffit pas à prouver qu’ils savent raisonner dans des situations incertaines, spécialisées ou critiques. Les travaux retenus cette semaine cherchent justement à mieux tester ce passage entre savoir apparent et décision utile.
LifeSciBench : tester le raisonnement en biologie
OpenAI publie LifeSciBench, un benchmark composé de 750 tâches rédigées par 173 scientifiques. L’objectif est d’évaluer si les modèles raisonnent réellement sur des artefacts de recherche en biologie.
Source : https://x.com/OpenAI/status/2067346916929937827
Ce point compte parce que la biologie produit des données et des situations où l’incertitude est centrale. Il ne suffit pas de connaître des résultats publiés : il faut interpréter des éléments, hiérarchiser des hypothèses et prendre des décisions avec des informations incomplètes.
Pour les lecteurs techniques, l’intérêt pratique est double. D’abord, les benchmarks deviennent plus proches du travail expert réel. Ensuite, ils rappellent qu’un bon score généraliste ne dit pas forcément grand-chose sur la capacité d’un modèle à aider dans une discipline où les erreurs de raisonnement peuvent avoir un coût élevé.
o3 Deep Research et les cas pédiatriques rares
OpenAI, Boston Children’s et Harvard rapportent que o3 Deep Research aide à rouvrir des cas pédiatriques rares non résolus.
Source : https://x.com/OpenAI/status/2067625110199247353
Le point important n’est pas de présenter l’IA comme un substitut clinique. Le cadre reste supervisé, médical et expert. L’intérêt se situe plutôt dans la relecture périodique de dossiers complexes : quand de nouvelles connaissances apparaissent, ou quand un modèle peut proposer une piste que l’équipe doit ensuite vérifier.
Pour les systèmes techniques appliqués à la santé, cela dessine une approche plus prudente et plus crédible : l’IA comme outil d’aide à l’investigation, pas comme autorité finale. C’est une distinction essentielle dans les domaines où la décision doit rester traçable, validée et contextualisée.
Google DeepMind formalise une AI Control Roadmap
Google DeepMind publie une AI Control Roadmap, centrée sur la supervision des agents avancés et une défense en couches.
Source : https://x.com/GoogleDeepMind/status/2067594863785173257
Le problème est simple : plus un agent a accès à des outils, des données et des actions, plus il faut surveiller ce qu’il fait réellement. La sécurité ne peut pas reposer uniquement sur une bonne instruction initiale ou sur la confiance dans le modèle.
Pour les équipes qui déploient déjà des agents, ce signal est directement actionnable. Il invite à auditer les permissions, journaliser les actions, limiter les accès, prévoir des garde-fous et traiter l’autonomie comme un risque d’ingénierie à part entière. La feuille de route compte moins comme document théorique que comme rappel opérationnel : avant de donner plus de capacités à un agent, il faut savoir comment le contrôler.
Conclusion
Les deux éléments les plus actionnables de la semaine sont assez complémentaires. Côté usage quotidien, Codex devient potentiellement plus souple avec des réinitialisations de limites reportables. Côté architecture, la roadmap de Google DeepMind rappelle qu’un agent utile doit aussi être observable, limité et auditable.
La semaine n’annonce donc pas un grand basculement unique. Elle montre plutôt une maturation : meilleurs outils de travail, évaluations plus réalistes, cas d’usage plus concrets et attention croissante à la sécurité des agents.