Veille IA #10
Cette édition retient surtout des annonces qui rapprochent l’IA de workflows concrets : voix en temps réel, recherche multimodale vérifiable, outils financiers traçables, meilleure capacité côté code et premiers signes d’agents utiles pour la découverte algorithmique.
Outils retenus
OpenAI renforce la voix dans l’API
OpenAI a annoncé trois modèles voix pour l’API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper.
L’intérêt technique est assez direct. Pour les équipes qui construisent des agents vocaux, ces modèles couvrent trois besoins différents : interaction voix en direct, traduction live et transcription en streaming. Cela évite de penser la voix comme une simple couche d’entrée ou de sortie. Elle devient un flux applicatif à part entière, avec des contraintes de latence, de qualité et d’intégration.
Ce que cela change en pratique : les prototypes d’assistants vocaux, de support client multilingue ou d’outils de compte rendu peuvent être testés plus près des conditions réelles, sans devoir assembler trop de briques séparées dès le départ.
GPT-5.5 Instant devient le modèle par défaut dans ChatGPT
OpenAI a aussi présenté GPT-5.5 Instant, désormais modèle ChatGPT par défaut et disponible via chat-latest. La system card met en avant un niveau de garde-fous renforcé, tandis que les sources de mémoire deviennent visibles et corrigeables.
Pour un lecteur technique, le point important n’est pas seulement le changement de modèle par défaut. C’est la combinaison entre modèle de production, mémoire explicable et surface de contrôle utilisateur. Dans les usages quotidiens, la mémoire peut améliorer la continuité, mais elle doit rester inspectable pour éviter les erreurs persistantes ou les suppositions opaques.
Ce que cela change en pratique : les équipes qui s’appuient sur ChatGPT comme outil de travail doivent surveiller l’impact de chat-latest, surtout si elles veulent garantir une expérience stable, documenter les comportements attendus ou gérer des contextes sensibles.
Gemini API File Search devient multimodal
Google a étendu Gemini API File Search avec la recherche texte et image, des filtres de métadonnées et des citations par page.
Le sujet central ici est le RAG, c’est-à-dire la génération augmentée par recherche dans des documents. Un système RAG utile ne se contente pas de retrouver un passage : il doit permettre de vérifier d’où vient l’information. L’ajout du multimodal est donc important pour les bases documentaires qui ne sont pas uniquement textuelles : PDF avec figures, présentations, captures, schémas ou documents mixtes.
Ce que cela change en pratique : on peut envisager des assistants documentaires plus fiables pour des corpus où l’image porte une partie du sens. Les citations par page comptent aussi beaucoup pour l’audit, la relecture humaine et la confiance dans la réponse générée.
Anthropic et Perplexity ciblent les workflows finance
Anthropic a annoncé 10 agents finance Claude prêts à l’emploi. Perplexity a lancé Computer for Professional Finance, avec données sous licence, MCP et 35 workflows traçables.
Ces deux annonces montrent une direction commune : l’IA financière se déplace vers des workflows spécialisés, plus encadrés et plus traçables. Dans ce domaine, la qualité d’une réponse ne suffit pas. Il faut savoir quelles données sont utilisées, quels droits les couvrent, comment les calculs ou analyses sont produits, et comment une équipe peut vérifier le résultat.
Ce que cela change en pratique : avant adoption, le bon test n’est pas seulement la pertinence apparente des réponses. Il faut comparer la traçabilité, les droits de données et la capacité à reproduire ou contrôler les workflows.
Claude Code et l’API Claude gagnent en capacité
Anthropic a relevé plusieurs limites autour de Claude Code et de l’API : limites de 5 heures doublées sur plans payants, fin de la réduction en heures de pointe Pro/Max et rate limits Opus API relevés.
Pour les usages de développement, ces changements comptent parce que la capacité réelle d’un outil IA ne dépend pas seulement de la qualité du modèle. Elle dépend aussi de la durée des sessions, des plafonds d’usage et de la possibilité de travailler sur des tâches longues sans interruption.
Ce que cela change en pratique : les équipes qui utilisent Claude Code sur des bases de code importantes peuvent envisager des cycles plus longs, avec moins de friction opérationnelle. C’est particulièrement pertinent pour les revues, refactorings ou migrations qui demandent de garder beaucoup de contexte actif.
Cursor 3.3 améliore les workflows de développement assisté
Cursor 3.3 ajoute une revue de pull request intégrée, Build in Parallel via sous-agents asynchrones et split de changements en pull requests. Une autre mise à jour porte sur le diagnostic d’usage du contexte.
Ces ajouts vont dans le sens d’un environnement de développement où l’IA ne sert plus seulement à compléter du code. Elle commence à structurer le travail : découper les changements, aider à relire, paralléliser certaines tâches et mieux comprendre comment le contexte est consommé.
Ce que cela change en pratique : sur un projet existant, le test pertinent consiste à l’utiliser sur un vrai workflow de code, pas sur une démonstration isolée. Les fonctions de revue, de découpage et de diagnostic deviennent utiles quand elles réduisent la charge de coordination sans rendre les changements moins lisibles.
Recherche
Le problème de fond est simple : peut-on utiliser un agent IA pour découvrir de meilleurs algorithmes, et pas seulement pour répondre à des questions ou générer du code ? C’est une question importante, car l’optimisation algorithmique a des effets directs sur les coûts, les performances et la faisabilité de certains systèmes.
Google DeepMind présente AlphaEvolve comme un agent de découverte d’algorithmes. Le rapport mentionne des gains en génomique, optimisation de réseau électrique, circuits quantiques et infrastructure Google.
L’intérêt est moins dans l’idée d’un benchmark spectaculaire que dans le signal d’usage réel. Si un agent peut contribuer à améliorer des algorithmes dans des domaines aussi différents, il devient un outil de recherche appliquée, pas seulement un assistant de programmation.
Ce que cela change en pratique : pour les équipes techniques, AlphaEvolve invite à regarder les agents IA comme des systèmes capables d’explorer des espaces de solutions. Cela ne remplace pas l’expertise métier, mais cela peut accélérer l’itération sur des problèmes où les solutions sont difficiles à trouver manuellement.
Conclusion
Les tests les plus actionnables sont clairs : brancher GPT-Realtime-2 sur un vrai flux voix, essayer File Search multimodal sur un corpus RAG existant, et évaluer Cursor 3.3 sur un workflow de développement réel.
Côté finance, la comparaison entre Anthropic et Perplexity doit surtout porter sur la traçabilité et les droits de données. C’est là que se jouera la différence entre un outil impressionnant et un outil réellement exploitable.