L'IA aujourd'hui épisode du 2025-12-02
Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : confidentialité autour de Gmail et Gemini, IA sur les campus, vidéos générées par Sora, avancées vocales avec T5-TTS, agents autonomes “Deep Agents”, et regards critiques de Tristan Nitot sur impacts, écologie et bulle économique.Démarrons par la confidentialité. Google permet désormais à Gmail d’accéder par défaut à vos messages privés et pièces jointes pour entraîner ses modèles Gemini, sauf si vous vous désinscrivez. C’est ce qu’on appelle l’opt-out : vous devez explicitement refuser pour que vos données ne soient pas utilisées. L’objectif affiché est d’améliorer les capacités de l’IA, pratique courante dans la tech, mais qui pose un enjeu de vie privée lorsque des emails et fichiers personnels servent à l’entraînement. Si vous ne voulez pas participer, la démarche de désinscription existe, mais elle n’est pas automatique.Sur les campus, la génération qui termine aujourd’hui ses études a connu presque tout son cursus à l’ère de l’IA générative. Une enquête indique que 86 % des étudiants utilisent des outils comme ChatGPT, Claude AI ou Google Gemini pour leurs travaux. Résultat concret : des tâches d’écriture qui prenaient des heures sont bouclées en minutes. On peut, par exemple, demander un essai de 1 000 mots sur “Est-il acceptable de mentir ?”, et obtenir un texte fluide en s’appuyant sur de vastes corpus. En classe, des enseignants comme Megan Fritts ont repéré des copies très bien rédigées mais impersonnelles, au style “document officiel”, signe probable d’un recours à l’IA. Pour les établissements, l’enjeu est double : préserver l’apprentissage et clarifier les règles. À l’Université de l’Arkansas, la direction, représentée par le vice-recteur à la recherche Brian Berry, travaille à des politiques d’usage. D’autres, comme l’Ohio State University, intègrent l’IA au cursus : une maîtrise de l’IA est exigée pour tous les étudiants de premier cycle, afin d’apprendre à s’en servir de façon critique. L’utilisation inappropriée, rappellent-ils, peut nuire à l’acquisition des compétences.Passons à la vidéo générée. Depuis fin septembre, Sora, souvent décrit comme le “TikTok des deepfakes”, inonde les réseaux de contenus synthétiques. Son principe : des “prompts” textuels qui guident la création de vidéos très réalistes. Fonctionnalité marquante, les “caméos” permettent aux utilisateurs de prêter leur visage et leur voix pour fabriquer un double numérique. Sora est gratuit, contrairement à des concurrents comme Veo ou Nano Banana chez Google. Bien que la France ne soit pas couverte officiellement, un accès est possible via VPN et un compte OpenAI. L’expérience reprend les codes d’un flux à la TikTok, entre animaux fantastiques et faux visages de célébrités. La plateforme bloque néanmoins certains deepfakes de figures publiques après des critiques liées au droit à l’image. Côté risques, des tests montrent que Sora peut générer des contenus relayant de fausses informations dans 80 % des cas, et a déjà servi à produire des vidéos sectaires et haineuses, ensuite diffusées ailleurs. Pour repérer ces contenus, on recommande de chercher des filigranes, des incohérences visuelles, des fautes dans les textes intégrés, de se méfier des formats très courts, d’utiliser des outils de détection, de remonter à la source via une recherche inversée et d’examiner les métadonnées, même si elles peuvent être modifiées.Côté audio, NVIDIA NeMo dévoile T5-TTS, un système de synthèse vocale qui s’attaque au problème des “hallucinations” en TTS — répétitions, omissions, décalage par rapport au texte. Basé sur une architecture transformeur encodeur–décodeur, l’encodeur traite le texte et le décodeur auto-régressif génère des jetons vocaux à partir d’une référence de la voix cible. Les têtes de cross-attention apprennent l’alignement texte-parole, mais sont sensibles aux entrées avec mots répétés. Pour améliorer la robustesse, le modèle combine un alignement monotone préalable et une perte CTC (Connectionist Temporal Classification), ce qui rapproche l’audio du script attendu. Résultat annoncé sur la prononciation : deux fois moins d’erreurs que Bark, 1,8 fois moins que VALLE-X et 1,5 fois moins que SpeechT5. Les équipes prévoient d’étendre les langues, de mieux capturer des schémas vocaux variés et d’intégrer le T5-TTS dans des cadres NLP plus larges.Autre tendance, les Deep Agents vont au-delà des LLM classiques. Construits sur LangGraph, ils planifient, décomposent les objectifs, créent des listes d’actions et génèrent des sous-agents, avec une mémoire gérée par un système de fichiers virtuel. Contrairement à LangGraph seul, la bibliothèque autonome deepagents fournit d’emblée planification, orchestration et gestion du contexte. Pour un agent de recherche, il faut une clé OpenAI (ou basculer vers Gemini ou Claude) et une clé API Tavily pour le web. L’ensemble est agnostique au modèle, peut s’intégrer à LangSmith pour le déploiement et le suivi, et s’adapte aux arbitrages coût/latence/performance. Pour des tâches simples, un LLM unique reste souvent suffisant.Enfin, en novembre 2025, Tristan Nitot met en perspective ces dynamiques. Il s’interroge sur le risque de prolétarisation à l’ère de l’IA générative et pointe des usages malveillants en cybersécurité. Il rappelle aussi le coût écologique des centres de données, très consommateurs d’énergie, donc émetteurs de CO₂, un aspect souvent sous-estimé. Sur le plan économique, il évoque une possible bulle de l’IA, alors même que des dirigeants du secteur, jusqu’au PDG de Google, appellent à la prudence. En contrepoint, il cite Vélorutopia, vision solarpunk et bikepunk d’une ville où le vélo structure une mobilité sobre et résiliente.Voilà qui conclut notre épisode d’aujourd’hui. Merci de nous avoir rejoints, et n’oubliez pas de vous abonner pour ne manquer aucune de nos discussions passionnantes. À très bientôt dans L'IA Aujourd’hui ! Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.