Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

À partir d’avant-hierDans les algorithmes

Dans les algorithmes
Des protocoles pour les agents IA… à un nouvel internet
La prochaine version du web sera conçue pour les machines, et non pour les humains (voir notre article « L’IA, un nouvel internet… sans condition »). Mais encore faut-il que les « agents intelligents », des machines capables de lire, d’interpréter et d’agir… puissent agir justement, explique The Economist. Et pour effectuer des tâches, l’infrastructure du web doit évoluer. « Un obstacle majeur réside dans le langage : il faut permettre aux agents de communiquer avec les services en ligne et entr

Des protocoles pour les agents IA… à un nouvel internet

Dans les algorithmes

Par : Hubert Guillaud

12 février 2026 à 07:00

La prochaine version du web sera conçue pour les machines, et non pour les humains (voir notre article « L’IA, un nouvel internet… sans condition »). Mais encore faut-il que les « agents intelligents », des machines capables de lire, d’interpréter et d’agir… puissent agir justement, explique The Economist. Et pour effectuer des tâches, l’infrastructure du web doit évoluer. « Un obstacle majeur réside dans le langage : il faut permettre aux agents de communiquer avec les services en ligne et entre eux ». Un site web ou un service en ligne communique généralement avec le monde extérieur via une interface de programmation d’application (API), qui indique aux visiteurs ses fonctionnalités, comme la prise de rendez-vous chez le médecin ou l’affichage d’une position géographique, rappelle The Economist. Or, les API sont conçues pour être consultées et implémentées par les humains et chacune possède ses propres spécificités et sa documentation. Cet environnement est complexe pour les agents d’IA : l’utilisation de chaque nouvelle API nécessite l’apprentissage de son langage spécifique. Pour agir de manière autonome sur le web, les agents auront donc besoin d’un mode de communication standardisé. C’est l’objectif du protocole MCP (Model Context Protocol), développé par Anthropic. « Mike Krieger, son directeur produit, explique que l’idée est née lors de la connexion de Claude, son chatbot, à des services comme Gmail, une plateforme de messagerie, et GitHub, un dépôt de code. Au lieu d’intégrer chaque application à Claude au cas par cas, l’entreprise souhaitait un ensemble de règles partagées pour permettre aux agents d’accéder directement aux e-mails ou aux fichiers d’un utilisateur ». Plutôt que de consulter des guides techniques, un agent peut interroger un serveur MCP sur le fonctionnement d’un système (réserver un vol, annuler un abonnement, effectuer un remboursement, etc.) et agir ensuite pour le compte de l’utilisateur, sans code spécifique.

« Imaginez que vous souhaitiez réserver un voyage de Londres à New York. Vous commencez par communiquer vos dates de voyage à une agence de voyages, qui répartit ensuite la tâche entre des agents spécialisés capables de rechercher des vols, des hôtels et des voitures. Ces agents contactent les serveurs MCP des compagnies aériennes, des hôtels et des agences de location de voitures, recueillent des informations, comparent les options et créent une liste d’itinéraires potentiels. Une fois votre option choisie, l’agent de voyages se chargera de la réservation. Je souhaite prendre un vol Londres-New York. Je dois réserver un hôtel et louer une voiture. Je préfère un siège côté couloir et un repas végétalien. Parfait ! Veuillez procéder à la réservation. Utilisateur : voici les détails de votre vol. Souhaitez-vous que je m’en occupe ? ».

Ce type de coordination nécessite donc des règles encadrant l’identification, la communication et la confiance entre les différents agents. La solution proposée par Google est le protocole A2A (agent à agent). Grâce à ce protocole, les agents peuvent présenter leurs services et se répartir les tâches. Laurie Voss, d’Arize AI, une startup d’agents de voyage, affirme que les entreprises se livrent à une véritable course pour définir les normes dominantes du web agentique. Le protocole le plus largement adopté permettra aux outils de ses contributeurs d’être plus performants, plus rapidement et avec plus de fonctionnalités.

Le 9 décembre, Anthropic, OpenAI, Google, Microsoft et d’autres ont annoncé la création de l’Agentic AI Foundation, qui développera des normes open source pour les agents d’IA. Le MCP d’Anthropic en fera partie, signe de son adoption croissante en tant que norme industrielle pour la communication agentique. Pour The Verge, Hayden Field s’enthousiasme. L’Agentic AI Foundation devrait accélérer considérablement le développement des agents. « L’ouverture des API entre applications et services web a été le fondement du Web 2.0, et par la suite, l’explosion extrêmement lucrative des applications mobiles à l’ère des boutiques d’applications. Inciter les utilisateurs (et leurs dépenses) à passer des applications et sites web aux agents d’IA est l’un des rares moyens pour les entreprises d’IA de rentabiliser leurs investissements colossaux. Or, les agents d’IA nécessitent de nouveaux types d’API, et MCP semble être la norme qui les transformera. La page web de MCP, avec une certaine ambition, le compare à l’omniprésent USB-C. » Rien de moins. « L’objectif est de créer un marché d’outils que les agents pourront utiliser ».

Pour l’instant, la majeure partie du web que ces agents parcourront reste conçue pour les humains. Trouver un produit implique toujours de naviguer dans des menus. Lors d’une recherche traditionnelle, l’utilisateur doit souvent cliquer sur des filtres, de lieu ou de type de cuisine quand vous cherchez un restaurant sur Google Maps par exemple. Pour faciliter l’accès aux sites web pour les modèles de langage, Microsoft a créé Natural Language Web (NLWeb), qui permet aux utilisateurs d’interagir avec n’importe quelle page web en langage naturel et de les augmenter d’une interaction structurée pour les agents, « afin de relier l’internet visuel moderne et celui utilisable par les agents », rappelle The Economist.

Les problèmes à venir du web agentique

« À mesure que les agents gagnent en compétences, une nouvelle compétition entre plateformes se dessine, cette fois-ci autour des agents eux-mêmes. Elle rappelle la guerre des navigateurs des années 1990, lorsque les entreprises se disputaient l’accès au web. Aujourd’hui, les navigateurs sont repensés avec les agents au cœur de leur fonctionnement. OpenAI et Perplexity ont lancé des navigateurs pilotés par des agents capables de suivre des vols, de récupérer des documents et de gérer leurs e-mails. Leurs ambitions vont plus loin. En septembre, OpenAI a permis d’effectuer des achats directs sur certains sites web depuis ChatGPT. La plateforme s’est également intégrée à des services comme Spotify et Figma, permettant aux utilisateurs d’écouter de la musique ou de modifier des designs sans changer d’application. Ces initiatives inquiètent les acteurs établis. En novembre, Amazon, le site de vente en ligne, a intenté un procès à Perplexity, accusant la start-up de violer ses conditions d’utilisation en omettant de préciser que son navigateur effectuait des achats à la place d’un utilisateur humain. Airbnb, l’application de location de courte durée, a choisi de ne pas intégrer ChatGPT, estimant que la fonctionnalité n’était pas encore « tout à fait au point ».»

Le problème, c’est que la publicité, moteur de financement d’internet, va également devoir s’adapter à ces transformations. Le web actuel repose sur la monétisation de l’attention humaine. Alphabet et Meta, deux des plus grandes entreprises technologiques, gagnent près de 500 milliards de dollars par an grâce à la publicité, soit plus de 80 % de leurs revenus. Mais qu’en sera-t-il dans un web parcouru par les agents plus que par les humains ?

« Dawn Song, informaticienne à l’Université de Californie à Berkeley, affirme que les spécialistes du marketing devront peut-être s’adresser non pas aux individus, mais à « l’attention des agents ». Les sites de voyage, par exemple, ne devront plus persuader le voyageur, mais son représentant numérique. Les tactiques resteront probablement les mêmes (optimisation du référencement, ciblage des préférences, paiement pour le placement publicitaire), mais l’audience sera constituée d’algorithmes. La navigation pilotée par des agents pourrait également considérablement accroître l’activité en ligne. Parag Agrawal, fondateur de Parallel Web Systems souligne que le web a été conçu pour des humains lisant à leur propre rythme. Les agents, eux, ne sont pas soumis à de telles limites. Ils peuvent analyser des milliers de pages en quelques secondes, suivre des liens que les humains négligent et mener de front plusieurs tâches, souvent invisibles à l’écran. Il prédit que les agents pourraient utiliser le web « des centaines, voire des milliers » de fois plus que les humains. » Au risque que ce web ci génère plus de vues, plus de coûts… mais pas plus de revenus.

« Lorsque les agents agissent, ils peuvent aussi se tromper. Un agent d’IA peut se comporter d’une manière que son utilisateur ne comprend pas pleinement. Il peut commettre des erreurs, puis inventer des explications. Plus inquiétant encore est la manipulation externe. L’injection de prompts – dissimuler des commandes malveillantes dans des pages web ou des fichiers – peut inciter les agents à divulguer des données, à contourner les contrôles de sécurité ou à entreprendre des actions non autorisées. Des mesures de protection permettent de réduire les risques. L’une d’elles consiste à limiter l’accès des agents aux services de confiance. Une autre est de leur attribuer des pouvoirs restreints. Certains pourraient être en « lecture seule », autorisés à récupérer des données mais pas à les envoyer ou à les modifier. D’autres pourraient n’agir qu’avec une confirmation humaine. Pour les tâches les plus sensibles, une intervention humaine peut s’avérer nécessaire. »

« Malgré les risques, les développeurs de logiciels restent optimistes. M. Agrawal envisage un passage d’un internet « à la demande », où les actions sont initiées par les utilisateurs, à un modèle « à l’initiative », où des agents agissent spontanément : ils organisent des réunions, signalent des recherches ou prennent en charge des tâches mineures. Ce modèle pourrait constituer les fondements d’une version nouvelle et radicalement différente du web. »

Pour le radar d’Oreilly, le développeur Andrew Stellman s’inquiète cependant de la généralisation du protocole MCP. « Un seul et même protocole simple permet de fournir à l’IA toutes sortes de données à intégrer dans son contexte ». « La promesse est bien réelle : dans de nombreux cas, la connexion des sources de données aux agents IA, qui prenait auparavant des semaines, ne prend plus que quelques minutes. Mais cette rapidité a un prix. »

« Les développeurs utilisent le MCP pour connecter rapidement leurs assistants IA à toutes les sources de données possibles (bases de données clients, tickets de support, API internes, bases de données documentaires) et les déversent dans le contexte de l’IA. Et comme l’IA est suffisamment intelligente pour trier une masse de données et en extraire les informations pertinentes, tout fonctionne parfaitement ! Ce qui, paradoxalement, pose problème. L’IA traite allègrement d’énormes quantités de données et produit des réponses pertinentes, si bien que personne ne songe à remettre en question son approche. C’est ce qu’on appelle l’accumulation compulsive de données. À l’instar des personnes qui accumulent les objets sans pouvoir s’en débarrasser, jusqu’à ce que leur logement devienne invivable, cette accumulation compulsive de données peut engendrer de sérieux problèmes pour les équipes. Les développeurs apprennent qu’ils peuvent extraire bien plus de données que nécessaire à l’IA et les lui fournir sans planification ni structuration, l’IA étant suffisamment intelligente pour les traiter et fournir malgré tout de bons résultats. Lorsque la connexion d’une nouvelle source de données prend des heures au lieu de jours, de nombreux développeurs négligent de se demander quelles données sont réellement pertinentes dans leur contexte. C’est ainsi que l’on se retrouve avec des systèmes coûteux à exploiter et impossibles à déboguer, tandis qu’une génération entière de développeurs passe à côté de l’opportunité d’acquérir les compétences essentielles en architecture de données nécessaires à la création d’applications robustes et maintenables. »

Pour Stellman, MCP fait vite oublier que « trop de données » peut devenir un problème et notamment poser des problèmes d’architecture ou de débogage. Ce contexte hypertrophié, quasiment imperceptible pour vos cent premières requêtes, devient un poste de dépense important dans votre facture cloud lorsque vous gérez des millions de requêtes. Chaque champ inutile transmis à l’IA s’accumule, et vous payez pour ces données redondantes à chaque appel. L’accumulation de données présente également un risque pour la sécurité, souvent négligé par les équipes. Chaque donnée exposée via un outil MCP constitue une vulnérabilité potentielle. Si un attaquant découvre un point d’accès non protégé, il peut récupérer toutes les données fournies par l’outil.

Pire, souligne-t-il : dans un cas extrême d’accumulation de données touchant toute une entreprise, vous pourriez découvrir que chaque équipe de votre organisation construit sa propre base de données. Le support à une version des données clients, les ventes une autre, le produit une troisième. Un même client apparaît complètement différent selon l’assistant auquel on s’adresse.

Quant au spécialiste de la sécurité, Bruce Schneier, il s’alarme : MCP et les protocoles similaires multiplient les surfaces d’attaque. « Des agents d’IA dignes de confiance requièrent l’intégrité, car on ne peut bâtir des systèmes fiables sur des fondations fragiles. Les agents d’IA actuels observent Internet, s’orientent grâce aux statistiques, décident de manière probabiliste et agissent sans vérification. Nous avons construit un système qui fait confiance à tout, et nous espérons maintenant un pare-feu sémantique pour le protéger. (…) Une IA à l’échelle du web signifie une défaillance d’intégrité à l’échelle du web. Chaque fonctionnalité est susceptible de corrompre. L’intégrité n’est pas une fonctionnalité que l’on ajoute ; c’est une architecture que l’on choisit. Jusqu’à présent, nous avons construit des systèmes d’IA où « rapide » et « intelligent » excluent « sécurisé ». Nous avons privilégié les capacités à la vérification, l’accès aux données à l’échelle du web à la garantie de la confiance. Les agents d’IA seront encore plus puissants et de plus en plus autonomes. Et sans intégrité, ils seront également plus dangereux. »

Enfin, comme l’exposent Natàlia Fernandez Ashman et Marta Bienkiewicz de Cooperative AI Foundation, on peut se demander si les régulations européennes sont prêtes pour cette IA agentive. Le projet de lignes directrices et de modèle de rapport sur les incidents graves liés à l’IA qui sera ajouté à l’IA Act, se concentre sur les défaillances d’un seul agent et d’un seul événement, et suppose une causalité simpliste et univoque pour les incidents liés à l’IA. Or, certains des risques les plus graves émergent déjà des interactions entre systèmes d’IA, où de multiples événements peuvent entraîner des effets en cascade et cumulatifs. Nombre d’incidents sont émergents : ils ne découlent pas d’une défaillance d’un système (et ne sont donc pas imputables à un seul acteur), mais d’interactions à l’échelle de l’écosystème agentique.

Hubert Guillaud

Cet édito a été publié originellement dans la lettre de Café IA du 23 janvier 2026.

MAJ du 13/02/2026 : Sur son blog, Thomas Gerbaud revient également sur la folie agentique actuelle, et notamment le projet OpenClaw qui permet de créer des agents IA auto hébergés. Il souligne tout d’abord que piloter ses agents n’est pas encore très accessible à tout à chacun, mais surtout qu’en accédant aux données et applications, ils peuvent « exécuter des commandes arbitraires sur votre ordinateur », au risque d’ouvrir une magnifique collection de brèches de sécurité. « C’est strictement une machinerie conçue pour permettre à des programmes de faire des choses, comme installer d’autres programmes, à votre place. Le tout avec des droits élevés. C’est très exactement ce dont rêvent les pirates informatiques.»

Dans les algorithmes
L’IA, un nouvel internet… sans condition
Tous les grands acteurs des technologies ont entamé leur mue. Tous se mettent à intégrer l’IA à leurs outils et plateformes, massivement. Les Big Tech se transforment en IA Tech. Et l’histoire du web, telle qu’on l’a connue, touche à sa fin, prédit Thomas Germain pour la BBC. Nous entrons dans « le web des machines », le web synthétique, le web artificiel où tous les contenus sont appelés à être générés en permanence, à la volée, en s’appuyant sur l’ensemble des contenus disponibles, sans que ce

L’IA, un nouvel internet… sans condition

Dans les algorithmes

Par : Hubert Guillaud

10 juillet 2025 à 06:40

Tous les grands acteurs des technologies ont entamé leur mue. Tous se mettent à intégrer l’IA à leurs outils et plateformes, massivement. Les Big Tech se transforment en IA Tech. Et l’histoire du web, telle qu’on l’a connue, touche à sa fin, prédit Thomas Germain pour la BBC. Nous entrons dans « le web des machines », le web synthétique, le web artificiel où tous les contenus sont appelés à être générés en permanence, à la volée, en s’appuyant sur l’ensemble des contenus disponibles, sans que ceux-ci soient encore disponibles voire accessibles. Un second web vient se superposer au premier, le recouvrir… avec le risque de faire disparaître le web que nous avons connu, construit, façonné.

Jusqu’à présent, le web reposait sur un marché simple, rappelle Germain. Les sites laissaient les moteurs de recherche indexer leurs contenus et les moteurs de recherche redirigeaient les internautes vers les sites web référencés. « On estime que 68 % de l’activité Internet commence sur les moteurs de recherche et qu’environ 90 % des recherches se font sur Google. Si Internet est un jardin, Google est le soleil qui fait pousser les fleurs ».

Ce système a été celui que nous avons connu depuis les origines du web. L’intégration de l’IA, pour le meilleur ou pour le pire, promet néanmoins de transformer radicalement cette expérience. Confronté à une nette dégradation des résultats de la recherche, notamment due à l’affiliation publicitaire et au spam, le PDG de Google, Sundar Pichai, a promis une « réinvention totale de la recherche » en lançant son nouveau « mode IA ». Contrairement aux aperçus IA disponibles jusqu’à présent, le mode IA va remplacer complètement les résultats de recherche traditionnels. Désormais, un chatbot va créer un article pour répondre aux questions. En cours de déploiement et facultatif pour l’instant, à terme, il sera « l’avenir de la recherche Google ».

Un détournement massif de trafic

Les critiques ont montré que, les aperçus IA généraient déjà beaucoup moins de trafic vers le reste d’internet (de 30 % à 70 %, selon le type de recherche. Des analyses ont également révélé qu’environ 60 % des recherches Google depuis le lancement des aperçus sont désormais « zéro clic », se terminant sans que l’utilisateur ne clique sur un seul lien – voir les études respectives de SeerInteractive, Semrush, Bain et Sparktoro), et beaucoup craignent que le mode IA ne renforce encore cette tendance. Si cela se concrétise, cela pourrait anéantir le modèle économique du web tel que nous le connaissons. Google estime que ces inquiétudes sont exagérées, affirmant que le mode IA « rendra le web plus sain et plus utile ». L’IA dirigerait les utilisateurs vers « une plus grande diversité de sites web » et le trafic serait de « meilleure qualité » car les utilisateurs passent plus de temps sur les liens sur lesquels ils cliquent. Mais l’entreprise n’a fourni aucune donnée pour étayer ces affirmations.

Google et ses détracteurs s’accordent cependant sur un point : internet est sur le point de prendre une toute autre tournure. C’est le principe même du web qui est menacé, celui où chacun peut créer un site librement accessible et référencé.

L’article de la BBC remarque, très pertinemment, que cette menace de la mort du web a déjà été faite. En 2010, Wired annonçait « la mort du web ». A l’époque, l’essor des smartphones, des applications et des réseaux sociaux avaient déjà suscité des prédictions apocalyptiques qui ne se sont pas réalisées. Cela n’empêche pas les experts d’être soucieux face aux transformations qui s’annoncent. Pour les critiques, certes, les aperçus IA et le mode IA incluent tous deux des liens vers des sources, mais comme l’IA vous donne la réponse que vous cherchez, cliquer sur ceux-ci devient superflu. C’est comme demander un livre à un bibliothécaire et qu’il vous en parle plutôt que de vous le fournir, compare un expert.

La chute du nombre de visiteurs annoncée pourrait faire la différence entre une entreprise d’édition viable… et la faillite. Pour beaucoup d’éditeurs, ce changement sera dramatique. Nombre d’entreprises constatent que Google affiche leurs liens plus souvent, mais que ceux-ci sont moins cliqués. Selon le cabinet d’analyse de données BrightEdge, les aperçus IA ont entraîné une augmentation de 49 % des impressions sur le web, mais les clics ont chuté de 30 %, car les utilisateurs obtiennent leurs réponses directement de l’IA. « Google a écrit les règles, créé le jeu et récompensé les joueurs », explique l’une des expertes interrogée par la BBC. « Maintenant, ils se retournent et disent : « C’est mon infrastructure, et le web se trouve juste dedans ». »

Demis Hassabis, directeur de Google DeepMind, le laboratoire de recherche en IA de l’entreprise, a déclaré qu’il pensait que demain, les éditeurs alimenteraient directement les modèles d’IA avec leurs contenus, sans plus avoir à se donner la peine de publier des informations sur des sites web accessibles aux humains. Mais, pour Matthew Prince, directeur général de Cloudflare, le problème dans ce web automatisé, c’est que « les robots ne cliquent pas sur les publicités ». « Si l’IA devient l’audience, comment les créateurs seront-ils rémunérés ? » La rémunération directe existe déjà, comme le montrent les licences de contenus que les plus grands éditeurs de presse négocient avec des systèmes d’IA pour qu’elles s’entraînent et exploitent leurs contenus, mais ces revenus là ne compenseront pas la chute d’audience à venir. Et ce modèle ne passera certainement pas l’échelle d’une rétribution généralisée.

Si gagner de l’argent sur le web devient plus difficile, il est probable que nombre d’acteurs se tournent vers les réseaux sociaux pour tenter de compenser les pertes de revenus. Mais là aussi, les caprices algorithmiques et le développement de l’IA générative risquent de ne pas suffire à compenser les pertes.

Un nouvel internet sans condition

Pour Google, les réactions aux aperçus IA laissent présager que le mode IA sera extrêmement populaire. « À mesure que les utilisateurs utilisent AI Overviews, nous constatons qu’ils sont plus satisfaits de leurs résultats et effectuent des recherches plus souvent », a déclaré Pichai lors de la conférence des développeurs de Google. Autrement dit, Google affirme que cela améliore la recherche et que c’est ce que veulent les utilisateurs. Mais pour Danielle Coffey, présidente de News/Media Alliance, un groupement professionnel représentant plus de 2 200 journalistes et médias, les réponses de l’IA vont remplacer les produits originaux : « les acteurs comme Google vont gagner de l’argent grâce à notre contenu et nous ne recevons rien en retour ». Le problème, c’est que Google n’a pas laissé beaucoup de choix aux éditeurs, comme le pointait Bloomberg. Soit Google vous indexe pour la recherche et peut utiliser les contenus pour ses IA, soit vous êtes désindexé des deux. La recherche est bien souvent l’une des premières utilisations de outils d’IA. Les inquiétudes sur les hallucinations, sur le renforcement des chambres d’échos dans les réponses que vont produire ces outils sont fortes (on parle même de « chambre de chat » pour évoquer la réverbération des mêmes idées et liens dans ces outils). Pour Cory Doctorow, « Google s’apprête à faire quelque chose qui va vraiment mettre les gens en colère »… et appelle les acteurs à capitaliser sur cette colère à venir. Matthew Prince de Cloudflare prône, lui, une intervention directe. Son projet est de faire en sorte que Cloudflare et un consortium d’éditeurs de toutes tailles bloquent collectivement les robots d’indexation IA, à moins que les entreprises technologiques ne paient pour le contenu. Il s’agit d’une tentative pour forcer la Silicon Valley à négocier. « Ma version très optimiste », explique Prince, « est celle où les humains obtiennent du contenu gratuitement et où les robots doivent payer une fortune pour l’obtenir ». Tim O’Reilly avait proposé l’année dernière quelque chose d’assez similaire : expliquant que les droits dérivés liés à l’exploitation des contenus par l’IA devraient donner lieu à rétribution – mais à nouveau, une rétribution qui restera par nature insuffisante, comme l’expliquait Frédéric Fillioux.

Même constat pour le Washington Post, qui s’inquiète de l’effondrement de l’audience des sites d’actualité avec le déploiement des outils d’IA. « Le trafic de recherche organique vers ses sites web a diminué de 55 % entre avril 2022 et avril 2025, selon les données de Similarweb ». Dans la presse américaine, l’audience est en berne et les licenciements continuent.

Les erreurs seront dans la réponse

Pour la Technology Review, c’est la fin de la recherche par mots-clés et du tri des liens proposés. « Nous entrons dans l’ère de la recherche conversationnelle » dont la fonction même vise à « ignorer les liens », comme l’affirme Perplexity dans sa FAQ. La TR rappelle l’histoire de la recherche en ligne pour montrer que des annuaires aux moteurs de recherche, celle-ci a toujours proposé des améliorations, pour la rendre plus pertinente. Depuis 25 ans, Google domine la recherche en ligne et n’a cessé de s’améliorer pour fournir de meilleures réponses. Mais ce qui s’apprête à changer avec l’intégration de l’IA, c’est que les sources ne sont plus nécessairement accessibles et que les réponses sont générées à la volée, aucune n’étant identique à une autre.

L’intégration de l’IA pose également la question de la fiabilité des réponses. L’IA de Google a par exemple expliqué que la Technology Review avait été mise en ligne en 2022… ce qui est bien sûr totalement faux, mais qu’en saurait une personne qui ne le sait pas ? Mais surtout, cet avenir génératif promet avant tout de fabriquer des réponses à la demande. Mat Honan de la TR donne un exemple : « Imaginons que je veuille voir une vidéo expliquant comment réparer un élément de mon vélo. La vidéo n’existe pas, mais l’information, elle, existe. La recherche générative assistée par l’IA pourrait théoriquement trouver cette information en ligne – dans un manuel d’utilisation caché sur le site web d’une entreprise, par exemple – et créer une vidéo pour me montrer exactement comment faire ce que je veux, tout comme elle pourrait me l’expliquer avec des mots aujourd’hui » – voire très mal nous l’expliquer. L’exemple permet de comprendre comment ce nouvel internet génératif pourrait se composer à la demande, quelque soit ses défaillances.

Mêmes constats pour Matteo Wrong dans The Atlantic : avec la généralisation de l’IA, nous retournons dans un internet en mode bêta. Les services et produits numériques n’ont jamais été parfaits, rappelle-t-il, mais la généralisation de l’IA risque surtout d’amplifier les problèmes. Les chatbots sont très efficaces pour produire des textes convaincants, mais ils ne prennent pas de décisions en fonction de l’exactitude factuelle. Les erreurs sont en passe de devenir « une des caractéristiques de l’internet ». « La Silicon Valley mise l’avenir du web sur une technologie capable de dérailler de manière inattendue, de s’effondrer à la moindre tâche et d’être mal utilisée avec un minimum de frictions ». Les quelques réussites de l’IA n’ont que peu de rapport avec la façon dont de nombreuses personnes et entreprises comprennent et utilisent cette technologie, rappelle-t-il. Plutôt que des utilisations ciblées et prudentes, nombreux sont ceux qui utilisent l’IA générative pour toutes les tâches imaginables, encouragés par les géants de la tech. « Tout le monde utilise l’IA pour tout », titrait le New York Times. « C’est là que réside le problème : l’IA générative est une technologie suffisamment performante pour que les utilisateurs en deviennent dépendants, mais pas suffisamment fiable pour être véritablement fiable ». Nous allons vers un internet où chaque recherche, itinéraire, recommandation de restaurant, résumé d’événement, résumé de messagerie vocale et e-mail sera plus suspect qu’il n’est aujourd’hui. « Les erreurs d’aujourd’hui pourraient bien, demain, devenir la norme », rendant ses utilisateurs incapables de vérifier ses fonctionnements. Bienvenue dans « l’âge de la paranoïa », clame Wired.

Vers la publicité générative et au-delà !

Mais il n’y a pas que les « contenus » qui vont se recomposer, la publicité également. C’est ainsi qu’il faut entendre les déclarations de Mark Zuckerberg pour automatiser la création publicitaire, explique le Wall Street Journal. « La plateforme publicitaire de Meta propose déjà des outils d’IA capables de générer des variantes de publicités existantes et d’y apporter des modifications mineures avant de les diffuser aux utilisateurs sur Facebook et Instagram. L’entreprise souhaite désormais aider les marques à créer des concepts publicitaires de A à Z ». La publicité représente 97% du chiffre d’affaires de Meta, rappelle le journal (qui s’élève en 2024 à 164 milliards de dollars). Chez Meta les contenus génératifs produisent déjà ce qu’on attend d’eux. Meta a annoncé une augmentation de 8 % du temps passé sur Facebook et de 6 % du temps passé sur Instagram grâce aux contenus génératifs. 15 millions de publicités par mois sur les plateformes de Meta sont déjà générées automatiquement. « Grâce aux outils publicitaires développés par Meta, une marque pourrait demain fournir une image du produit qu’elle souhaite promouvoir, accompagnée d’un objectif budgétaire. L’IA créerait alors l’intégralité de la publicité, y compris les images, la vidéo et le texte. Le système déciderait ensuite quels utilisateurs Instagram et Facebook cibler et proposerait des suggestions en fonction du budget ». Selon la géolocalisation des utilisateurs, la publicité pourrait s’adapter en contexte, créant l’image d’une voiture circulant dans la neige ou sur une plage s’ils vivent en montagne ou au bord de la mer. « Dans un avenir proche, nous souhaitons que chaque entreprise puisse nous indiquer son objectif, comme vendre quelque chose ou acquérir un nouveau client, le montant qu’elle est prête à payer pour chaque résultat, et connecter son compte bancaire ; nous nous occuperons du reste », a déclaré Zuckerberg lors de l’assemblée générale annuelle des actionnaires de l’entreprise.

Nilay Patel, le rédac chef de The Verge, parle de « créativité infinie ». C’est d’ailleurs la même idée que l’on retrouve dans les propos de Jensen Huang, le PDG de Nvidia, quand il promet de fabriquer les « usines à IA » qui généreront le web demain. Si toutes les grandes entreprises et les agences de publicité ne sont pas ravies de la proposition – qui leur est fondamentalement hostile, puisqu’elle vient directement les concurrencer -, d’autres s’y engouffrent déjà, à l’image d’Unilever qui explique sur Adweek que l’IA divise par deux ses budgets publicitaires grâce à son partenariat avec Nvidia. « Unilever a déclaré avoir réalisé jusqu’à 55 % d’économies sur ses campagnes IA, d’avoir réduit les délais de production de 65% tout en doublant le taux de clic et en retenant l’attention des consommateurs trois fois plus longtemps ».

L’idée finalement très partagée par tous les géants de l’IA, c’est bien d’annoncer le remplacement du web que l’on connaît par un autre. Une sous-couche générative qu’il maîtriseraient, capable de produire un web à leur profit, qu’ils auraient avalé et digéré.

Vers des revenus génératifs ?

Nilay Patel était l’année dernière l’invité du podcast d’Ezra Klein pour le New York Times qui se demandait si cette transformation du web allait le détruire ou le sauver. Dans cette discussion parfois un peu décousue, Klein rappelle que l’IA se développe d’abord là où les produits n’ont pas besoin d’être très performants. Des tâches de codage de bas niveau aux devoirs des étudiants, il est également très utilisé pour la diffusion de contenus médiocres sur l’internet. Beaucoup des contenus d’internet ne sont pas très performants, rappelle-t-il. Du spam au marketing en passant par les outils de recommandations des réseaux sociaux, internet est surtout un ensemble de contenus à indexer pour délivrer de la publicité elle-même bien peu performante. Et pour remplir cet « internet de vide », l’IA est assez efficace. Les plateformes sont désormais inondées de contenus sans intérêts, de spams, de slops, de contenus de remplissage à la recherche de revenus. Et Klein de se demander que se passera-t-il lorsque ces flots de contenu IA s’amélioreront ? Que se passera-t-il lorsque nous ne saurons plus s’il y a quelqu’un à l’autre bout du fil de ce que nous voyons, lisons ou entendons ? Y aura-t-il encore quelqu’un d’ailleurs, où n’aurons nous accès plus qu’à des contenus génératifs ?

Pour Patel, pour l’instant, l’IA inonde le web de contenus qui le détruisent. En augmentant à l’infini l’offre de contenu, le système s’apprête à s’effondrer sur lui-même : « Les algorithmes de recommandation s’effondrent, notre capacité à distinguer le vrai du faux s’effondre également, et, plus important encore, les modèles économiques d’Internet s’effondrent complètement ». Les contenus n’arrivent plus à trouver leurs publics, et inversement. L’exemple éclairant pour illustrer cela, c’est celui d’Amazon. Face à l’afflux de livres générés par l’IA, la seule réponse d’Amazon a été de limiter le nombre de livres déposables sur la plateforme à trois par jour. C’est une réponse parfaitement absurde qui montre que nos systèmes ne sont plus conçus pour organiser leurs publics et leur adresser les bons contenus. C’est à peine s’ils savent restreindre le flot

Avec l’IA générative, l’offre ne va pas cesser d’augmenter. Elle dépasse déjà ce que nous sommes capables d’absorber individuellement. Pas étonnant alors que toutes les plateformes se transforment de la même manière en devenant des plateformes de téléachats ne proposant plus rien d’autre que de courtes vidéos.

« Toutes les plateformes tendent vers le même objectif, puisqu’elles sont soumises aux mêmes pressions économiques ». Le produit des plateformes c’est la pub. Elles mêmes ne vendent rien. Ce sont des régies publicitaires que l’IA promet d’optimiser depuis les données personnelles collectées. Et demain, nos boîtes mails seront submergées de propositions marketing générées par l’IA… Pour Patel, les géants du net ont arrêté de faire leur travail. Aucun d’entre eux ne nous signale plus que les contenus qu’ils nous proposent sont des publicités. Google Actualités référence des articles écrits par des IA sans que cela ne soit un critère discriminant pour les référenceurs de Google, expliquait 404 média (voir également l’enquête de Next sur ce sujet qui montre que les sites générés par IA se démultiplient, « pour faire du fric »). Pour toute la chaîne, les revenus semblent être devenus le seul objectif.

Et Klein de suggérer que ces contenus vont certainement s’améliorer, comme la génération d’image et de texte n’a cessé de s’améliorer. Il est probable que l’article moyen d’ici trois ans sera meilleur que le contenu moyen produit par un humain aujourd’hui. « Je me suis vraiment rendu compte que je ne savais pas comment répondre à la question : est-ce un meilleur ou un pire internet qui s’annonce ? Pour répondre presque avec le point de vue de Google, est-ce important finalement que le contenu soit généré par un humain ou une IA, ou est-ce une sorte de sentimentalisme nostalgique de ma part ? »

Il y en a certainement, répond Patel. Il n’y a certainement pas besoin d’aller sur une page web pour savoir combien de temps il faut pour cuire un œuf, l’IA de Google peut vous le dire… Mais, c’est oublier que cette IA générative ne sera pas plus neutre que les résultats de Google aujourd’hui. Elle sera elle aussi façonnée par la publicité. L’enjeu demain ne sera plus d’être dans les 3 premiers résultats d’une page de recherche, mais d’être citée par les réponses construites par les modèles de langages. « Votre client le plus important, désormais, c’est l’IA ! », explique le journaliste Scott Mulligan pour la Technology Review. « L’objectif ultime n’est pas seulement de comprendre comment votre marque est perçue par l’IA, mais de modifier cette perception ». Or, les biais marketing des LLM sont déjà nombreux. Une étude montre que les marques internationales sont souvent perçues comme étant de meilleures qualités que les marques locales. Si vous demandez à un chatbot de recommander des cadeaux aux personnes vivant dans des pays à revenu élevé, il suggérera des articles de marque de luxe, tandis que si vous lui demandez quoi offrir aux personnes vivant dans des pays à faible revenu, il recommandera des marques plus cheap.

L’IA s’annonce comme un nouveau public des marques, à dompter. Et la perception d’une marque par les IA aura certainement des impacts sur leurs résultats financiers. Le marketing a assurément trouvé un nouveau produit à vendre ! Les entreprises vont adorer !

Pour Klein, l’internet actuel est certes très affaibli, pollué de spams et de contenus sans intérêts. Google, Meta et Amazon n’ont pas créé un internet que les gens apprécient, mais bien plus un internet que les gens utilisent à leur profit. L’IA propose certainement non pas un internet que les gens vont plus apprécier, bien au contraire, mais un internet qui profite aux grands acteurs plutôt qu’aux utilisateurs. Pour Patel, il est possible qu’un internet sans IA subsiste, pour autant qu’il parvienne à se financer.

Pourra-t-on encore défendre le web que nous voulons ?

Les acteurs oligopolistiques du numérique devenus les acteurs oligopolistiques de l’IA semblent s’aligner pour transformer le web à leur seul profit, et c’est assurément la puissance (et surtout la puissance financière) qu’ils ont acquis qui le leur permet. La transformation du web en « web des machines » est assurément la conséquence de « notre longue dépossession », qu’évoquait Ben Tarnoff dans son livre, Internet for the People.

La promesse du web synthétique est là pour rester. Et la perspective qui se dessine, c’est que nous avons à nous y adapter, sans discussion. Ce n’est pas une situation très stimulante, bien au contraire. A mesure que les géants de l’IA conquièrent le numérique, c’est nos marges de manœuvres qui se réduisent. Ce sont elles que la régulation devrait chercher à réouvrir, dès à présent. Par exemple en mobilisant très tôt le droit à la concurrence et à l’interopérabilité, pour forcer les acteurs à proposer aux utilisateurs d’utiliser les IA de leurs choix ou en leur permettant, très facilement, de refuser leur implémentations dans les outils qu’ils utilisent, que ce soit leurs OS comme les services qu’ils utilisent. Bref, mobiliser le droit à la concurrence et à l’interopérabilité au plus tôt. Afin que défendre le web que nous voulons ne s’avère pas plus difficile demain qu’il n’était aujourd’hui.

Hubert Guillaud

Cet édito a été originellement publié dans la première lettre d’information de CaféIA le 27 juin 2025.

Dans les algorithmes
Qui est l’utilisateur des LLM ?
Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette comp

Qui est l’utilisateur des LLM ?

Dans les algorithmes

Par : Hubert Guillaud

10 juin 2025 à 06:24

Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette compréhension pour les améliorer, est pourtant essentiel, comme l’expliquait le PDG d’Anthropic. Anthropic a fait des efforts en ce sens, explique le juriste en identifiant des caractéristiques lui permettant de mieux cartographier son modèle. Meta, la société mère de Facebook, a publié des versions toujours plus sophistiquées de son grand modèle linguistique, Llama, avec des paramètres librement accessibles (on parle de “poids ouverts” permettant d’ajuster les paramètres des modèles). Transluce, un laboratoire de recherche à but non lucratif axé sur la compréhension des systèmes d’IA, a développé une méthode permettant de générer des descriptions automatisées des mécanismes de Llama 3.1. Celles-ci peuvent être explorées à l’aide d’un outil d’observabilité qui montre la nature du modèle et vise à produire une “interprétabilité automatisée” en produisant des descriptions lisibles par l’homme des composants du modèle. L’idée vise à montrer comment les modèles « pensent » lorsqu’ils discutent avec un utilisateur, et à permettre d’ajuster cette pensée en modifiant directement les calculs qui la sous-tendent. Le laboratoire Insight + Interaction du département d’informatique de Harvard, dirigé par Fernanda Viégas et Martin Wattenberg, ont exécuté Llama sur leur propre matériel et ont découverts que diverses fonctionnalités s’activent et se désactivent au cours d’une conversation.

Des croyances du modèle sur son interlocuteur

Viégas est brésilienne. Elle conversait avec ChatGPT en portugais et a remarqué, lors d’une conversation sur sa tenue pour un dîner de travail, que ChatGPT utilisait systématiquement la déclinaison masculine. Cette grammaire, à son tour, semblait correspondre au contenu de la conversation : GPT a suggéré un costume pour le dîner. Lorsqu’elle a indiqué qu’elle envisageait plutôt une robe, le LLM a changé son utilisation du portugais pour la déclinaison féminine. Llama a montré des schémas de conversation similaires. En observant les fonctionnalités internes, les chercheurs ont pu observer des zones du modèle qui s’illuminent lorsqu’il utilise la forme féminine, contrairement à lorsqu’il s’adresse à quelqu’un. en utilisant la forme masculine. Viégas et ses collègues ont constaté des activations corrélées à ce que l’on pourrait anthropomorphiser comme les “croyances du modèle sur son interlocuteur”. Autrement dit, des suppositions et, semble-t-il, des stéréotypes corrélés selon que le modèle suppose qu’une personne est un homme ou une femme. Ces croyances se répercutent ensuite sur le contenu de la conversation, l’amenant à recommander des costumes pour certains et des robes pour d’autres. De plus, il semble que les modèles donnent des réponses plus longues à ceux qu’ils croient être des hommes qu’à ceux qu’ils pensent être des femmes. Viégas et Wattenberg ont non seulement trouvé des caractéristiques qui suivaient le sexe de l’utilisateur du modèle, mais aussi qu’elles s’adaptaient aux inférences du modèle selon ce qu’il pensait du statut socio-économique, de son niveau d’éducation ou de l’âge de son interlocuteur. Le LLM cherche à s’adapter en permanence à qui il pense converser, d’où l’importance à saisir ce qu’il infère de son interlocuteur en continue.

Un tableau de bord pour comprendre comment l’IA s’adapte en continue à son interlocuteur

Les deux chercheurs ont alors créé un tableau de bord en parallèle à l’interface de chat du LLM qui permet aux utilisateurs d’observer l’évolution des hypothèses que fait le modèle au fil de leurs échanges (ce tableau de bord n’est pas accessible en ligne). Ainsi, quand on propose une suggestion de cadeau pour une fête prénatale, il suppose que son interlocuteur est jeune, de sexe féminin et de classe moyenne. Il suggère alors des couches et des lingettes, ou un chèque-cadeau. Si on ajoute que la fête a lieu dans l’Upper East Side de Manhattan, le tableau de bord montre que le LLM modifie son estimation du statut économique de son interlocuteur pour qu’il corresponde à la classe supérieure et suggère alors d’acheter des produits de luxe pour bébé de marques haut de gamme.

Un article pour Harvard Magazine de 2023 rappelle comment est né ce projet de tableau de bord de l’IA, permettant d’observer son comportement en direct. Fernanda Viegas est professeur d’informatique et spécialiste de visualisation de données. Elle codirige Pair, un laboratoire de Google (voir le blog dédié). En 2009, elle a imaginé Web Seer est un outil de visualisation de données qui permet aux utilisateurs de comparer les suggestions de saisie semi-automatique pour différentes recherches Google, par exemple selon le genre. L’équipe a développé un outil permettant aux utilisateurs de saisir une phrase et de voir comment le modèle de langage BERT compléterait le mot manquant si un mot de cette phrase était supprimé.

Pour Viegas, « l’enjeu de la visualisation consiste à mesurer et exposer le fonctionnement interne des modèles d’IA que nous utilisons ». Pour la chercheuse, nous avons besoin de tableaux de bord pour aider les utilisateurs à comprendre les facteurs qui façonnent le contenu qu’ils reçoivent des réponses des modèles d’IA générative. Car selon la façon dont les modèles nous perçoivent, leurs réponses ne sont pas les mêmes. Or, pour comprendre que leurs réponses ne sont pas objectives, il faut pouvoir doter les utilisateurs d’une compréhension de la perception que ces outils ont de leurs utilisateurs. Par exemple, si vous demandez les options de transport entre Boston et Hawaï, les réponses peuvent varier selon la perception de votre statut socio-économique « Il semble donc que ces systèmes aient internalisé une certaine notion de notre monde », explique Viégas. De même, nous voudrions savoir ce qui, dans leurs réponses, s’inspire de la réalité ou de la fiction. Sur le site de Pair, on trouve de nombreux exemples d’outils de visualisation interactifs qui permettent d’améliorer la compréhension des modèles (par exemple, pour mesurer l’équité d’un modèle ou les biais ou l’optimisation de la diversité – qui ne sont pas sans rappeler les travaux de Victor Bret et ses “explications à explorer” interactives.

Ce qui est fascinant ici, c’est combien la réponse n’est pas tant corrélée à tout ce que le modèle a avalé, mais combien il tente de s’adapter en permanence à ce qu’il croit deviner de son interlocuteur. On savait déjà, via une étude menée par Valentin Hofmann que, selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses.

“Les grands modèles linguistiques ne se contentent pas de décrire les relations entre les mots et les concepts”, pointe Zittrain : ils assimilent également des stéréotypes qu’ils recomposent à la volée. On comprend qu’un grand enjeu désormais soit qu’ils se souviennent des conversations passées pour ajuster leur compréhension de leur interlocuteur, comme l’a annoncé OpenAI, suivi de Google et Grok. Le problème n’est peut-être pas qu’ils nous identifient précisément, mais qu’ils puissent adapter leurs propositions, non pas à qui nous sommes, mais bien plus problématiquement, à qui ils pensent s’adresser, selon par exemple ce qu’ils évaluent de notre capacité à payer. Un autre problème consiste à savoir si cette “compréhension” de l’interlocuteur peut-être stabilisée où si elle se modifie sans cesse, comme c’est le cas des étiquettes publicitaires que nous accolent les sites sociaux. Devrons-nous demain batailler quand les modèles nous mécalculent ou nous renvoient une image, un profil, qui ne nous correspond pas ? Pourrons-nous même le faire, quand aujourd’hui, les plateformes ne nous offrent pas la main sur nos profils publicitaires pour les ajuster aux données qu’ils infèrent ?

Ce qui est fascinant, c’est de constater que plus que d’halluciner, l’IA nous fait halluciner (c’est-à-dire nous fait croire en ses effets), mais plus encore, hallucine la personne avec laquelle elle interagit (c’est-à-dire, nous hallucine nous-mêmes).

Les chercheurs de Harvard ont cherché à identifier les évolutions des suppositions des modèles selon l’origine ethnique dans les modèles qu’ils ont étudiés, sans pour l’instant y parvenir. Mais ils espèrent bien pouvoir contraindre leur modèle Llama à commencer à traiter un utilisateur comme riche ou pauvre, jeune ou vieux, homme ou femme. L’idée ici, serait d’orienter les réponses d’un modèle, par exemple, en lui faisant adopter un ton moins caustique ou plus pédagogique lorsqu’il identifie qu’il parle à un enfant. Pour Zittrain, l’enjeu ici est de mieux anticiper notre grande dépendance psychologique à l’égard de ces systèmes. Mais Zittrain en tire une autre conclusion : “Si nous considérons qu’il est moralement et sociétalement important de protéger les échanges entre les avocats et leurs clients, les médecins et leurs patients, les bibliothécaires et leurs usagers, et même les impôts et les contribuables, alors une sphère de protection claire devrait être instaurée entre les LLM et leurs utilisateurs. Une telle sphère ne devrait pas simplement servir à protéger la confidentialité afin que chacun puisse s’exprimer sur des sujets sensibles et recevoir des informations et des conseils qui l’aident à mieux comprendre des sujets autrement inaccessibles. Elle devrait nous inciter à exiger des créateurs et des opérateurs de modèles qu’ils s’engagent à être les amis inoffensifs, serviables et honnêtes qu’ils sont si soigneusement conçus pour paraître”.

Inoffensifs, serviables et honnêtes, voilà qui semble pour le moins naïf. Rendre visible les inférences des modèles, faire qu’ils nous reconnectent aux humains plutôt qu’ils ne nous en éloignent, semblerait bien préférable, tant la polyvalence et la puissance remarquables des LLM rendent impératifs de comprendre et d’anticiper la dépendance potentielle des individus à leur égard. En tout cas, obtenir des outils pour nous aider à saisir à qui ils croient s’adresser plutôt que de nous laisser seuls face à leur interface semble une piste riche en promesses.

Hubert Guillaud

Dans les algorithmes
Dans les défaillances des décisions automatisées
Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action. Opacité et défaillance généralisée En 2020 déjà, la grande associat

Dans les défaillances des décisions automatisées

Dans les algorithmes

Par : Hubert Guillaud

9 avril 2025 à 07:00

Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action.

Opacité et défaillance généralisée

En 2020 déjà, la grande association européenne de défense des droits numériques, Algorithm Watch, expliquait dans un rapport que ces systèmes se généralisaient dans la plus grande opacité. Alors que le calcul est partout, l’association soulignait que si ces déploiements pouvaient être utiles, très peu de cas montraient de « manière convaincante un impact positif ». La plupart des systèmes de décision automatisés mettent les gens en danger plus qu’ils ne les protègent, disait déjà l’association.

Dans son inventaire des algorithmes publics, l’Observatoire des algorithmes publics montre, très concrètement, combien le déploiement des systèmes de prise de décision automatisée reste opaque, malgré les obligations de transparence qui incombent aux systèmes.

Avec son initiative France Contrôle, la Quadrature du Net, accompagnée de collectifs de lutte contre la précarité, documente elle aussi le déploiement des algorithmes de contrôle social et leurs défaillances. Dès 2018, les travaux pionniers de la politiste Virginia Eubanks, nous ont appris que les systèmes électroniques mis en place pour calculer, distribuer et contrôler l’aide sociale sont bien souvent particulièrement défaillants, et notamment les systèmes automatisés censés lutter contre la fraude, devenus l’alpha et l’oméga des politiques publiques austéritaires.

Malgré la Loi pour une République numérique (2016), la transparence de ces calculs, seule à même de dévoiler et corriger leurs défaillances, ne progresse pas. On peut donc se demander, assez légitimement, ce qu’il y a cacher.

A mesure que ces systèmes se déploient, ce sont donc les enquêtes des syndicats, des militants, des chercheurs, des journalistes qui documentent les défaillances des décisions automatisées dans tous les secteurs de la société où elles sont présentes.

Ces enquêtes sont rendues partout difficiles, d’abord et avant tout parce qu’on ne peut saisir les paramètres des systèmes de décision automatisée sans y accéder.

3 problèmes récurrents

S’il est difficile de faire un constat global sur les défaillances spécifiques de tous les systèmes automatisés, qu’ils s’appliquent à la santé, l’éducation, le social ou l’économie, on peut néanmoins noter 3 problèmes récurrents.

Les erreurs ne sont pas un problème pour les structures qui calculent. Pour le dire techniquement, la plupart des acteurs qui produisent des systèmes de décision automatisée produisent des faux positifs importants, c’est-à-dire catégorisent des personnes indûment. Dans les systèmes bancaires par exemple, comme l’a montré une belle enquête de l’AFP et d’Algorithm Watch, certaines activités déclenchent des alertes et conduisent à qualifier les profils des clients comme problématiques voire à suspendre les possibilités bancaires d’individus ou d’organisations, sans qu’elles n’aient à rendre de compte sur ces suspensions.

Au contraire, parce qu’elles sont invitées à la vigilance face aux activités de fraude, de blanchiment d’argent ou le financement du terrorisme, elles sont encouragées à produire des faux positifs pour montrer qu’elles agissent, tout comme les organismes sociaux sont poussés à détecter de la fraude pour atteindre leurs objectifs de contrôle.

Selon les données de l’autorité qui contrôle les banques et les marchés financiers au Royaume-Uni, 170 000 personnes ont vu leur compte en banque fermé en 2021-2022 en lien avec la lutte anti-blanchiment, alors que seulement 1083 personnes ont été condamnées pour ce délit.

Le problème, c’est que les organismes de calculs n’ont pas d’intérêt à corriger ces faux positifs pour les atténuer. Alors que, si ces erreurs ne sont pas un problème pour les structures qui les produisent, elles le sont pour les individus qui voient leurs comptes clôturés, sans raison et avec peu de possibilités de recours. Il est nécessaire pourtant que les taux de risques détectés restent proportionnels aux taux effectifs de condamnation, afin que les niveaux de réduction des risques ne soient pas portés par les individus.

Le même phénomène est à l’œuvre quand la CAF reconnaît que son algorithme de contrôle de fraude produit bien plus de contrôle sur certaines catégories sociales de la population, comme le montrait l’enquête du Monde et de Lighthouse reports et les travaux de l’association Changer de Cap. Mais, pour les banques, comme pour la CAF, ce surciblage, ce surdiagnostic, n’a pas d’incidence directe, au contraire…

Pour les organismes publics le taux de détection automatisée est un objectif à atteindre explique le syndicat Solidaires Finances Publiques dans son enquête sur L’IA aux impôts, qu’importe si cet objectif est défaillant pour les personnes ciblées. D’où l’importance de mettre en place un ratio d’impact sur les différents groupes démographiques et des taux de faux positifs pour limiter leur explosion. La justesse des calculs doit être améliorée.

Pour cela, il est nécessaire de mieux contrôler le taux de détection des outils et de trouver les modalités pour que ces taux ne soient pas disproportionnés. Sans cela, on le comprend, la maltraitance institutionnelle que dénonce ATD Quart Monde est en roue libre dans les systèmes, quels qu’ils soient.

Dans les difficultés, les recours sont rendus plus compliqués. Quand ces systèmes mé-calculent les gens, quand ils signalent leurs profils comme problématiques ou quand les dossiers sont mis en traitement, les possibilités de recours sont bien souvent automatiquement réduites. Le fait d’être soupçonné de problème bancaire diminue vos possibilités de recours plutôt qu’elle ne les augmente.

A la CAF, quand l’accusation de fraude est déclenchée, la procédure de recours pour les bénéficiaires devient plus complexe. Dans la plateforme dématérialisée pour les demandes de titres de séjour dont le Défenseur des droits pointait les lacunes dans un récent rapport, les usagers ne peuvent pas signaler un changement de lieu de résidence quand une demande est en cours.

Or, c’est justement quand les usagers sont confrontés à des difficultés, que la discussion devrait être rendue plus fluide, plus accessible. En réalité, c’est bien souvent l’inverse que l’on constate. Outre les explications lacunaires des services, les possibilités de recours sont réduites quand elles devraient être augmentées. L’alerte réduit les droits alors qu’elle devrait plutôt les ouvrir.

Enfin, l’interconnexion des systèmes crée des boucles de défaillances dont les effets s’amplifient très rapidement. Les boucles d’empêchements se multiplient sans issue. Les alertes et les faux positifs se répandent. L’automatisation des droits conduit à des évictions en cascade dans des systèmes où les organismes se renvoient les responsabilités sans être toujours capables d’agir sur les systèmes de calcul. Ces difficultés nécessitent de mieux faire valoir les droits d’opposition des calculés. La prise en compte d’innombrables données pour produire des calculs toujours plus granulaires, pour atténuer les risques, produit surtout des faux positifs et une complexité de plus en plus problématique pour les usagers.

Responsabiliser les calculs du social

Nous avons besoin de diminuer les données utilisées pour les calculs du social, explique le chercheur Arvind Narayanan, notamment parce que cette complexité, au prétexte de mieux calculer le social, bien souvent, n’améliore pas les calculs, mais renforce leur opacité et les rend moins contestables. Les calculs du social doivent n’utiliser que peu de données, doivent rester compréhensibles, transparents, vérifiables et surtout opposables… Collecter peu de données cause moins de problèmes de vie privée, moins de problèmes légaux comme éthiques… et moins de discriminations.

Renforcer le contrôle des systèmes, notamment mesurer leur ratio d’impact et les taux de faux positifs. Améliorer les droits de recours des usagers, notamment quand ces systèmes les ciblent et les désignent. Et surtout, améliorer la participation des publics aux calculs, comme nous y invitent le récent rapport du Défenseur des droits sur la dématérialisation et les algorithmes publics.

A mesure qu’ils se répandent, à mesure qu’ils accèdent à de plus en plus de données, les risques de défaillances des calculs s’accumulent. Derrière ces défaillances, c’est la question même de la justice qui est en cause. On ne peut pas accepter que les banques ferment chaque année des centaines de milliers de comptes bancaires, quand seulement un millier de personnes sont condamnées.

On ne peut pas accepter que la CAF détermine qu’il y aurait des centaines de milliers de fraudeurs, quand dans les faits, très peu sont condamnés pour fraude. La justice nécessite que les calculs du social soient raccords avec la réalité. Nous n’y sommes pas.

Hubert Guillaud

Cet édito a été publié originellement sous forme de tribune pour le Club de Mediapart, le 4 avril 2025 à l’occasion de la publication du livre, Les algorithmes contre la société aux éditions La Fabrique.

Dans les algorithmes
Inférences : comment les outils nous voient-ils ?
Comment les systèmes interprètent-ils les images ? Ente, une entreprise qui propose de chiffrer vos images pour les échanger de manière sécurisée sans que personne d’autres que ceux que vous autorisez ne puisse les voir, a utilisé l’API Google Vision pour montrer comment les entreprises infèrent des informations des images. C’est-à-dire comment ils les voient, comment les systèmes automatisés les décrivent. Ils ont mis à disposition un site pour nous expliquer comment « ILS » voient nos photos,

Inférences : comment les outils nous voient-ils ?

Dans les algorithmes

Par : Hubert Guillaud

18 mars 2025 à 07:00

Comment les systèmes interprètent-ils les images ? Ente, une entreprise qui propose de chiffrer vos images pour les échanger de manière sécurisée sans que personne d’autres que ceux que vous autorisez ne puisse les voir, a utilisé l’API Google Vision pour montrer comment les entreprises infèrent des informations des images. C’est-à-dire comment ils les voient, comment les systèmes automatisés les décrivent. Ils ont mis à disposition un site pour nous expliquer comment « ILS » voient nos photos, qui permet à chacun d’uploader une image et voir comment Google Vision l’interprète.

Sommes-nous ce que les traitements disent de nous ?

Le procédé rappelle le projet ImageNet Roulette de Kate Crawford et Trevor Paglen, qui renvoyait aux gens les étiquettes stéréotypées dont les premiers systèmes d’intelligence artificielle affublaient les images. Ici, ce ne sont pas seulement des étiquettes dont nous sommes affublés, mais d’innombrables données inférées. Pour chaque image, le système produit des informations sur le genre, l’origine ethnique, la localisation, la religion, le niveau de revenu, les émotions, l’affiliation politique, décrit les habits et les objets, pour en déduire des passe-temps… mais également des éléments de psychologie qui peuvent être utilisés par le marketing, ce qu’on appelle les insights, c’est-à-dire des éléments permettant de caractériser les attentes des consommateurs. Par exemple, sur une des images en démonstration sur le site représentant une famille, le système déduit que les gens priorisent l’esthétique, sont facilement influençables et valorisent la famille. Enfin, l’analyse associe des mots clefs publicitaires comme albums photos personnalisé, produits pour la peau, offre de voyage de luxe, système de sécurité domestique, etc. Ainsi que des marques, qui vont permettre à ces inférences d’être directement opérationnelles (et on peut se demander d’ailleurs, pourquoi certaines plutôt que d’autres, avec le risque que les marques associéées démultiplient les biais, selon leur célébrité ou leur caractère international, comme nous en discutions en évoquant l’optimisation de marques pour les modèles génératifs).

Autant d’inférences probables, possibles ou potentielles capables de produire un profil de données pour chaque image pour leur exploitation marketing.

Comme l’explique le philosophe Rob Horning, non seulement nos images servent à former des modèles de reconnaissance d’image qui intensifient la surveillance, mais chacune d’entre elles produit également des données marketing disponibles pour tous ceux qui souhaitent les acheter, des publicitaires aux agences de renseignement. Le site permet de voir comment des significations sont déduites de nos images. Nos photos, nos souvenirs, sont transformés en opportunités publicitaires, identitaires et consuméristes, façonnées par des logiques purement commerciales (comme Christo Buschek et Jer Thorp nous l’avaient montré de l’analyse des données de Laion 5B). L’inférence produit des opportunités, en ouvre certaines et en bloque d’autres, sur lesquelles nous n’avons pas la main. En nous montrant comment les systèmes interprètent nos images, nous avons un aperçu de ce que, pour les machines, les signifiants signifient.

Mais tout n’est pas parfaitement décodable et traduisible, transparent. Les inférences produites sont orientées : elles ne produisent pas un monde transparent, mais un monde translucide. Le site They see your photos nous montre que les images sont interprétées dans une perspective commerciale et autoritaire, et que les représentations qu’elles produisent supplantent la réalité qu’elles sont censées interpréter. Il nous permet de voir les biais d’interprétation et de nous situer dans ceux-ci ou de nous réidentifier sous leur répétition.

Nous ne sommes pas vraiment la description produite de chacune de ces images. Et pourtant, nous sommes exactement la personne au coeur de ces descriptions. Nous sommes ce que ces descriptions répètent, et en même temps, ce qui est répété ne nous correspond pas toujours ou pas du tout.

Exemples d’intégration d’images personnelles dans TheySeeYourPhotos qui montrent les données qui sont inférées de deux images. Et qui posent la question qui suis-je ? Gagne-je 40 ou 80 000 euros par mois ? Suis-je athée ou chrétien ? Est-ce que je lis des livres d’histoire ou des livres sur l’environnement ? Suis-je écolo ou centriste ? Est-ce que j’aime les chaussures Veja ou les produits L’Oréal ?

Un monde indifférent à la vérité

L’autre démonstration que permet le site, c’est de nous montrer l’évolution des inférences publicitaires automatisées. Ce que montre cet exemple, c’est que l’enjeu de régulation n’est pas de produire de meilleures inférences, mais bien de les contenir, de les réduire – de les faire disparaître voire de les rendre impossibles. Nous sommes désormais coincés dans des systèmes automatisés capables de produire de nous, sur nous, n’importe quoi, sans notre consentement, avec un niveau de détail et de granularité problématique.

Le problème n’est pas l’automatisation publicitaire que ce délire de profilage alimente, mais bien le délire de profilage automatisé qui a été mis en place. Le problème n’est pas la qualité des inférences produites, le fait qu’elles soient vraies ou fausses, mais bien le fait que des inférences soient produites. La prévalence des calculs imposent avec eux leur monde, disions-nous. Ces systèmes sont indifférents à la vérité, expliquait le philosophe Philippe Huneman dans Les sociétés du profilage (Payot, 2023). Ils ne produisent que leur propre renforcement. Les machines produisent leurs propres mèmes publicitaires. D’un portrait, on propose de me vendre du cognac ou des timbres de collection. Mais ce qu’on voit ici n’est pas seulement leurs défaillances que leurs hallucinations, c’est-à-dire leur capacité à produire n’importe quels effets. Nous sommes coincés dans un régime de facticité, comme le dit la philosophe Antoinette Rouvroy, qui finit par produire une vérité de ce qui est faux.

Où est le bouton à cocher pour refuser ce monde ?

Pourtant, l’enjeu n’est pas là. En regardant très concrètement les délires que ces systèmes produisent on se demande surtout comment arrêter ces machines qui ne mènent nulle part ! L’exemple permet de comprendre que l’enjeu n’est pas d’améliorer la transparence ou l’explicabilité des systèmes, ou de faire que ces systèmes soient plus fiables, mais bien de les refuser. Quand on comprend la manière dont une image peut-être interprétée, on comprend que le problème n’est pas ce qui est dit, mais le fait même qu’une interprétation puisse être faite. Peut-on encore espérer un monde où nos photos comme nos mots ne sont tout simplement pas interprétés par des machines ? Et ce alors que la grande interconnexion de celles-ci facilite ce type de production. Ce que nous dit « They see your photos », c’est que pour éviter ce délire, nous n’avons pas d’autres choix que d’augmenter considérablement la confidentialité et le chiffrement de nos échanges. C’est exactement ce que dit Vishnu Mohandas, le développeur de Ente.

Hubert Guillaud

MAJ du 25/03/2025 : Il reste une dernière inconnue dans les catégorisations problématiques que produisent ces outils : c’est que nous n’observons que leurs productions individuelles sur chacune des images que nous leurs soumettons… Mais nous ne voyons pas les catégorisations collectives problématiques qu’ils peuvent produire. Par exemple, combien de profils de femmes sont-ils catalogués comme « faible estime de soi » ? Combien d’hommes catégorisés « impulsifs » ? Combien d’images de personnes passées un certain âge sont-elles caractérisées avec des mots clés, comme « alcool » ? Y’a-t-il des récurrences de termes selon le genre, l’âge putatif, l’origine ou le niveau de revenu estimé ?… Pour le dire autrement, si les biais individuels semblent innombrables, qu’en est-il des biais démographiques, de genre, de classe… que ces outils produisent ? L’exemple permet de comprendre très bien que le problème des biais n’est pas qu’une problème de données et d’entraînement, mais bien de contrôle de ce qui est produit. Ce qui est tout de suite bien plus problématique encore…

Dans les algorithmes
Du démantèlement de l’Amérique
« Beaucoup d’entre nous sont consternés par le démantèlement sans précédent de l’État administratif américain. Licenciements massifs. Suppression de sites Web. Suppression des organismes de surveillance. Accès incontrôlé au Trésor public. Tout autour de moi, les gens essaient de relier ce qui se passe à des événements historiques. Est-ce du fascisme ? Une prise de contrôle hostile d’une entreprise ? Un coup d’État ? Les gens veulent un cadre pour comprendre ce qui se passe et pour affronter ce q

Du démantèlement de l’Amérique

Dans les algorithmes

Par : Hubert Guillaud

6 février 2025 à 07:00

« Beaucoup d’entre nous sont consternés par le démantèlement sans précédent de l’État administratif américain. Licenciements massifs. Suppression de sites Web. Suppression des organismes de surveillance. Accès incontrôlé au Trésor public. Tout autour de moi, les gens essaient de relier ce qui se passe à des événements historiques. Est-ce du fascisme ? Une prise de contrôle hostile d’une entreprise ? Un coup d’État ? Les gens veulent un cadre pour comprendre ce qui se passe et pour affronter ce qui va arriver. La plupart des gens que je connais ont également du mal à déterminer où ils peuvent agir », confie danah boyd sur son blog.

La politique est un jeu de Jenga, explique-t-elle. Les conservateurs retirent des pièces de la tour de bois de l’Etat providence, tandis que les libéraux ajoutent de nouvelles pièces au sommet. Mais dans les deux cas, les pressions s’accentuent. Et les fonctionnaires, eux, tentent de faire tenir l’édifice avec du scotch pour éviter qu’il ne s’écroule. Cette configuration est depuis longtemps inquiétante, mais elle nous fait croire que la démolition n’est pas si simple. Lorsque MySpace s’est effondré, rappelle la chercheuse, l’effondrement a été lent jusqu’à devenir explosif. Mais surtout, il est probable que les démocrates ne fassent pas grand-chose pour protéger les fonctionnaires, car ils détestent tout autant l’Etat administratif que les Républicains. Reste que le fait que l’administration Trump ait désormais accès aux systèmes centraux de l’État administratif est très inquiétant. La destruction est désormais un jeu ouvert à ceux qui veulent jouer, et la source de leur pouvoir. « La guerre, la politique et les marchés financiers sont souvent considérés comme des jeux qui attirent toutes sortes de comportements problématiques. L’idée même d’une société est de créer des règles et des garde-fous, des freins et des contrepoids. Mais la logique du jeu a toujours consisté à repousser ces limites, à exploiter les failles et à trouver les passages secrets. Pendant des décennies, nous avons lutté pour contenir les fauteurs de guerre, les politiciens corrompus et les escrocs fraudeurs, même si nous avons eu un succès mitigé. Mais cette équipe de joueurs joue un jeu différent. Nous allons donc avoir besoin d’une toute nouvelle stratégie pour contenir leurs tendances destructrices ». Même constat, accablé, pour Henry Farrell : « Nous assistons à la mise en œuvre du rêve de puissance de la Silicon Valley dans la vie réelle ». Même chez Twitter, rappelle-t-il, Musk a généré beaucoup de destruction et bien peu de création.

L’accès aux systèmes est désormais la clef du pouvoir

La question de savoir si l’accès aux systèmes informatiques relève d’un coup d’Etat, n’est pas qu’une question théorique. Comme en 2016, nombre de sites ont été débranchés, de données ont été supprimées, rapporte Next, notamment des données relatives à la santé, à l’environnement et à la recherche. Le Département de l’efficacité gouvernementale (Doge) a également mis la main sur le système de paiement fédéral et la base de données des agents, ainsi que sur l’agence chargé de la maintenance de l’infrastructure informatique du gouvernement américain, explique encore Martin Clavey dans un autre article de Next. Pour Charlie Warzel de The Atlantic, le démantèlement est très rapide au risque de supprimer des maillons clés de la chaîne bureaucratique qui font fonctionner l’Etat. Cela risque surtout de déclencher beaucoup de contestations judiciaires et de désordres politiques. Mais il n’est pas sûr que ces données là soient dans les indicateurs de réussite du Doge !

Pour Mike Masnick de TechDirt, « un simple citoyen sans aucune autorité constitutionnelle prend effectivement le contrôle de fonctions gouvernementales essentielles ». Et ce alors que la Constitution américaine exige explicitement la confirmation du Sénat pour toute personne exerçant un pouvoir fédéral important – « une exigence que Musk a tout simplement ignorée en installant ses fidèles dans tout le gouvernement tout en exigeant l’accès à pratiquement tous les leviers du pouvoir et en repoussant quiconque se met en travers de son chemin ». Comme l’explique l’article très détaillé de Wired sur la prise de pouvoir des hommes de main de Musk, alors que, normalement, l’accès aux systèmes des agences nécessite que les personnes soient employés par ces agences. Or, en accédant aux systèmes de l’administration générale, c’est l’accès à toutes les données qui est désormais ouvert au plus grand mépris des règlements, procédures et des lois. « Les systèmes de paiement du Trésor, gérés par le Bureau des services fiscaux, contrôlent le flux de plus de 6 000 milliards de dollars par an vers les ménages, les entreprises et plus encore à l’échelle nationale. Des dizaines, voire des centaines de millions de personnes à travers le pays dépendent de ces systèmes, qui sont responsables de la distribution des prestations de sécurité sociale et d’assurance-maladie, des salaires du personnel fédéral, des paiements aux entrepreneurs et aux bénéficiaires de subventions du gouvernement et des remboursements d’impôts, entre des dizaines de milliers d’autres fonctions ». « Nous n’avons aucune visibilité sur ce qu’ils font avec les systèmes informatiques et de données », a déclaré un responsable à Reuters. Un juge a du empêcher l’administration Musk/Trump de mettre à exécution sa tentative d’arrêter de dépenser l’argent alloué par le Congrès, rappelant que la loi fédérale précise comment l’exécutif doit agir s’il estime que les crédits budgétaires ne sont pas conformes aux priorités du président : « il doit demander au Congrès de l’approuver, et non agir unilatéralement ». Musk n’est pas le propriétaire du gouvernement américain. Il n’a pas été élu. Pas même nommé officiellement. « Nous allons vite nous retrouver à regretter l’époque où Musk ne faisait que détruire des réseaux sociaux au lieu des mécanismes de base de la démocratie ».

Pour le financier libéral Mike Brock, ce qui est en train de se passer aux Etats-Unis tient du coup d’Etat, explique-t-il dans plusieurs billets de sa newsletter. Elon Musk a pris le contrôle des systèmes de paiement du Trésor tandis que les responsables de la sécurité qui suivaient les protocoles étaient mis à la porte. Derrière le moto de « l’efficacité gouvernementale » se cache une prise de contrôle inédite, explique-t-il. Elon Musk a fermé l’USAID, l’agence pour le développement international, et la suspension des programmes a déjà des conséquences très immédiates, alors que cette agence a été créée par une loi adoptée par le Congrès qui n’a pas été abrogée. C’est une attaque contre le principe même de la loi, rappelle-t-il. « Si nous acceptons que le président puisse unilatéralement fermer des agences établies par le Congrès, alors le pouvoir du Congrès de créer des agences perd tout son sens. Si l’autorité exécutive peut outrepasser des mandats statutaires clairs, alors tout notre système de freins et contrepoids s’effondre. » Le risque, c’est le « démantèlement de l’ordre constitutionnel lui-même ». Même chose quand le DOGE obtient l’accès aux systèmes de paiement sans autorisation. Le message n’est pas subtil et terriblement confus : « respecter la loi est désormais considéré comme un acte de résistance ». « Lorsque Trump menace le Panama au sujet du canal, lorsqu’il impose des tarifs douaniers illégaux au Canada et au Mexique, il ne viole pas seulement les accords internationaux : il nous demande d’accepter que la parole de l’Amérique ne signifie rien. »

« Cet assaut systématique contre la réalité sert un objectif clair : lorsque les gens ne peuvent plus faire confiance à leur propre compréhension du droit et de la vérité, la résistance devient presque impossible. Si nous acceptons que l’USAID puisse être fermée malgré une autorité statutaire claire, que des fonctionnaires puissent être licenciés pour avoir respecté la loi, que des citoyens privés puissent prendre le contrôle des systèmes gouvernementaux, nous avons déjà abandonné le cadre conceptuel qui rend possible la gouvernance constitutionnelle. »

« L’effet le plus insidieux de la distorsion de la réalité est la paralysie de la réponse démocratique. »

« Une résistance efficace à l’effondrement démocratique nécessite trois éléments clés », conclut Brock : « la clarté sur ce qui se passe, le courage de le nommer et une action coordonnée pour l’arrêter ». « Lorsque nous voyons des responsables de la sécurité renvoyés pour avoir protégé des informations classifiées à l’USAID, nous devons appeler cela par son nom : une punition pour avoir respecter la loi. Lorsque nous voyons Musk prendre le contrôle des systèmes du Trésor sans autorisation, nous devons le dire clairement : c’est une saisie illégale de fonctions gouvernementales. Lorsque Trump déclare qu’il n’appliquera pas les lois qu’il n’aime pas, nous devons l’identifier précisément : c’est une violation de son devoir constitutionnel d’exécuter fidèlement les lois. » Et Brock d’inviter les Américains à faire pression sur le Congrès et notamment sur les élus républicains pour le respect de l’Etat de droit. Ce sont les représentants du peuple qui en sont responsables.

En attendant, d’autres décisions judiciaires sont attendues sur ces transformations profondes du fonctionnement de feu, la démocratie américaine. Mais il n’est pas sûr que la justice, seule, suffise à rétablir le droit.

En tout cas, ce qu’il se passe de l’autre côté de l’Atlantique devrait nous inviter à réfléchir sur la protection constitutionnelle des accès aux systèmes. Car au XXIe siècle, le démantèlement de l’Etat de droit consiste désormais à prendre le contrôle des autorisations d’un serveur.

Hubert Guillaud

MAJ du 6/02/2025 : Comme le dit très bien Brian Marchant, les premières décisions du Doge, nous permettent de voir « la logique de l’automatisation » à venir : le contrôle. « Nous voyons ainsi moins d’informations disponibles pour le monde, moins d’options disponibles pour les humains qui travaillent à les fournir, moins d’humains, point final, pour contester ceux qui sont au pouvoir, car ce pouvoir se concentre entre leurs mains ». Tel est le but de l’automatisation du gouvernement fédéral. Doge va droit au but : « il ne s’agit pas d’améliorer la vie professionnelle de qui que ce soit ».

Dans les algorithmes
Vers un internet plein de vide ?
Sur la plupart des réseaux sociaux vous avez déjà du tomber sur ces contenus génératifs, pas nécessairement des choses très évoluées, mais des contenus étranges, qui n’ont rien à dire, qui hésitent entre développement personnel creux, blague ratée ou contenu sexy. Des vidéos qui ânonnent des textes qui ne veulent rien dire. Les spécialistes parlent de slop, de contenus de remplissages, de résidus qui peu à peu envahissent les plateformes dans l’espoir de générer des revenus. A l’image des conten

Vers un internet plein de vide ?

Dans les algorithmes

Par : Hubert Guillaud

13 janvier 2025 à 07:00

Sur la plupart des réseaux sociaux vous avez déjà du tomber sur ces contenus génératifs, pas nécessairement des choses très évoluées, mais des contenus étranges, qui n’ont rien à dire, qui hésitent entre développement personnel creux, blague ratée ou contenu sexy. Des vidéos qui ânonnent des textes qui ne veulent rien dire. Les spécialistes parlent de slop, de contenus de remplissages, de résidus qui peu à peu envahissent les plateformes dans l’espoir de générer des revenus. A l’image des contenus philosophiques générés par l’IA que décortique en vidéo Monsieur Phi.

IA slop : de la publicité générative à l’internet zombie

Pour l’instant, ces contenus semblent anecdotiques, peu vus et peu visibles, hormis quand l’un d’entre eux perce quelque part, et en entraîne d’autres dans son flux de recommandation, selon la logique autophagique des systèmes de recommandation. Pour l’analyste Ben Thompson, l’IA générative est un parfait moteur pour produire de la publicité – et ces slops sont-ils autre chose que des contenus à la recherche de revenus ? Comme le dit le philosophe Rob Horning : « le rêve de longue date d’une quantité infinie de publicités inondant le monde n’a jamais semblé aussi proche ». Pour Jason Koebler de 404 Media, qui a enquêté toute l’année sur l’origine de ce spam IA, celui-ci est profondément relié au modèle économique des réseaux sociaux qui rémunèrent selon l’audience que les créateurs réalisent, ce qui motive d’innombrables utilisateurs à chercher à en tirer profit. Koebler parle d’ailleurs d’internet zombie pour qualifier autant cette génération de contenu automatisée que les engagements tout aussi automatisés qu’elle génère. Désormais, ce ne sont d’ailleurs plus les contenus qui sont colonisés par ce spam, que les influenceurs eux-mêmes, notamment par le biais de mannequins en maillots de bains générés par l’IA. A terme, s’inquiète Koebler, les médias sociaux pourraient ne plus rien avoir de sociaux et devenir des espaces « où le contenu généré par l’IA éclipse celui des humains », d’autant que la visibilité de ces comptes se fait au détriment de ceux pilotés par des humains. Des sortes de régies publicitaires sous stéroïdes. Comme l’explique une créatrice de contenus adultes dont l’audience a chuté depuis l’explosion des mannequins artificiels : « je suis en concurrence avec quelque chose qui n’est pas naturel ».

Ces contenus qui sont en train de coloniser les réseaux sociaux n’ont pas l’air d’inquiéter les barons de la tech, pointait très récemment Koebler en rapportant les propose de Mark Zuckerberg. D’autant que ces contenus génératifs semblent produire ce qu’on attend d’eux. Meta a annoncé une augmentation de 8 % du temps passé sur Facebook et de 6 % du temps passé sur Instagram grâce aux contenus génératifs. 15 millions de publicités par mois sur les plateformes Meta utilisent déjà l’IA générative. Et Meta prévoit des outils pour démultiplier les utilisateurs synthétiques. Le slop a également envahi la plateforme de blogs Medium, explique Wired, mais ces contenus pour l’instant demeurent assez invisibles, notamment parce que la plateforme parvient à limiter leur portée. Un endiguement qui pourrait ne pas résister au temps. A terme, les contenus produits par les humains pourraient devenir de plus en plus difficile à trouver sur des plateformes submergées par l’IA.

On voudrait croire que les réseaux sociaux puissent finir par s’effondrer du désintérêt que ces contenus démultiplient. Il semble que ce soit l’inverse, l’internet zombie est en plein boom. Tant et si bien qu’on peut se demander, un an après le constat de l’effondrement de l’information, si nous ne sommes pas en train de voir apparaître l’effondrement de tout le reste ?

Les enjeux du remplissage par le vide

Dans sa newsletter personnelle, le chercheur et artiste Eryk Salvaggio revient à son tour sur le remplissage par l’IA, dans trois longs billets en tout point passionnants. Il souligne d’abord que ce remplissage sait parfaitement s’adapter aux algorithmes des médias sociaux. Sur Linked-in, les contenus rédigés par des LLM seraient déjà majoritaires. Même le moteur de recherche de Google valorise déjà les images et les textes générés par IA. Pour Salvaggio, avec l’IA générative toute information devient du bruit. Mais surtout, en se jouant parfaitement des filtres algorithmiques, celle-ci se révèle parfaitement efficace pour nous submerger.

Jesus Schrimp, image symbolique des eaux troubles de l’IA produisant son propre vide.

Salvaggio propose d’abandonner l’idée de définir l’IA comme une technologie. Elle est devenue un projet idéologique, c’est-à-dire que « c’est une façon d’imaginer le monde qui devient un raccourci pour expliquer le monde ». Et elle est d’autant plus idéologique selon les endroits où elle se déploie, notamment quand c’est pour gérer des questions sociales ou culturelles. « L’optimisation de la capacité d’un système à affirmer son autorité est une promesse utopique brillante des technologies d’automatisation ». « L’un des aspects de l’IA en tant qu’idéologie est donc la stérilisation scientifique de la variété et de l’imprévisibilité au nom de comportements fiables et prévisibles. L’IA, pour cette raison, offre peu et nuit beaucoup au dynamisme des systèmes socioculturels ». Les gens participent à l’idéologie de l’IA en évangélisant ses produits, en diffusant ses résultats et en soutenant ses avancées pour s’identifier au groupe dominant qui l’a produit.

La production par l’IA de contenus de remplissage nécessite de se demander à qui profite ce remplissage abscons ? Pour Salvaggio, le remplissage est un symptôme qui émerge de l’infrastructure même de l’IA qui est elle-même le résultat de l’idéologie de l’IA. Pourquoi les médias algorithmiques récompensent-ils la circulation de ces contenus ? Des productions sensibles, virales, qui jouent de l’émotion sans égard pour la vérité. Les productions de remplissage permettent de produire un monde tel qu’il est imaginé. Elles permettent de contourner tout désir de comprendre le monde car elle nous offre la satisfaction immédiate d’avoir un « sentiment sur le monde ». « L’AI Slop est un signal vide et consommé passivement, un symptôme de « l’ère du bruit », dans lequel il y a tellement de « vérité » provenant de tant de positions que l’évaluation de la réalité semble sans espoir. »

Notre désorientation par le vide

Eryk Salvaggio se demande même si le but de l’IA n’est pas justement de produire ce remplissage. Un remplissage « équipé », « armé », qui permet d’essaimer quelque chose qui le dépasse, comme quand l’IA est utilisée pour inonder les réseaux de contenus sexuels pour mieux essaimer le regard masculin. Les productions de l’IA permettent de produire une perspective, un « regard en essaim » qui permet de manipuler les symboles, de les détourner. « Les images générées par l’IA offrent le pouvoir de façonner le sens dans un monde où les gens craignent l’impuissance et l’absence de sens en les invitant à rendre les autres aussi impuissants et dénués de sens qu’eux ». Ces images « diminuent la valeur de la réalité », suggère brillamment Salvaggio. Elles créent « une esthétisation », c’est-à-dire rend la représentation conforme à un idéal. La fonction politique de ce remplissage va bien au-delà des seules représentations et des symboles, suggère-t-il encore. L’IA appliquée aux services gouvernementaux, comme les services sociaux, les transforme à leur tour « en exercice esthétique ». Notre éligibilité à une assurance maladie ou à une couverture sociale n’est pas différente de l’IA Slop. C’est cette même infrastructure vide de sens qui est pointée du doigt par ceux qui s’opposent à l’algorithmisation de l’Etat que ceux qui fuient les boucles de rétroactions délétères des médias sociaux.

Le projet DOGE d’Elon Musk, ce département de l’efficacité gouvernementale qui devrait proposer un tableau de bord permettant aux internautes de voter pour éliminer les dépenses publiques les plus inutiles, semble lui-même une forme de fusion de médias sociaux, d’idéologie de l’IA et de pouvoir pour exploiter le regard en essaim de la population et le diriger pour harceler les fonctionnaires, réduire l’État providence autour d’une acception de l’efficacité ultra-réductrice. Au final, cela produit une forme de politique qui traite le gouvernement comme une interface de médias sociaux, conçue pour amplifier l’indignation, intimider ceux qui ne sont pas d’accord et rendre tout dialogue constructif impossible. Bienvenue à la « momusocratie« , le gouvernement des trolls, de la raillerie, explique Salvaggio, cette Tyrannie des bouffons chère à l’essayiste Christian Salmon.

Mais encore, défend Salvaggio, le déversement de contenus produit par l’IA générative promet un épuisement du public par une pollution informationnelle sans précédent, permettant de perturber les canaux d’organisation, de réflexion et de connexion. « Contrôlez le filtre permet de l’orienter dans le sens que vous voulez ». Mais plus que lui donner un sens, la pollution de l’information permet de la saturer pour mieux désorienter tout le monde. Cette saturation est un excellent moyen de garantir « qu’aucun consensus, aucun compromis, ou simplement aucune compréhension mutuelle ne se produise ». Cette saturation ne vise rien d’autre que de promouvoir « la division par l’épuisement ». « Le remplissage est un pouvoir ».

« L’idéologie de l’IA fonctionne comme une croyance apolitique trompeuse selon laquelle les algorithmes sont une solution à la politique » qui suppose que les calculs peuvent prendre les décisions au profit de tous alors que leurs décisions ne sont qu’au profit de certains, en filtrant les données, les idées, les gens qui contredisent les résultats attendus. Alors que l’élection de Trump éloigne les enjeux de transparence et de régulation, l’IA va surtout permettre de renforcer l’opacité qui lui assure sa domination.

Vers un monde sans intérêt en boucle sur lui-même

Dans la dernière partie de sa réflexion, Salvaggio estime que le remplissage est un symptôme, mais qui va produire des effets très concrets, des « expériences désintéressées », c’est-à-dire des « expériences sans intérêt et incapables de s’intéresser à quoi que ce soit ». C’est le rêve de machines rationnelles et impartiales, omniscientes, désintéressées et qui justement ne sont capables de s’intéresser à rien. Un monde où l’on confie les enfants à des tuteurs virtuels par soucis d’efficacité, sans être capable de comprendre tout ce que cette absence d’humanité charrie de délétère.

L’IA s’est construite sur l’excès d’information… dans le but d’en produire encore davantage. Les médias sociaux ayant été une grande source de données pour l’IA, on comprend que les contenus de remplissage de l’IA soient optimisés pour ceux-ci. « Entraînée sur du contenu viral, l’IA produit du contenu qui coche toutes les cases pour l’amplification. Le slop de l’IA est donc le reflet de ce que voient nos filtres de médias sociaux. Et lorsque les algorithmes des médias sociaux en reçoivent les résultats, il les reconnaît comme plus susceptibles de stimuler l’engagement et les renforce vers vers les flux (générant plus d’engagement encore). » Dans le tonneaux des Danaïdes de l’amplification, l’IA slop est le fluidifiant ultime, le contenu absurde qui fait tourner la machine sans fin.

Combattre ce remplissage par l’IA n’est une priorité ni pour les entreprises d’IA qui y trouvent des débouchés, ni pour les entreprises de médias sociaux, puisqu’il ne leur porte aucun préjudice. « Les contenus de remplissage de l’IA sont en fait la manifestation esthétique de la culture à médiation algorithmique » : « ils sont stylisés à travers plus d’une décennie d’algorithmes d’optimisation qui apprennent ce qui pousse les gens à s’engager ».

Face à ces contenus « optimisés pour performer », les artistes comme les individus qui ont tenté de partager leur travail sur les plateformes sociales ces dernières années ne peuvent pas entrer en concurrence. Ceux qui ont essayé s’y sont vite épuisés, puisqu’il faut tenir d’abord le rythme de publication infernal et infatigable que ces systèmes sont capables de produire.

Dépouiller les symboles de leur relation à la réalité

« Les images générées par l’IA peuvent être interprétées comme de l’art populaire pour servir le populisme de l’IA ». Elles visent à « dépouiller les symboles de leur relation à la réalité » pour les réorganiser librement. Les gens ne connaissent pas les films mais ont vu les mèmes. Le résultat de ces images est souvent critiqué comme étant sans âme. Et en effet, le texte et les images générés par l’IA souffrent de l’absence du poids du réel, dû à l’absence de logique qui préside à leur production.

« L’ère de l’information est arrivée à son terme, et avec elle vient la fin de toute définition « objective » et « neutre » possible de la « vérité ». » L’esthétique du remplissage par l’IA n’est pas aléatoire, mais stochastique, c’est-à-dire qu’elle repose sur une variété infinie limitée par un ensemble de règles étroites et cohérentes. Cela limite notre capacité à découvrir ou à inventer de nouvelles formes de culture, puisque celle-ci est d’abord invitée à se reproduire sans cesse, à se moyenniser, à s’imiter elle-même. Les images comme les textes de l’IA reflètent le pouvoir de systèmes que nous avons encore du mal à percevoir. Ils produisent des formes de vérités universalisées, moyennisées qui nous y enferment. Comme dans une forme d’exploitation sans fin de nos représentations, alors qu’on voudrait pouvoir en sortir, comme l’expliquait dans une note pour la fondation Jean Jaurès, Melkom Boghossian, en cherchant à comprendre en quoi les algorithmes accentuent les clivages de genre. Comme s’il devenait impossible de se libérer des contraintes de genres à mesure que nos outils les exploitent et les renforcent. Cet internet de contenus absurde n’est pas vide, il est plein de sens qui nous échappent et nous y engluent. Il est plein d’un monde saturé de lui-même.

A mesure que l’IA étend son emprise sur la toile, on se demande s’il restera encore des endroits où nous en serons préservés, où nous pourrons être mis en relation avec d’autres humains, sans que tout ce qui encode les systèmes ne nous déforment.

Du remplissage à la fin de la connaissance

Dans une tribune pour PubliBooks, la sociologue Janet Vertesi estime que les recherches en ligne sont devenues tellement chaotiques et irrationnelles, qu’elle a désormais recours aux dictionnaires et encyclopédies papier. « Google qui a fait fortune en nous aidant à nous frayer un chemin sur Internet se noie désormais dans ses propres absurdités générées par elle-même ». Nous voici confrontés à un problème d’épistémologie, c’est-à-dire de connaissance, pour savoir ce qui est réel et ce qui ne l’est pas. Au XXe siècle, les philosophes ont définis la connaissance comme une croyance vraie justifiée. La méthode scientifique était le moyen pour distinguer la bonne science de la mauvaise, la vérité du mensonge. Mais cette approche suppose souvent qu’il n’y aurait qu’une seule bonne réponse que nous pourrions connaître si nous adoptons les bonnes méthodes et les bons outils. C’est oublier pourtant que la connaissance ne sont pas toujours indépendantes de l’expérience. Ludwig Wittgenstein a utilisé la figure du canard-lapin pour montrer comment des personnes rationnelles pouvaient en venir à avoir des points de vue irréconciliablement différents sur une même réalité. Les épistémologues se sont appuyés sur cette idée pour montrer que les personnes, selon leurs positions sociales, ont des expériences différentes de la réalité et que la connaissance objective ne pouvait naître que de la cartographie de ces multiples positions. Les sociologues de la connaissance, eux, examinent comment différents groupes sociaux en viennent à légitimer différentes manières de comprendre, souvent à l’exclusion des autres. Cela permet de comprendre comment différents faits sociaux circulent, s’affrontent ou se font concurrence, et pourquoi, dans les luttes pour la vérité, ceux qui détiennent le pouvoir l’emportent si souvent… Imposant leur vérités sur les autres.

Mais ces questions ne faisaient pas partie des préoccupations de ceux qui ont construit internet, ni des systèmes d’IA générative qui s’en nourrissent. Depuis l’origine, internet traite toutes les informations de manière égale. Le réseau ne consiste qu’à acheminer des paquets d’informations parfaitement égaux entre eux, rappelle la sociologue. A cette neutralité de l’information s’est ajoutée une autre métaphore : celle du marché des idées, où chaque idée se dispute à égalité notre attention. Comme dans le mythe du libre marché, on a pu penser naïvement que les meilleures idées l’emporteraient. Mais ce régime épistémique a surtout été le reflet des croyances de l’Amérique contemporaine : un système de connaissance gouverné par une main invisible du marché et entretenue par des conservateurs pour leur permettre de générer une marge bénéficiaire.

« Pourtant, la connaissance n’est pas une marchandise. La « croyance vraie justifiée » ne résulte pas non plus d’une fonction d’optimisation. La connaissance peut être affinée par le questionnement ou la falsification, mais elle ne s’améliore pas en entrant en compétition avec la non-connaissance intentionnelle. Au contraire, face à la non-connaissance, la connaissance perd. » L’interrogation du monde par des mécanismes organisés, méthodiques et significatifs – comme la méthode scientifique – peut également tomber dans le piège des modes de connaissance fantômes et des impostures méthodologiques. « Lorsque toute information est plate – technologiquement et épistémologiquement – il n’y a aucun moyen d’interroger sa profondeur, ses contours ou leur absence ». En fait, « au lieu d’être organisé autour de l’information, l’Internet contemporain est organisé autour du contenu : des paquets échangeables, non pondérés par la véracité de leur substance. Contrairement à la connaissance, tout contenu est plat. Aucun n’est plus ou moins justifié pour déterminer la vraie croyance. Rien de tout cela, au fond, n’est de l’information. »

« En conséquence, nos vies sont consumées par la consommation de contenu, mais nous ne reconnaissons plus la vérité lorsque nous la voyons. Et lorsque nous ne savons pas comment peser différentes vérités, ou coordonner différentes expériences du monde réel pour regarder derrière le voile, il y a soit une cacophonie, soit un seul vainqueur : la voix la plus forte qui l’emporte. »

Contrairement à Wikipédia, encore relativement organisé, le reste du Web est devenu la proie de l’optimisation des moteurs de recherche, des technologies de classement et de l’amplification algorithmique, qui n’ont fait que promouvoir le plus promouvable, le plus rentable, le plus scandaleux. « Mais aucun de ces superlatifs n’est synonyme de connaissance ». Les systèmes qui nous fournissent nos informations ne peuvent ni mesurer ni optimiser ce qui est vrai. Ils ne s’intéressent qu’à ce sur quoi nous cliquons. Et le clou dans le cercueil est enfoncé par l’intelligence artificielle qui « inonde Internet de contenu automatisé plus rapidement que l’on ne peut licencier une rédaction ». Dans ce paysage sous stéroïdes, aucun système n’est capable de distinguer la désinformation de l’information. Les deux sont réduits à des paquets de même poids cherchant leur optimisation sur le marché libre des idées. Et les deux sont ingérés par une grande machinerie statistique qui ne pèse que notre incapacité à les distinguer.

Aucun système fondé sur ces hypothèses ne peut espérer distinguer la « désinformation » de « l’information » : les deux sont réduites à des paquets de contenu de même valeur, cherchant simplement une fonction d’optimisation dans un marché libre des idées. Et les deux sont également ingérées dans une grande machinerie statistique, qui ne pèse que notre incapacité à les discerner. Le résultat ne promet rien d’autre qu’un torrent indistinct et sans fin, « où la connaissance n’a jamais été un facteur et d’où la connaissance ne peut donc jamais émerger légitimement ». « Sans topologie de l’information, nous sommes à la dérive dans le contenu, essayant en vain de naviguer dans une cascade d’absurdités sans boussole ».

« Il est grand temps de revenir à ces méthodes et à ces questions, aux milliers d’années de gestion de l’information et d’échange de connaissances qui ont transmis non seulement des faits ou du contenu, mais aussi une appréciation de ce qu’il faut pour faire émerger des vérités », plaide Vertesi. « Il n’est pas nécessaire que ce soit un projet colonial ou réductionniste. Les connaissances d’aujourd’hui sont plurielles, distribuées, issues de nombreux lieux et peuples, chacun avec des méthodes et des forces d’ancrage uniques. Cela ne signifie pas non plus que tout est permis. Le défi consiste à s’écouter les uns les autres et à intégrer des perspectives conflictuelles avec grâce et attention, et non à crier plus fort que les autres ».

« Alors que nos vies sont de plus en plus infectées par des systèmes d’IA maladroits et pilleurs et leurs flux hallucinatoires, nous devons apprendre à évaluer plutôt qu’à accepter, à synthétiser plutôt qu’à résumer, à apprécier plutôt qu’à accepter, à considérer plutôt qu’à consommer ».

« Notre paysage technologique contemporain exige de toute urgence que nous revenions à une autre des plus anciennes questions de toutes : « Qu’est-ce qui est vraiment réel ? » »

Dans les algorithmes
Est-ce que la complexité des calculs les améliore ?
Malgré leurs promesses, les calculs, notamment quand ils s’appliquent au social, sont très souvent défaillants. Pour remédier à leurs limites, l’enjeu est d’accéder à toujours plus de données pour les affiner. La promesse est répétée ad nauseam : c’est en accédant à toujours plus de données que nous améliorerons les calculs ! Un mantra dont il est toujours très difficile de démontrer les limites. En 2017, le programme d’études conjoint de Princeton et de Columbia sur l’avenir des familles et

Est-ce que la complexité des calculs les améliore ?

Dans les algorithmes

Par : Hubert Guillaud

8 octobre 2024 à 07:30

Malgré leurs promesses, les calculs, notamment quand ils s’appliquent au social, sont très souvent défaillants. Pour remédier à leurs limites, l’enjeu est d’accéder à toujours plus de données pour les affiner. La promesse est répétée ad nauseam : c’est en accédant à toujours plus de données que nous améliorerons les calculs ! Un mantra dont il est toujours très difficile de démontrer les limites.

En 2017, le programme d’études conjoint de Princeton et de Columbia sur l’avenir des familles et le bien être des enfants a donné accès à un immense jeu de données de grande qualité sur des centaines d’enfants et leurs familles, invitant plus de 450 chercheurs et 160 équipes de recherches à les utiliser dans le cadre d’un défi de data science visant à améliorer la prévisibilité des trajectoires de vies. Le jeu de données portait sur plus de 4000 familles avec plus de 12 000 variables par familles centrées sur des enfants de la naissance à leurs 9 ans, expliquent les chercheurs (par exemple des données démographiques, des données sur le territoire, sur la santé ou l’évolution professionnelle des parents, sur le comportement, avec des tests cognitifs et de vocabulaire réalisés à intervalles réguliers…).

Pour la moitié des familles, les chercheurs ont également donné accès aux données relatives à ces enfants et familles à l’âge de 15 ans afin que les chercheurs puissent prédire des résultats sur l’évolution sociale de l’autre moitié des familles. Un jeu d’entraînement rare et particulièrement riche qui avait pour ambition de permettre d’améliorer l’exactitude des prédictions sociales. Le défi consistait à prédire les résultats scolaires des enfants, évaluer leurs capacités psychologiques à la persévérance dans l’effort, prédire les difficultés matérielles des familles comme les risques de licenciement ou d’expulsion ainsi que le niveau de formation professionnelle des parents.

Pourtant, aucun des 160 résultats proposés par quelques-uns des meilleurs laboratoires de recherche du monde n’a été particulièrement performant. Aucune solution﹣malgré la diversité des techniques de machine learning utilisées ﹣ n’a permis de produire des prédictions fiables, rapportent les organisateurs dans le bilan de ce défi.

Les scientifiques ont également comparé les modèles issus du machine learning et les modèles prédictifs traditionnels qui n’utilisent que 4 variables pour produire des prédictions (à savoir en utilisant seulement l’origine éthnique de la mère, le statut marital des parents à la naissance, leur niveau d’éducation et un résultat de l’enfant à 9 ans). Les chercheurs ont montré que les modèles prédictifs traditionnels faisaient d’aussi bonnes prédictions voire de meilleures que les modèles plus élaborés reposant sur le machine learning﹣même si, les uns comme les autres se révèlent très mauvais à prédire le futur.

Image : De la difficulté à prédire. En bleu, les résultats de prédiction des meilleures méthodes de machine learning sur les différents éléments à prédire depuis les 12 000 variables disponibles dans le cadre du défi des familles fragiles. En vert, les résultats obtenus depuis de simples et traditionnelles régressions linéaires depuis seulement 4 variables, dans les mêmes domaines, à savoir (de gauche à droite) celle des difficultés matérielles, la moyenne scolaire (GPA, Grade point average), la persévérance (Grit), le risque d’expulsion (eviction), la formation professionnelle et le risque de licenciement. *Via la présentation d’Arvind Narayanan*. Le graphique montre que les prédictions du social sont difficiles et que les meilleures techniques de machine learning ne les améliorent pas vraiment puisqu’elles ne font pas significativement mieux que des calculs plus simples.

Ces résultats devraient nous interroger profondément. A l’heure où les data scientists ne cessent d’exiger plus de données pour toujours améliorer leurs prédictions, cette étude nous rappelle que plus de données n’est pas toujours utile. Que l’amélioration est trop souvent marginale pour ne pas dire anecdotique. Pire, la complexité qu’introduit l’IA dans les calculs rend les résultats très difficiles à expliquer, à reproduire, à vérifier… alors que les méthodes traditionnelles﹣comme la régression statistique qui permet d’identifier les variables qui ont un impact ﹣, elles, n’utilisent que peu de données, sont compréhensibles, vérifiables et opposables… sans compter qu’elles permettent d’éviter d’accumuler des données problématiques dans les calculs. Collecter peu de données cause moins de problèmes de vie privée, moins de problèmes légaux comme éthiques… et moins de discriminations, explique le chercheur Arvind Narayanan dans une de ses excellentes présentations, où il dénonce les défaillances majeures et durables de l’IA à prédire le social.

Dans le livre que le chercheur signe avec son collègue Sayash Kapoor, AI Snake Oil (Princeton University Press, 2024, non traduit), ils montrent à plusieurs reprises que la complexification des calculs ne les améliore pas toujours ou alors de manière bien trop marginale par rapport à la chape d’opacité que la complexité introduit. Nous n’avons pas besoin de meilleurs calculs (pour autant que leur complexification les améliore) que de calculs qui puissent être redevables, opposables et compréhensibles, rappellent-ils.

Le problème, c’est que le marketing de la technique nous invite massivement à croire le contraire. Trop souvent, nous privilégions une débauche de calculs, là où des calculs simples fonctionnent aussi bien, simplement parce qu’il y a un fort intérêt commercial à vendre des produits de calculs complexes. A l’ère du calcul, tout l’enjeu est de vendre plus de calculs et de nous faire croire qu’ils fonctionnent mieux.

Qu’est-ce que la complexité améliore ? Est-ce que cette amélioration est suffisante ou signifiante pour en valoir le coup ? A l’avantage de qui et au détriment de qui ? Est-ce que cette complexité est nécessaire ?… sont d’autres formes de cette même question que nous ne posons pas suffisamment. Ajouter de la complexité crée de l’opacité et renforce l’asymétrie de pouvoir. Et nous fait oublier que la simplicité des calculs les améliore certainement bien plus que leur complexification.

Hubert Guillaud

PS : 4 ans plus tard, le sociologue Ian Lundberg, responsable du défi de data science sur les trajectoires de vie des enfants, publie une étude pour comprendre pourquoi l’avenir des enfants est si imprévisible, rapporte Nautilus. Les lacunes de la prédiction ne résulteraient pas d’un manque de données mais plutôt de limites fondamentales de notre capacité à prédire les complexités de la vie, du fait notamment d’événements inattendus ainsi que d’erreurs d’apprentissages : quand il y a trop de variables, les algorithmes ont du mal à déceler le bon modèle. C’est là un problème irréductible de la complexité ! Enfin, soulignent les chercheurs, la recherche qualitative fournit des informations qu’il reste très difficile de traduire en chiffres. Les résultats ne s’amélioreront pas avec plus de données ou de calcul : « Les résultats sociaux sont imprévisibles et complexes. Et nous devons simplement faire la paix avec cette imprévisibilité ».

Dans les algorithmes
Mais qui décide de comment on compte ?
Pas plus qu’il n’y a de données neutres, il n’y a de calculs neutres. Ce que l’on compte et comment on le compte est primordial. Et les différentes façons de compter que l’on peut convoquer imposent avec elles leurs idéologies. Un bon exemple nous est donné avec les discussions autour de la méthode de répartition des revenus du streaming musical. Longtemps, la règle de répartition est restée simple, « centrée sur le marché » (market centric), comme l’expliquait le journaliste Justin Delépine

Mais qui décide de comment on compte ?

Dans les algorithmes

Par : Hubert Guillaud

9 juillet 2024 à 12:15

Pas plus qu’il n’y a de données neutres, il n’y a de calculs neutres. Ce que l’on compte et comment on le compte est primordial. Et les différentes façons de compter que l’on peut convoquer imposent avec elles leurs idéologies. Un bon exemple nous est donné avec les discussions autour de la méthode de répartition des revenus du streaming musical.

Longtemps, la règle de répartition est restée simple, « centrée sur le marché » (market centric), comme l’expliquait le journaliste Justin Delépine dans Alternatives Economiques. Les plateformes divisent le produit des abonnements et de la publicité par le nombre d’écoutes : les plus écoutés sont les plus rémunérés. Simple ! Mais est-ce équitable ? Cette façon de mesurer favorise l’écoute intensive telle que la pratique les plus jeunes notamment, mais qui n’est pas nécessairement le mode d’écoute de tous ceux qui payent un abonnement. Elle concentre les revenus au bénéfice des plus écoutés et au détriment de la diversité. D’où l’émergence d’une autre méthode de calcul, poussée notamment par des éditeurs indépendants, « centrée sur l’usager » (user centric). Ici, le mode de redistribution valorise ce qu’écoutent les abonnées dans leur diversité, les revenus ne sont plus distribués aux plus écoutés, mais selon ce qu’apprécie chaque abonné, permettant de rééquilibrer la distribution des revenus à d’autres genres de musiques et à une plus grande diversité d’artistes. Une autre modalité a été imaginée depuis, poussée par les majors : la méthode « centrée sur l’artiste » (artist centric) qui semble exclure de la rémunération les artistes émergents pour valoriser les artistes dont le public est le plus diversifié, ceux qui totalisent le plus d’abonnés uniques différents.

Ces différentes conceptions de la répartition de la valeur ne sont pas sans incidences concrètes. Elles nous montrent que le mode de calcul de la valeur n’est pas unique, mais multiple. Chaque modèle proposé a des avantages et des inconvénients, des effets. Tout comme les données sont toujours situées, la manière dont on compte n’est jamais objective.

Ce que montre également cet exemple, c’est que l’orientation du mode de calcul a un impact profond et que celui-ci est assez peu évalué et qu’il est loin d’être décidé démocratiquement. Le mode de calcul est pourtant un objet politique qui devrait être au cœur de la régulation politique des plateformes. L’acteur public devrait observer les différentes modalités de calcul possibles, leurs impacts, et imposer aux plateformes un mode de répartition de la valeur sur un autre. En France par exemple, qui promeut la diversité culturelle et le soutien aux artistes émergents, le régulateur devrait imposer aux plateformes sur notre territoire un modèle plutôt user centric, qui favorise une distribution plus équitable de la valeur. Ces constats pourraient être élargis bien au-delà des plateformes musicales d’ailleurs. Fort d’études d’impacts sur la répartition de valeur dans les plateformes, nous pourrions ainsi porter des modalités de calculs de la répartition qui permettent de valoriser la création et la diversité.

Les intérêts des uns et des autres à imposer un mode de calcul sur un autre est ici primordial. Après avoir beaucoup soutenu le market centric, les majors soutiennent désormais le modèle artist centric et, du fait de leur poids économique, parviennent à l’imposer aux plateformes qui dépendent de l’offre de leurs catalogues (les catalogues des 3 majors représentent 65% des écoutes sur les plateformes pour seulement 22% des références). Trop souvent, le choix du mode de calcul s’impose par la force.

Dernière chose à retirer de cet exemple. Les modalités de calcul ne sont jamais uniques. Pour chaque objet de calcul, nous devrions toujours envisager plusieurs modalités, regarder leur impact et décider en fonction de ceux-ci. Or, trop souvent, les calculs nous sont proposés sans alternatives. A l’heure où ils sont partout, l’enjeu est bien d’observer leurs conséquences et de proposer d’autres options. C’est dans les modalités de calcul désormais que se situe la politique. Quand en 2014 la CAF change la modalité de calcul de la prestation de service unique (PSU), le système de mesure de la subvention qu’elle distribue aux crèches, imposant un contrôle du remplissage à l’heure, elle modifie profondément le modèle économique de celles-ci. Ce qui pose une dernière question à notre enjeu. Si l’acteur public a vocation d’être l’arbitre des négociations entre acteurs aux intérêts divergents, comme ce pourrait être le cas dans la répartition de la valeur entre acteurs privés et intérêt général… Comment peut-il être l’arbitre de l’intérêt général quand il est juge et partie des calculs qu’il produit, comme c’est le cas dans le PSU ?

Ce que nous racontent ces histoires, c’est que nous devons observer avec attention les transformations des modalités de calcul. C’est désormais là, dans les formules Excel qui agencent les données que se fait la politique. Le risque, c’est que les transformations du calcul s’imposent de plus en plus par la force plutôt que portées par un dialogue démocratique et politique. Qui décide de comment on compte est devenu l’enjeu central d’une société fondée sur les traitements.