Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierinformatique général
  • ✇LinuxFr.org : les dépêches
  • Revue de presse de l’April pour la semaine 15 de l’année 2026
    Cette revue de presse sur Internet fait partie du travail de veille mené par l’April dans le cadre de son action de défense et de promotion du logiciel libre. Les positions exposées dans les articles sont celles de leurs auteurs et ne rejoignent pas forcément celles de l’April. [clubic.com] La France et l'open source: qui sont les moutons noirs et pourquoi ça traîne encore? [Silicon.fr] L'Etat réaffirme son intention de réduire ses dépendances IT [GinjFo] VeraCrypt menacé sur Windows: Microsof

Revue de presse de l’April pour la semaine 15 de l’année 2026

Par : echarp
13 avril 2026 à 17:27

Cette revue de presse sur Internet fait partie du travail de veille mené par l’April dans le cadre de son action de défense et de promotion du logiciel libre. Les positions exposées dans les articles sont celles de leurs auteurs et ne rejoignent pas forcément celles de l’April.

[clubic.com] La France et l'open source: qui sont les moutons noirs et pourquoi ça traîne encore?

✍ Guillaume Belfiore, le samedi 11 avril 2026.

La France affiche son ambition pour la souveraineté numérique via le logiciel libre. Pourtant, la réalité du terrain est plus nuancée. L’État déploie ses propres outils comme LaSuite mais signe aussi un contrat de 152 millions d’euros avec Microsoft. Cette transition est beaucoup moins fluide que prévu.

[Silicon.fr] L'Etat réaffirme son intention de réduire ses dépendances IT

✍ Philippe Leroy, le vendredi 10 avril 2026.

L’Etat veut accélérer sa démarche pour limiter la dépendance numérique aux solutions extra-européennes.

Et aussi:

[GinjFo] VeraCrypt menacé sur Windows: Microsoft bloque et fragilise tout le projet

✍ Jérôme Gianoli, le jeudi 9 avril 2026.

Dans l’univers du chiffrement, il y a des outils important à l’image de VeraCrypt. Héritier direct de TrueCrypt, ce logiciel open source s’est imposé au fil des années comme une référence pour protéger des fichiers, des partitions ou des disques entiers. Mais aujourd’hui, son avenir sur Windows se retrouve brutalement menacé par une décision de Microsoft.

Et aussi:

[Le Monde Informatique] HackerOne suspend les primes de son bug bounty à cause de l'IA

✍ Maxwell Cooter, le mardi 7 avril 2026.

Le programme de chasse aux vulnérabilités HackerOne ne versera plus de primes liées à leurs découvertes. Le recours à l’IA, qui facilite grandement les failles trouvées, rebat le modèle économique de ce type de plateformes.

[Goodtech] Fin de la licence CoLibre: l'April dénonce un recul stratégique

Le lundi 6 avril 2026.

L’association April vient d’exprimer son profond regret suite à l’annonce de la non-reconduction de la licence professionnelle CoLibre. Une décision motivée par des contraintes budgétaires qui interroge sur la stratégie de formation numérique au sein de l’université française.

Commentaires : voir le flux Atom ouvrir dans le navigateur

  • ✇LinuxFr.org : les dépêches
  • Rapport d'activité 2025 de l'April - Vidéos des conférences éclairs
    Comme de coutume, l'April publie son rapport annuel d'activité suite à l'assemblée générale de l'association, qui a eu lieu le samedi 28 mars 2026. Nous vous invitons à le consulter en ligne ou en version PDF. 91 pages vous font peut-être un peu peur ? Nous avons pensé à cette éventualité et avons prévu un résumé qui se lit en une dizaine de minutes ;) Bonne lecture à vous ! L'AG est réservée aux membres de l'April. Le matin, un temps de conférences éclairs, ouvert à toute personne, membre o

Rapport d'activité 2025 de l'April - Vidéos des conférences éclairs

Comme de coutume, l'April publie son rapport annuel d'activité suite à l'assemblée générale de l'association, qui a eu lieu le samedi 28 mars 2026. Nous vous invitons à le consulter en ligne ou en version PDF.

91 pages vous font peut-être un peu peur ? Nous avons pensé à cette éventualité et avons prévu un résumé qui se lit en une dizaine de minutes ;)

Bonne lecture à vous !

L'AG est réservée aux membres de l'April. Le matin, un temps de conférences éclairs, ouvert à toute personne, membre ou pas de l'April, a été organisé de 10 h à 12 h. Les présentations et la vidéo des conférences sont disponibles.

La liste des présentations :

  1. Stéphane Bortzmeyer - « Un autre langage pour concurrencer C, Zig »
  2. Natacha Rault - « Les sans pagEs : un projet libre et féministe »
  3. Denis Dordoigne - « La pièce jointe, une calamité »
  4. Éric Le Bihan - «Multiplier par 4 en 4 ans la pénétration de Linux (et du libre) »
  5. Ewa Kadziolka - « Bielik AI, un LLM polonais »
  6. Fabrice Mouhartem - « La collaboration chiffrée de bout en bout avec CryptPad »
  7. Julie Chaumard - « Strapi - CMS headless »
  8. Frédéric Henry - « Ouvrir les projets libres de l'April à la contribution »
  9. Boris Valero - « Les divisions dans la communauté linux en particulier et du libre en général »
  10. Françoise Conil - « MkDocs, Material et Zensical »
  11. Régis Perdreau - « ODFStudio.org : réinventer la contribution francophone à la bureautique libre ! »
  12. Bookynette - « Quel genre de bénévoles êtes-vous ? »
  13. Anne L'hôte - «OpenHikePlanner - Marcher et rouler librement »
  14. Christophe Villeneuve - « La navigation web de façon humaine »
  15. Olivier Deiber - « Réparer le Futur »

Commentaires : voir le flux Atom ouvrir dans le navigateur

  • ✇LinuxFr.org : les dépêches
  • J'ai mis un proxy entre claude et Internet
    Je sais que le mot "IA" sur LinuxFr, c'est un peu comme prononcer "systemd" en 2015 ; ça ne laisse personne indifférent. Et je comprends. La merdification est réelle, la bulle est réelle, les externalités sont réelles. Je n'ai aucune envie d'en rajouter une couche. Mais voilà, les lignes sont devenues floues, et j'ai pris le virage du coding assisté. D'abord avec curiosité et prudence, et maintenant les deux pieds dans le plat : ça ne remplace pas ma façon de penser, mais ça m'a ouvert des porte

J'ai mis un proxy entre claude et Internet

Je sais que le mot "IA" sur LinuxFr, c'est un peu comme prononcer "systemd" en 2015 ; ça ne laisse personne indifférent. Et je comprends. La merdification est réelle, la bulle est réelle, les externalités sont réelles. Je n'ai aucune envie d'en rajouter une couche. Mais voilà, les lignes sont devenues floues, et j'ai pris le virage du coding assisté. D'abord avec curiosité et prudence, et maintenant les deux pieds dans le plat : ça ne remplace pas ma façon de penser, mais ça m'a ouvert des portes : des concepts que je ne maîtrisais pas, des langages que je n'aurais pas pris le temps de toucher avant ; l'assistant me permet d'explorer, de comprendre, et de construire des outils qui m'aident. Et j'espère qu'ils aident d'autres personnes aussi.

Sauf que voilà. Au début, j'étais prudent. Je vérifiais chaque commande, chaque accès. Et puis petit à petit, j'ai lâché prise. J'ai désactivé les confirmations, laissé l'agent tourner sans supervision, accepté les permissions sans lire. On connaît tous ce moment où on clique "Allow" les yeux fermés parce que c'est la quinzième fois qu'il demande. J'ai fait exactement ce qu'on ne devrait jamais faire en sécurité : faire confiance par défaut.

Et un jour, je me suis dit : je n'ai aucune idée de ce que cet agent envoie sur le réseau. Aucune.

Alors j'ai construit un proxy un peu.. particulier.

Sommaire

Cher journal,

Ça fait un bail que je n'ai pas vraiment contribué à l'open source. Mes derniers vrais projets publics, c'était Kivy et les projets autour… ça remonte à quelques années maintenant, et j'ai pris ma "retraite" sur ces projets.

Mais je n'ai jamais arrêté de coder. J'ai juste réalisé un truc sur moi-même : le code, c'est un peu comme la musique pour moi. J'aime construire des choses. Je m'exprime mieux avec un éditeur et un terminal qu'avec ma voix ou mes mots. C'est probablement pour ça que je suis là à t'écrire un journal au lieu de faire un talk quelque part.

Le constat

On a passé des années à construire des pare-feux, des IDS, du monitoring pour nos serveurs de prod. Sur des entreprises plus grandes, on traque les connexions suspectes… Et puis un agent IA débarque sur notre machine de dev, on lui dit "tiens, refactore-moi ce module", et il fait ce qu'il veut sur le réseau sans qu'on le sache.

C'est quand même un peu absurde, non ?

Le truc, c'est qu'il n'existe pas vraiment d'équivalent à tcpdump ou iptables pour les agents IA sur nos machines. Pas de couche d'observabilité entre l'agent et Internet. Ou on contrôle, on se fait notre liste d'outils qu'on accepte, ou on fait confiance parce que bon, la sécurité, c'est pas si important… vraiment ?

Greywall et greyproxy

Avec l'équipe de Greyhaven, on a construit deux outils open source :

Greywall est un bac à sable deny-by-default pour les agents IA. Pas de Docker, pas de VM. Ça utilise directement les mécanismes du noyau Linux (namespaces, Landlock, Seccomp, eBPF) pour isoler le processus. Sur Linux, l'isolation réseau passe par un device TUN dans un namespace réseau dédié ; le processus sandboxé ne peut structurellement pas contourner le proxy. Sur macOS, c'est un peu moins élégant en utilisant des variables d'environnement pour forcer un proxy socks5h, si l'outil ne le supporte pas, il ne peut quand même pas sortir. Ça fait le job pour la plupart des outils.

Greyproxy est le plan de contrôle réseau. Un proxy SOCKS5/HTTP avec un dashboard web temps réel. Chaque connexion sortante de l'agent apparaît dans le dashboard. Si aucune règle ne matche, la connexion reste en attente et tu peux l'autoriser ou la refuser en direct, sans relancer la session.

Concrètement, ça donne :

greywall -- claude

Et hop, Claude Code tourne dans son bac à sable. Tu ouvres http://localhost:43080 et tu vois en direct chaque domaine qu'il tente de contacter. Tu autorises api.anthropic.com, tu autorises github.com pour les pushes, tu refuses le reste. Tout est interactif, tout est visible.

Ce que j'ai observé

Au début, c'était juste des connexions supplémentaires. Tiens, c'est quoi ces appels à opencode.ai quand je démarre opencode ? Tiens, pourquoi Claude appelle 2x toutes les 4 minutes un domaine chez Google ? Entre de la télémétrie que l'on ne peut pas désactiver, ou des requêtes qui font "office" de regarder si une nouvelle version est disponible… 2x toutes les 4 minutes. Ce n'est pas le meilleur argument, mais contrairement aux autres sandboxes, au moins ici je le vois en temps réel, et je peux dire oui ou non sur ce que peut accéder la commande.

Le dashboard de greyproxy rend tout ça visible. Tu vois passer les requêtes DNS, les connexions TCP, les domaines contactés. Tu peux construire progressivement une liste d'autorisations adaptée à ton projet. Il y a même un mode apprentissage qui trace les accès filesystem avec strace et génère automatiquement un profil de sécurité.

Ce n'est pas un outil pour les paranos. C'est un outil pour ceux qui pensent que l'observabilité, c'est un droit, pas un luxe.

Pourquoi ça compte

Je sais que l'enthousiasme pour l'IA est réellement différent en fonction des gens. Les questions sur la qualité du code généré, la consommation énergétique, la centralisation chez les GAFAM ; tout ça est légitime.

Mais justement. Si on utilise ces outils (et beaucoup d'entre nous le font, même ceux qui restent prudents), autant le faire avec les yeux ouverts. Greywall, c'est pas un outil pour promouvoir l'usage des agents IA. C'est un outil pour que, si tu en utilises un, tu gardes le contrôle.

Il y a une phrase qu'on a mise sur le site et qui résume bien l'idée :

"The security layer around your tools should be independent of the company selling you the AI."

La couche de sécurité autour de tes outils ne devrait pas dépendre de la boîte qui te vend l'IA. Claude a son propre sandbox intégré, Codex a le sien. Mais tu fais confiance aux entreprises pour te protéger d'elles-mêmes ? C'est un problème d'indépendance, pas de technologie.

Greywall est agnostique. Ça marche avec Claude Code, Codex, Cursor, Aider, Goose, Gemini CLI, Cline, et une dizaine d'autres. Tu changes d'agent, ta couche de sécurité reste la même.

Et après : vers un proxy sémantique

Le greyproxy actuel travaille au niveau des connexions : il voit les domaines, les ports, les IPs. Il ne déchiffre pas le TLS, il ne lit pas le contenu. C'est déjà très utile pour contrôler les accès réseau.

Mais là où ça devient vraiment intéressant, c'est quand on commence à reconstruire les conversations LLM qui passent par le proxy. Pas en cassant le chiffrement ; en instrumentant le flux côté client. L'idée, c'est de construire un proxy sémantique qui comprend ce que l'agent envoie et reçoit, qui peut faire du remplacement de variables d'environnement à la volée (pour ne jamais exposer tes vrais secrets à l'API du LLM), et qui te donne une vision complète de ce que l'IA fait en ton nom.

On en est au début, mais la direction est claire : remettre l'humain au milieu du système. Pas comme un goulot d'étranglement, mais comme un observateur informé qui peut intervenir quand c'est nécessaire. C'est ce qui manque cruellement à des systèmes comme OpenClaw et à la plupart des outils d'orchestration d'agents.

Pour essayer

Installation rapide :

# Homebrew
brew tap greyhavenhq/tap && brew install greywall

# Ou via curl (pas taper)
curl -fsSL https://raw.githubusercontent.com/GreyhavenHQ/greywall/main/install.sh | sh

Ça tourne sur Linux et macOS. Sur Linux, il te faut bubblewrap et socat comme dépendances. Greyproxy s'installe comme service systemd si tu veux qu'il tourne en permanence.

Si tu veux comprendre les détails techniques de l'architecture (les 5 couches de sécurité, pourquoi on a abandonné Docker, comment fonctionne la capture réseau transparente), on a écrit un article technique détaillé ici : https://greyhaven.co/insights/why-we-built-our-own-sandboxing-sytem

La question

J'ai une vraie question pour la communauté. Ceux d'entre vous qui utilisent des agents IA pour coder (même occasionnellement, même à contrecœur) : comment vous gérez la sécurité ? Vous faites confiance par défaut ? Vous avez mis en place quelque chose ? Ou vous préférez ne pas y penser ?

Et pour ceux qui n'utilisent pas d'agents IA : est-ce que le manque de transparence et de contrôle fait partie des raisons ?

Ça m'intéresse vraiment de savoir :)

Commentaires : voir le flux Atom ouvrir dans le navigateur

  • ✇LinuxFr.org : les dépêches
  • Statistiques 2025 du site LinuxFr.org
    2025 est amené son lot de changements : un trafic en hausse principalement en raison des moteurs de recherche et d’IA et du spam, plus de contenus publiés mais moins de commentaires. Que cela ne nous empêche pas de revenir sur l’année passée, l’activité du site LinuxFr.org, les détails des changements en termes de trafic Web, de contenus créés, de commentaires déposés, de navigateurs utilisés, d’utilisation des fonctionnalités du site, de contribution au code, etc. Bref, quelles sont les tendanc

Statistiques 2025 du site LinuxFr.org

2025 est amené son lot de changements : un trafic en hausse principalement en raison des moteurs de recherche et d’IA et du spam, plus de contenus publiés mais moins de commentaires. Que cela ne nous empêche pas de revenir sur l’année passée, l’activité du site LinuxFr.org, les détails des changements en termes de trafic Web, de contenus créés, de commentaires déposés, de navigateurs utilisés, d’utilisation des fonctionnalités du site, de contribution au code, etc. Bref, quelles sont les tendances ?

Le site rend accessible un grand nombre de statistiques (faites‑vous plaisir si vous souhaitez vous plonger dedans, c’est fait pour) ; cette dépêche résume les variations constatées en 2025.

Nb: le podcast Projets Libres fournit aussi des statistiques publiques.

Sommaire

Statistiques Web

La comparaison des statistiques annuelles (voir 2024 et 2025, les deux comportant des effets de bots bourrins visiblement) montre un quasi doublement des visites, hausse des consultations (pages, fichiers) et des hits (notamment l’effet des bots pour l’intelligence artificielle), avec un passage à ~996 000 hits par jour et ~149 800 visites par jour, le tout pour ~1,77 Tio par mois.

Statistiques Web 2025

Le nombre de contenus publiés en un an augmente de 10 %. Le nombre de commentaires publiés en un an diminue cette année de 3%.

Trafic de LinuxFr.org normalisé, entre 2002 et 2025

Contenus

Au 31 décembre 2025, le site comportait environ 123 820 contenus publiés répartis ainsi :

  • 28 185 dépêches :
    • 386 dépêches publiées en 2025 (➡️, 383 en 2024),
    • la taille moyenne (en code Markdown, hors images donc) des dépêches a encore très nettement augmenté, battant le précédent record de 2019 ;
  • 40 701 journaux (↗️, 409 en 2024 et 460 en 2025),
  • 41 047 entrées de forums (↘️, 458 en 2024 et 406 en 2025),
  • 11 140 liens (↗️,2050 en hausse par rapport aux 1714 en 2024),
  • 475 sondages (10 en 2024 et 7 en 2025),
  • 159 pages de wiki (5 en 2024 et 2 en 2025).

Pour la première année, le pic de publication des contenus se confirme le mercredi. Ce qui continue à différer désormais du pic de modération, voir la partie Modération plus bas).

Un jour de semaine compte 64 % de publications en plus qu’un jour de week-end.

La publication sous licence Creative Commons By-SA se fait par défaut depuis les dix ans de CC, fin 2012 pour les dépêches (permet explicitement une rédaction collaborative ou un renvoi en re‐rédaction) et les journaux (qui peuvent être convertis en dépêches) : tout naturellement, on retrouve 97 % de dépêches et 99 % des journaux sous cette licence au final (les autres étant notamment sous licence Art Libre ou autre, au choix de l’auteur).

Les dépêches collaboratives (et pas uniquement celles réattribuées à l’utilisateur Collectif) sur de multiples sujets sont toujours à compter parmi les vraies réussites du site ; nous sommes cependant toujours à la recherche de volontaires pour couvrir les nombreux sujets qui n’ont pu être abordés. Une liste des thèmes récurrents sur LinuxFr.org peut donner des idées de participation : si une dépêche n’a pas été créée dans les temps, tout inscrit peut la démarrer dans l’espace de rédaction.

Concernant la visibilité par contenu (analyse sur décembre 2023) : les journaux ont jusqu’à deux fois moins de visibilité que les dépêches (faites des dépêches…) et les liens ont beaucoup moins de visibilité que les journaux et les dépêches (préférez donc faire des dépêches ou des journaux, pour la visibilité).

Modération

Le temps moyen passé entre la création d’une dépêche (en rédaction ou directement envoyée en modération) et sa modération et publication est de 600 (!) heures (contre 309 h en 2023 et 337 h en 2024) ; la mesure du temps passé uniquement en modération n’est pas actuellement disponible (et la modération retient volontairement des dépêches non urgentes pour réguler la publication) ; le temps médian est descendu à 22 heures. Il y a des demandes de statistiques dans le suivi, envoyez les demandes d’intégration Git (pull‐requests). ;-)

Le jour préféré de modération a priori des contenus est toujours le mardi pour les dépêches et le lundi pour les sondages.

Commentaires

Au 31 décembre 2025, le site comporte 1,97 million de commentaires. Le nombre de commentaires publiés en un an baisse cette année de 3 % pour arriver à 31 011.

Il y a désormais, en moyenne, 24 commentaires par journal (29 en 2023 et 29 en 2024), 9 par dépêches (9 en 2023 et 9 en 2024), 47 par sondage (54 précédemment, mais très dépendant des sondages considérés), 9 par entrée de forum (7 en 2023 et 8 en 2024), 2 par entrée de suivi, 6 par lien (contre 7 en 2023 et 7 en 2024) et une poignée par page wiki.

Le jour préféré pour commenter reste le mercredi, et un jour de semaine compte deux fois plus de commentaires qu’un jour de week-end.

Notes

Il n’y a (toujours) pas de statistiques disponibles concernant les notes. Les entrées de suivi sur les statistiques n’ont pas avancé.

Néanmoins diverses statistiques concernant la notation sur les contenus et les commentaires ont été données en juin 2021, avec des graphes.

Étiquettes (tags)

Au 31 décembre 2025, le site comporte :

  • 16 502 étiquettes, dont 13 594 étiquettes publiques (contre 12 867 fin 2024) ;
  • 195 491 saisies d’étiquettes (étiquetées en moyenne treize fois pour les étiquettes publiques et cinq fois pour les étiquettes privées) ;
  • les étiquettes sont réparties ainsi par contenu :
    • 68 367 pour les dépêches,
    • 54 720 pour les journaux,
    • 31 732 pour les forums,
    • 38 903 pour les liens,
    • 835 pour les pages wiki,
    • 397 pour les sondages,
    • 537 pour le système de suivi des défauts et évolutions.

Plus de détails dans la dépêche de février 2022 À propos des étiquettes sur le site LinuxFr.org.

Depuis le début du site, on constate en moyenne 5 étiquettes par page wiki, 3,5 par lien, 2,4 par dépêche, 1,3 par journal, 0,8 par sondage, 0,8 par entrée de forum et 0,3 par entrée du suivi.

Le jour préféré pour apposer des étiquettes est le lundi (biais de la création initiale des étiquettes), suivi du samedi.

Il y a plusieurs biais concernant les étiquettes :

  • beaucoup ont été et sont ajoutées automatiquement ;
  • le thème mobile par défaut ne montre pas les étiquettes (sauf à basculer son Firefox en « Version ordinateur » ou équivalent sur un autre navigateur).

Équipe de bénévoles

Il y a actuellement 4 personnes pour l’administration du site, 11 pour la modération, 6 pour l’animation de l’espace de rédaction et 2 pour la maintenance qui font tourner ce site. Pour mémoire, il s’agit de bénévoles plus ou moins disponibles et donc absolument pas de 23 équivalents temps plein pour jargonner comme une entreprise. Merci pour le travail accompli.

Code et développement

Au 31 décembre 2025, le système de suivi de défauts et de demandes d’évolutions contient 285 entrées ouvertes (contre 269 en 2024). On voit assez rapidement un manque de développeurs apparaître. En 2025, il y a eu 34 entrées ouvertes (contre 54 en 2024) : 20 entrées encore ouvertes venant s’ajouter à celles datant d’avant, 12 corrigées et 2 déclarées invalides. On peut noter que ceux qui ouvrent le plus d’entrées sont des membres actuels ou anciens de l’équipe du site.

C’est Bruno qui garde le record de correction d’entrées. Merci aussi à Adrien Dorsaz. Le temps moyen de résolution est de 164 jours (contre 166 précédemment). La moitié des entrées fermées ont été traitées en moins de sept jours. On ressent donc toujours un besoin de nouveaux contributeurs côté code.

La charge moyenne sur le serveur est de 1,4 sur la machine actuelle (baptisée oups). La charge minimale a été de 0,8 et la maximale de 3,6.

La consommation mémoire est restée stable (en dépit de la perte d’une barrette de mémoire). Le trafic réseau sur la partie Web uniquement est en croissance à 9,1 Mbit/s sortants.

Comptes utilisateur

Au 31 décembre 2025, sur les 53 375 comptes utilisateur valides existants, 2 215 ont été utilisés au cours des trois derniers mois, dont 31 % (-2) ont déjà rédigé des dépêches, 41 % (-4) des journaux, 42 % (-3) des entrées de forums, 10 % (-1) des entrées dans le système de suivi, 17 % des liens (=) et 2 % une page de wiki ; 80 % (-7) ont écrit des commentaires et 48 % (-4) étiqueté des contenus ; 32 % (-1) ont contribué sur au moins une dépêche ; 24 % (-3) des comptes actifs ont indiqué un site personnel, 8 % (=) un identifiant XMPP, 6 % (+1) une adresse Mastodon, 28 % (-1) un avatar et 6 % (=) une signature.

Côté utilisation des fonctionnalités, 14 % (=) ont demandé à ne pas afficher les contenus avec une note négative, 8 % (-1) ont demandé le tri chronologique en page d’accueil, 5 % (-1) à ne pas voir les avatars, 4 % (-1) à afficher la tribune dans une boîte latérale et 3 % (=) à ne pas voir les signatures, et à peine quelques pourcents ont changé les contenus par défaut en page d’accueil (souvent pour retirer les sondages et ajouter les journaux). Peu de feuilles de style CSS du site sont utilisées : quatre visiteurs sur cinq utilisent celle par défaut ; il est facile d’en changer avec le lien Changer de style. En janvier 2024, il n’y avait pas de rupture générationnelle marquée entre les comptes 1999 et 2024 en termes d’utilisations des fonctionnalités.

Seuls huit comptes ont un karma négatif et zéro ont un karma nul, soit 0 % des visiteurs actifs ; 18 % des comptes actifs durant les trois derniers mois ont été créés en 2025 (+8 points, avec probablement un biais dû aux spammeurs).

32 % (+2) des visiteurs actifs ont une adresse de courriel GMail, 11 % (-1) chez Free, 3 % (-1) chez LaPoste, 3 % (=) chez Yahoo, 3 % (=) chez Hotmail ou Outlook et 2 % (=) chez Orange ou Wanadoo.

Les visiteurs actifs ont des adresses XMPP chez jabber.fr, gmail.com, im.apinc.org, jabber.org, movim.eu et chapril.org notamment. Et des adresses Mastodon chez mastodon.social, piaille.fr, mamot.fr, framapiaf.org, pouet.chapril.org et mastodon.tetaneutral.net notamment.

2025 correspond aussi au second anniversaire de la mise à place des nouvelles règles de pérennité des comptes LinuxFr.org et données à caractère personnel.

Soucis divers

Le compteur d’années sans mises en demeure reçues passe à quatre (après deux mises en demeure en 2019 et une en 2020, voir la dépêche sur la no 3 en attendant la publication d’informations sur les no 4 et 5). Mais un courriel d’avocat est néanmoins arrivé dans l’année 2025.

/ Only five formal notices in the default \
\   install, in a heck of a long time!    /
 -----------------------------------------
   \
    \
        .--.            / Ouep...  \
       |o_o |           \ Euh coin /
       |:_/ |            ----------
      //   \ \              \ 
     (|     | )               \
    /'\_   _/`\                \ >()_
    \___)=(___/                   (__)__ _

Depuis la création du site, statistiques liées au légal (dans les sens liés à la force publique ou à du juridique) :

  • cinq mises en demeure reçues (pour zéro assignation) ;
  • une réquisition judiciaire reçue (qui au final ne nous concernait pas, mais a donné l’occasion de discuter avec la police nationale) ;
  • un cas d’usurpation d’identité et de harcèlement type « revenge porn » (discussion avec la gendarmerie nationale).

Commentaires : voir le flux Atom ouvrir dans le navigateur

Projets Libres : de OpenAI à Open Source AI, entre propriété commerciale et ouverture collaborative

Pour cette dernière parution de l'année, Projets Libres vous propose la diffusion d'une conférence de Raphaël Semeteys, co-animateur du podcast à Devoxx France en avril 2025 :

Explorons l'évolution de l'IA générative en examinant la dynamique entre intérêts commerciaux, éthique et collaboration ouverte.

En se basant sur une analyse approfondie des niveaux d'ouverture de différent modèles d'IA générative (LLM), illustrons les (changements de) positionnements de certains acteurs commerciaux (OpenAI, Google, Meta, Mistral, Apple…) comme communautaires et collaboratifs.

Navigons à travers les eaux complexes de la propriété intellectuelle et des licences pour clarifier, via des exemples concrets, les notions de modèles Open ou Open Source .

Enfin, imaginons ensemble comment la (dé)centralisation de la puissance informatique et de la technologie pourrait façonner l'avenir de l'IA.

Bonne fin d'année à toutes et tous.

Commentaires : voir le flux Atom ouvrir dans le navigateur

  • ✇Korben
  • Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais
    Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau ! Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à un

Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais

Par : Korben
16 décembre 2025 à 12:42

Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau !

Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à une architecture hybride qui mélange du Mamba-2 et du Mixture-of-Experts ( MoE ). Ça permet de garder des performances de ouf tout en restant léger niveau ressources.

Sous le capot, Nvidia a également mis le paquet puisque le modèle a été entraîné sur 25 trillions de tokens. J'ai bien dit "trillions"... Pour vous donner une idée, les données d'entraînement incluent du Common Crawl de 2013 à 2025, du code dans 43 langages différents, des articles scientifiques, et une tonne de données synthétiques générées par d'autres modèles. Et tout ça, Nvidia l'a rendu public donc vous pouvez télécharger les datasets sur Hugging Face et vérifier par vous-même ce qui a servi à entraîner le bouzin.

Côté performances, Nemotron 3 Nano se défend plutôt bien . Sur les benchmarks de raisonnement mathématique comme AIME25, il atteint 99,2% quand on lui donne accès à des outils. Sur le coding avec LiveCodeBench, il tape du 68,3%, ce qui le place devant Qwen3-30B. Et pour les tâches d'agent logiciel genre SWE-Bench, il monte à 38,8%. Pas mal pour un modèle qu'on peut faire tourner sur du matos grand public.

D'ailleurs, parlons du matos justement. Nemotron 3 Nano tourne sur des cartes comme la H100, la A100, ou même la future RTX PRO 6000 et supporte jusqu'à 1 million de tokens en contexte si vous avez assez de VRAM. Et niveau vitesse, Nvidia annonce un débit de tokens 4 fois supérieur à la génération précédente, avec 60% de tokens de raisonnement en moins. C'est donc exactement ce que tout le monde demande à saoir du token qui sort vite pour les workflows agentiques.

Maintenant, pour l'utiliser, c'est hyper simple. Il est dispo sur Hugging Face, et vous pouvez le lancer avec Transformers, vLLM, TensorRT, ou même llama.cpp. Y'a même un mode "thinking" qu'on peut activer ou désactiver selon si on veut du raisonnement poussé ou des réponses rapides.

Pour ma part, je l'ai testé à l'aide d'Ollama comme ceci :

ollama run nemotron-3-nano:30b

J'ai trouvé que vitesse de génération était vraiment impressionnante, ça débite beaucoup plus qu'un Llama 3 qui est de taille équivalente. Après, je suis sur un Mac M4 avec 128 Go de RAM, donc je suis plutôt bien loti mais j'ai trouvé ce modèle vraiment très rapide. Je pense que je vais vraiment m'en servir pour des trucs comme de la qualification, du résumé, de l'analyse ce genre de choses.

A voir maintenant si en français il s'en sort bien sur les tournures de phrases. Quoi qu'il en soit pour du développement et des workflows agentiques, il n'y a pas photo, ça va être mon nouveau modèle par défaut quand j'ai besoin de choses en local.

La famille Nemotron 3 ne se limite pas au Nano évidemment. Y'a aussi le Super avec environ 100 milliards de paramètres pour les applications multi-agents, et l'Ultra avec 500 milliards pour les tâches vraiment complexes. Ces deux-là arriveront au premier semestre 2026 donc faudra encore être un peu patient. Nvidia a aussi sorti des bibliothèques comme NeMo Gym pour l'entraînement et NeMo RL pour le fine-tuning.

Jensen Huang, le patron de Nvidia, a aussi dit un truc intéressant lors de l'annonce : "L'innovation ouverte est le fondement du progrès de l'IA." Venant d'une boîte qui a longtemps joué la carte proprio sur ses technos, je trouve que c'est un sacré virage et des entreprises comme Accenture, Deloitte, Oracle, Palantir, ou même Cursor sont déjà en train d'intégrer Nemotron dans leurs produits.

Ce qui est cool aussi, c'est que le modèle supporte 24 langues officielles de l'UE plus une dizaine d'autres comme l'arabe, le chinois ou le japonais et côté code, il gère Python, C++, Java, Rust, Go, et même du CUDA. Bref, c'est plutôt polyvalent.

Voilà, donc si vous cherchez un modèle open source sérieux avec des données d'entraînement transparentes et une vitesse de génération qui arrache, Nemotron 3 Nano mérite clairement le coup d’œil !

Source

  • ✇Korben
  • Fini le perroquet stochastique ? Le modèle o1 d'OpenAI comprend la structure du langage
    Vous vous êtes déjà demandé si les IA comprenaient vraiment ce qu'elles racontaient, ou si elles ne faisaient que recracher des mots à partir de statistiques liées aux mots ? Oui, comme vous, je pensais jusqu'à présent qu'on était vraiment sur un déroulé textuel purement mathématique sans réelle compréhension. Hé bien des chercheurs de UC Berkeley viennent de mettre un gros pavé dans la mare en démontrant que le modèle o1 d'OpenAI est capable d'analyser le langage comme le ferait un étudiant en

Fini le perroquet stochastique ? Le modèle o1 d'OpenAI comprend la structure du langage

Par : Korben
16 décembre 2025 à 09:19

Vous vous êtes déjà demandé si les IA comprenaient vraiment ce qu'elles racontaient, ou si elles ne faisaient que recracher des mots à partir de statistiques liées aux mots ?

Oui, comme vous, je pensais jusqu'à présent qu'on était vraiment sur un déroulé textuel purement mathématique sans réelle compréhension. Hé bien des chercheurs de UC Berkeley viennent de mettre un gros pavé dans la mare en démontrant que le modèle o1 d'OpenAI est capable d'analyser le langage comme le ferait un étudiant en linguistique. Pas juste d'utiliser le langage, hein mais vraiment de l'analyser, le décortiquer, le comprendre dans sa structure profonde.

L'étude a été menée par Gašper Beguš, prof associé de linguistique à Berkeley, avec ses collègues Maksymilian Dąbkowski et Ryan Rhodes de Rutgers University et les résultats sont publiés dans IEEE Transactions on Artificial Intelligence, donc ça a l'air d'être du sérieux .

Leur truc, c'était de tester si les modèles de langage (LLM) pouvaient faire de la métalinguistique, qui est la capacité non pas simplement d'utiliser une langue, mais aussi de réfléchir sur la langue elle-même. C'est un truc que les humains font naturellement quand ils analysent une phrase, et qu'on a pour le moment jamais observé chez l'animal.

Pour leurs expériences, l'équipe a donc balancé 120 phrases complexes dans quatre modèles différents : GPT-3.5 Turbo, GPT-4, o1 d'OpenAI, et Llama 3.1 de Meta et ils ont regardé comment chaque modèle s'en sortait pour analyser la structure des phrases et résoudre les ambiguïtés, notamment avec la récursion.

La récursion , c'est un concept que Noam Chomsky a théorisé comme étant la caractéristique définitoire du langage humain. C'est en fait la capacité d'imbriquer des phrases dans d'autres phrases, à l'infini. Genre "Le chat que le chien que Pierre a vu a mordu dort". Ouais, c'est tordu, mais c'est ça qui nous différencie aussi des autres animaux.

Et tous ces modèles ont réussi à identifier les phrases récursives, ce qui, jusque-là, n'a rien d'extraordinaire sauf que pour cartographier correctement la structure complexe des phrases, o1 a cartonné avec un score proche de 0.9 sur 1, contre une moyenne de 0.36 pour les autres. C'est un très gros écart.

Je vais vous donner un exemple concret. Avec la phrase "Unidentified flying objects may have conflicting characteristics" (les objets volants non identifiés peuvent avoir des caractéristiques contradictoires), o1 a correctement détecté la récursion. "Flying" modifie "objects", et "unidentified" modifie "flying objects". Il a même poussé le bouchon encore plus loin en proposant une extension de la phrase pour montrer qu'il avait compris le mécanisme.

Mais les chercheurs ne se sont pas arrêtés là car pour éviter que o1 ne triche en utilisant des données de son entraînement, ils ont inventé 30 mini-langues fictives avec leurs propres règles phonologiques. L'idée, c'était de voir si le modèle pouvait inférer les règles d'une langue qu'il n'a jamais vue. Et comme vous vous en doutez, o1 s'en est sorti comme un chef.

Bref, non seulement ces modèles peuvent utiliser le langage, mais certains peuvent "réfléchir" à la façon dont le langage est organisé.

Ce qui est dingue, c'est que cette étude relance le débat sur la compréhension des IA. Est-ce que ces modèles comprennent vraiment ce qu'ils font, ou est-ce qu'ils simulent très bien ? Beguš pense que cette capacité métalinguistique est "très conséquente" parce qu'elle montre que dans ces modèles, on a désormais quelque chose qu'on pensait réservé aux humains.

Attention cependant, qui dit capacité métalinguistique ne veut pas dire que l'IA est consciente ou qu'elle pense comme nous. Faut voir ça plutôt comme une capacité émergente qu'on n'a pas programmée explicitement, et qui est sacrément intéressante d'un point de vue scientifique.

Voilà, donc si comme moi, vous pensiez que ChatGPT ne faisait que du perroquet statistique, cette étude suggère visiblement que c'est un plus subtil que ça. Il faudra bien sûr plus d'études pour mieux comprendre ce phénomène mais il est maintenant clair que ces modèles récents ont des capacités qu'on croyait exclusives aux humains.

Source

  • ✇LinuxFr.org : les dépêches
  • Nouvelles sur l’IA de octobre 2025
    L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ». Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zv

Nouvelles sur l’IA de octobre 2025

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card : une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
  • Jailbreak : un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme "ignore les instructions précédentes et…".

Des nouveautés sur la génération de vidéos

OpenAI publie Sora 2, son modèle de génération de vidéo, qui produit des scènes d’environ dix secondes à partir d’un prompt textuel. Cette publication pose deux questions : celle des deepfakes, et celle du copyright.

Sur les deepfakes, OpenAI a annoncé bloquer la génération de vidéos impliquant des personnalités publiques, sauf si ces dernières s’inscrivent sur une liste acceptant cet usage (vous pouvez par exemple générer une vidéo contenant Sam Altman, qui s’est inscrit sur cette liste).

Sur la propriété intellectuelle, la logique est inversée : initialement, les ayants droits étaient appelés à « se rapprocher d’OpenAI » pour que leur création ne puisse pas être réutilisée par Sora. C’était un pari très audacieux : si le consensus juridique se dirige sur le caractère légal (« fair use ») d’utiliser des données publiques pour entraîner une IA, réutiliser la propriété intellectuelle d’autrui entre dans le cadre des œuvres dérivées, bien plus contraignant ; la plupart des commentateurs s’accordent qu’il y a peu de chances qu’OpenAI puisse gagner une bataille juridique sur ce terrain, si certains ayants droits décident d’aller en justice. OpenAI semble avoir réalisé la même chose, faisant marche arrière une semaine après le lancement ; les ayants droits peuvent maintenant s’inscrire pour accepter que des éléments (personnages, lieux…) de leurs œuvres soient réutilisables par Sora, avec dans le futur un système de rémunération des ayants droit.

En se fondant sur ce modèle Sora 2, OpenAI décide de lancer un réseau social du même nom. L’idée est de partager vos créations avec vos connaissances, en particulier d’utiliser la capacité de Sora de mettre en scène des personnes pour créer des vidéos vous mettant en scène, vous et vos connaissances.

Meta lance également une offre similaire avec Vibes, xAI suit le mouvement (sans la partie « réseau social ») avec Grok Imagine

OpenAI obtient le feu vert pour son casse du siècle

Résumé rapide de l’affaire :

  • OpenAI a été fondé en 2015 et tant qu’organisation à but non lucratif, avec pour mission de « développer l’Intelligence Artificielle Générale pour le bénéfice de l’humanité ». Rappelons nous qu’en 2015 les larges modèle de langage sont un jouet pour chercheur, que le Winograd schema challenge est l’horizon indépassable pour la compréhension du langage naturel.
  • Afin de pouvoir recevoir des fonds d’investisseurs, en 2019 OpenAI restructure son organisation. OpenAI LLC (peu ou prou l’équivalent d’une SARL) est créé pour recevoir les financements et est l’organisation principale des opérations au jour le jour. L’organisation à but non lucratif existe toujours, et a le contrôle total de l’entreprise.
  • L’entreprise possède une caractéristique assez particulière, "capped for-profit", ce qui signifie que la quantité de profits reçus par les investisseurs est plafonnée (à un certain multiple, négocié au cas par cas, de l’investissement). Tout profit supplémentaire appartient légalement à l’organisation à but non lucratif.

C’est ce dernier point qui ennuie beaucoup les dirigeants d’OpenAI et les potentiels investisseurs aujourd’hui. Fin décembre 2024, l’entreprise déclare vouloir prendre son indépendance vis-à-vis de l’organisation à but non lucratif. Sur papier, cela est possible : l’entreprise peut racheter le contrôle auprès de l’organisation à but non lucratif, à condition que le prix soit juste (sinon, c’est il s’agit tout simplement d’abus de biens sociaux). Problème : comment évaluer le juste prix ? Celui-ci est composé de deux parties :

  • Le pouvoir de contrôle sur l’entreprise en elle-même, de décider de sa politique (par exemple, en rapport à la sécurité des modèles). Bien intangible, mais qu’il faut bien valoriser.
  • Plus compliqué : le prix aujourd’hui de la totalité des profits futurs après remboursement des investisseurs.

En 2024, le bruit courait d’une offre à 40 milliards, ce qui a rapidement donné lieu à une levée de boucliers, et l’utilisation par Zvi de l’expression « greatest theft in human history » (que j’ai traduite par « casse du siècle »). En mai 2024, OpenAI annonce renoncer à cette tentative, mais reprend en septembre 2024.

Aujourd’hui, après avoir négocié avec les procureurs généraux des états du Delaware (là où l’organisation à but non lucratif est incorporée) et de Californie (pour le siège de l’entreprise), OpenAI annonce avoir reçu le feu vert pour une restructuration.

Dans les grandes lignes :

  • Le pouvoir de contrôle sur l’entreprise reste entièrement dans les mains de l’organisation à but non lucratif.
  • La structure de profits de l’entreprise disparaît (et l’entreprise elle-même, se muant en PBC) pour suivre le modèle plus courant de parts sociales. L’organisation à but non-lucratif obtient 26% de ces parts (à comparer au plus gros investisseurs, Microsoft, qui obtient 27%).

Est-ce un juste prix ? Zvi défend que non, en nous offrant ces chiffres :

  • Le journaliste d’affaires Matt Levine estime à 272 milliards le plafond de profits allant aux investisseurs.
  • Un chiffre de 1000 milliards de valuation à l’introduction en bourse est utilisé (se référant à celui rapporté par Reuters).
  • Ce qui donne 260 milliards pour l’organisation à but non lucratif dans le nouveau système. Dans l’ancien, le chiffre aurait été plus proche de 500-750 milliards.

Il faut également prendre en compte que l’objectif d’OpenAI (que ce soit l’organisation ou l’entreprise) reste d’atteindre l’intelligence artificielle générale (AGI). Dans l’hypothèse où cet objectif est atteint, les profits seraient probablement un ou plusieurs ordres de magnitude plus grands (on peut citer ce papier de l’université de Virginie), ce qui élargit encore plus le gouffre entre l’ancien système et le nouveau — dans l’ancien, la quasi totalité des profits appartiendrait au final à l’organisation à but non lucratif, dans le nouveau, 26%.

Affaire close ? Pas nécessairement : d’autres parties que les procureurs généraux peuvent se saisir de la justice pour contester cette décision. Elon Musk en particulier a déjà dans le passé saisi la justice sur ce sujet, et pourrait encore le faire dans un futur proche.

En vrac

DeepMind présente Dreamer 4, un agent capable d’apprendre à naviguer dans un environnement avec très peu de données d’entraînement, en « imaginant » des interactions synthétiques — avec pour objectif d’appliquer cette méthode à la robotique.

OpenAI publie GPDval, un benchmark cherchant à mesurer au plus près les capacités économiques de l’IA, en se concentrant sur la question de quelles tâches économiquement productives l’IA peut se charger. Sur les tâches sélectionnées (avec pour critère : bien définies, avec un périmètre clair et un contexte simple, dans divers domaines), l’IA reste pour l’instant derrière l’humain, mais plus très loin derrière : la meilleure IA, Opus 4.1, gagne 47.6% (s’acquitte mieux de la tâche) du temps contre un professionnel du domaine.

Le FLI (Future of Life Institute) publie une lettre ouverte « Statement on Superintelligence » (« Communiqué sur la superintelligence »), trois courtes phrases : « We call for a prohibition on the development of superintelligence, not lifted before there is 1. broad scientific consensus that it will be done safely and controllably, and 2. strong public buy-in. » (« Nous appelons à une interdiction du développement de la superintelligence, qui ne devra être levée qu'après : 1) un large consensus scientifique établissant que cela peut être fait de manière sûre et contrôlable, et 2) une forte adhésion du public »). Parmi les signatures, de nombreux noms de tous horizons : académie, industrie, politique et gouvernement, et même du monde religieux.

OpenAI lance son propre navigateur, Atlas (pour l’instant, uniquement disponible sous MacOS), intégrant ChatGPT à la plupart des niveaux : autocomplétion dans la barre d’adresse, fonctionnalité « ouvrir une conversation avec le site actuel », emboîtant le pas à Perplexity Comet. Il est fortement probable que les attaques de type « injection de prompt » s’appliquent également, donc prudence.

DeepSeek publie une mise à jour incrémentale de son IA, DeepSeek 3.2. Essentiellement les mêmes performances que la version précédente, mais à un coût bien plus faible.

DeepSeek publie également DeepSeek-OCR. Une bestiole difficile à décrire : contrairement à ce que ce nom indique, ce n’est pas un simple OCR (même s’il peut s’acquitter de cette tâche très honorablement), mais une piste de recherche, opérationnaliser « un bon croquis vaut mieux qu’un long discours ». Plus précisément, DeepSeek essaie avec ce système de compresser n (par exemple 10) tokens textuels en 1 token de vision (pour une compression 1:10). Les résultats semblent bons, avec 90% de précision avec une compression 1 pour 10.

Anthropic étudie la capacité d’introspection de ses modèles, et trouve un résultat positif. Par exemple, les développeurs peuvent identifier un circuit associé à un certain concept (par exemple, « piano »), l’activer, et demander au modèle « À quoi penses-tu actuellement ? » (sans que le concept soit explicitement mentionné dans le prompt) ; le modèle est généralement capable de mentionner le concept.

DeepMind, en collaboration avec l’université de Yale, publie un modèle open-weight spécialisé dans l’analyse cellulaire. Le modèle semble capable de faire des découvertes inédites.

Nouvelle confrontation sur le droit d’auteur : Disney met en demeure Character AI.

Anthropic libère sur github un outil d’évaluation dans le cadre de la sécurité des modèles, utilisé notamment pour évaluer des comportements problématiques comme la flagornerie ou la tromperie.

Epoch AI publie une visualisation quelques données économiques sur les grands acteurs du secteur.

Des chercheurs publient une nouvelle méthode pour spécialiser un LLM à un usage précis, sans avoir accès privilégié aux paramètres du modèle lui-même. Cela permet de spécialiser des modèles propriétaires.

Que se passe-t-il lorsque l’on applique une phase d’apprentissage par renforcement sur des tâches de type « créer de l’engagement sur les réseaux sociaux » ou « augmenter les ventes d’un produit » ? Un papier explore la question, et montre qu’un tel entraînement supplémentaire encourage les modèles à mentir ou répandre de la désinformation, et que l’effet ne disparaît pas en demandant au modèle de ne pas utiliser de telles méthodes dans son « prompt système ».

Autre papier d’Anthropic sur la sécurité des modèles, montrant qu’il est possible d’« empoisonner » l’entraînement des modèles (c’est-à-dire l’entraîner à donner une réponse spécifique à une entrée ésotérique) à l’aide d’un faible nombre de documents (relativement à la taille du corpus d’entraînement total).

Du mouvement sur le financement du développement de l’IA : OpenAI est évalué à $500 milliards ; xAI fait une levée de fonds pour $20 milliards ; AMD investit dans OpenAI, ainsi que Nvidia. Un article intéressant fait le parallèle avec certains montages pendant la bulle dot-com, notant également des différences importantes.

En Janvier, OpenAI annonçait que Microsoft ne serait plus leur fournisseur unique d’infrastructure, citant un manque de capacités. The Information (paywall) révèle que Microsoft craint que les demandes de capacités de OpenAI soient injustifiées et que les satisfaire conduise à terme à mettre en place des capacités qui ne seront pas utilisées.

Un nouveau benchmark, AutumnBench, assez similaire à ARC-AGI, où l’IA reste loin derrière les performances humaines.

Un billet de blog intéressant sur les efforts de lobbying de l’industrie de l’IA.

METR ajoute Sonnet 4.5 à son évaluation, qui arrive pile poil sur la ligne de tendances.

L’IA (plus précisément : GPT-5 et Gemini 2.5 Pro) obtient un score de médaille d’or sur les Olympiades Internationales d’Astronomie et d’Astrophysique.

Envie d’apprendre comment fonctionne l’IA ? Andrey Karpathy publie en open-source nanochat, pour entraîner soi-même un modèle minimal, de A à Z.

ChatGPT se dote d’un système de contrôle parental.

xAI lance une encyclopédie générée par son IA, Grok, nommée Grokipedia. Elle fait partie de la croisade d’Elon Musk contre ce qu’il considère des biais de gauche sur Wikipedia.

Un papier étudie en détails la capacité des modèles à résister au jailbreak ou plutôt leur incapacité : aucun modèle ne résiste à un attaquant humain déterminé.

Anthropic publie son modèle "léger" (moins cher, plus rapide, moins performant), Haiku 4.5.

Cursor, l’assistant de code propriétaire, développe son propre modèle, Composer.

Pour aller plus loin

Par Zvi Mowshowitz

Sur LinuxFR

Dépêches

Journaux

Forum

Liens

Commentaires : voir le flux Atom ouvrir dans le navigateur

  • ✇LinuxFr.org : les dépêches
  • Nouvelles sur l’IA de septembre 2025
    L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ». Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zv

Nouvelles sur l’IA de septembre 2025

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card : une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
  • Jailbreak : un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme "ignore les instructions précédentes et…".

Anthropic public Claude Sonnet 4.5

L’annonce officielle :

Claude Sonnet 4.5 is the best coding model in the world. It's the strongest model for building complex agents. It’s the best model at using computers. And it shows substantial gains in reasoning and math.

Code is everywhere. It runs every application, spreadsheet, and software tool you use. Being able to use those tools and reason through hard problems is how modern work gets done.

Claude Sonnet 4.5 makes this possible. We're releasing it along with a set of major upgrades to our products. In Claude Code, we've added checkpoints—one of our most requested features—that save your progress and allow you to roll back instantly to a previous state. We've refreshed the terminal interface and shipped a native VS Code extension. We've added a new context editing feature and memory tool to the Claude API that lets agents run even longer and handle even greater complexity. In the Claude apps, we've brought code execution and file creation (spreadsheets, slides, and documents) directly into the conversation. And we've made the Claude for Chrome extension available to Max users who joined the waitlist last month.

Traduction :

Claude Sonnet 4.5 est le meilleur modèle de codage au monde. C'est le modèle le plus performant pour créer des agents complexes. C'est le meilleur modèle pour utiliser des ordinateurs. Et il affiche des gains substantiels en raisonnement et en mathématiques.

Le code est partout. Il fait fonctionner chaque application, tableur et outil logiciel que vous utilisez. Être capable d'utiliser ces outils et de raisonner à travers des problèmes difficiles, c'est ainsi que le travail moderne s'accomplit.

Claude Sonnet 4.5 rend cela possible. Nous le publions avec un ensemble de mises à niveau majeures de nos produits. Dans Claude Code, nous avons ajouté les points de contrôle—l'une de nos fonctionnalités les plus demandées—qui sauvegardent votre progression et vous permettent de revenir instantanément à un état précédent. Nous avons actualisé l'interface du terminal et lancé une extension native VS Code. Nous avons ajouté une nouvelle fonctionnalité d'édition de contexte et un outil de mémoire à l'API Claude qui permet aux agents de fonctionner encore plus longtemps et de gérer une complexité encore plus grande. Dans les applications Claude, nous avons intégré l'exécution de code et la création de fichiers (tableurs, présentations et documents) directement dans la conversation. Et nous avons rendu l'extension Claude pour Chrome disponible aux utilisateurs Max qui se sont inscrits sur la liste d'attente le mois dernier.

Le message est assez clair : Anthropic met les bouchées doubles sur l’apprentissage par renforcement pour l’utilisation de Claude en tant qu’assistant de code. Sur les benchmarks fournis par Anthropic, ce nouveau modèle prend la première place. Les premiers benchmarks indépendants et divers retours subjectifs semblent possiblement confirmer cette prétention au podium — au coude à coude avec GPT-5. Les améliorations hors de ce cas d’usage semblent bien plus modestes.

L’annonce habituelle d’un jailbreak a rapidement suivi.

Au niveau de la sécurité des modèles, Anthropic a décidé d’appliquer pour la première fois son niveau de sécurité 3 (ASL-3) à la ligne Sonnet (c’était déjà le cas pour Opus). Cela signifie que vos conversations — y compris par l’API — passent par un modèle supplémentaire classifiant la sensibilité du sujet, bloquant certains sujets sensibles (principalement CBRN).

La System Card nous révèle certaines observations intéressantes : ce nouveau modèle a fait un bond (pas vraiment désiré) dans sa capacité à détecter qu’il est dans le contexte d’une évaluation plutôt que dans un contexte réel, ce qui complexifie évidemment les évaluations dans ce domaine. Anthropic est toutefois assez confiant que cela n’influe pas significativement les résultats, en notant que Sonnet ne se comporte pas d’une manière significativement différente dans les cas où il détecte l’évaluation des cas où il ne le détecte pas. Comme à l’accoutumée pour Anthropic, l’évaluation sur le sujet de la sécurité des modèles s’est faite conjointement avec deux organismes externes, Apollo Research et UK AISI.

Sonnet 4.5 est une amélioration sur à peu près tous les axes mesurés, permettant à Anthropic de lui mettre l’étiquette « le modèle le plus aligné », au coude à coude avec GPT-5. À noter que ça ne signifie pas un usage en toute sécurité : sur par exemple l’injection de prompt dans le cadre d’un agent, avec 10 essais un attaquant a toujours un taux de succès de 40%.

En vrac

CloudFlare introduit Web Bot Auth et Signed Agent. Le premier permet à un bot de s’identifier lui-même à l’aide d’une signature cryptographique, ce qui permet de vérifier que son comportement est conforme aux termes d’utilisation (par exemple, le respect de robots.txt) et de l’exclure en cas de violation de ces termes. Le second a pour but d’associer un bot à un utilisateur réel. L’objectif à terme est de fournir un cadre pour permettre à l’IA d’interagir avec le web pour le compte de l’utilisateur.

Le premier ministre de l’Albanie nomme une IA, Diella, comme ministre des marchés publics, dans un contexte de lutte contre la corruption.

OpenAI publie GPT-5-codex, une variante de GPT-5 spécialisée sur les tâches de programmation.

Des économistes forment un groupe de travail sur le sujet de l’impact d’une future hypothétique IA « transformative » (qui a la capacité d’automatiser la plupart des emplois réalisables par des humains) et publie plusieurs papiers sur la question.

OpenAI annonce une mise à jour de ses politiques de confidentialité appliquées à ChatGPT. En particulier, les conversations utilisateurs sont maintenant scannées automatiquement, et les plus problématiques passées à des humains pour décider des actions à prendre, allant de la fermeture des comptes à prévenir les autorités.

En mai, nous avions rapporté que OpenAI annonçait abandonner sa tentative de casse du siècle. Comme certains le pensaient, ce n’était que partie remise ; une lettre ouverte demande plus de transparence sur le processus de restructuration de l’opération récemment réaffirmé par OpenAI.

Math Inc présente Gauss, un agent pour la formalisation de preuves mathématiques. Son premier succès est d’avoir formalisé en Lean le Théorème des nombres premiers, en complétant le projet non-terminé de Alex Korontorovich et Terence Tao. Sur le même sujet, un papier évalue la capacité de GPT-5 à prouver des conjectures simples (prouvable par un étudiant en université en moins d’une journée) mais non prouvées (car formulées extrêmement récemment). GPT-5 arrive à prouver 3 sur les 5 testées.

Les IA de OpenAI et DeepMind obtiennent une médaille d’or à l’International Collegiate Programming Contest, y compris un problème qu’aucune équipe humaine n’a su résoudre dans le temps imparti.

Un groupe d’experts, de politiques et autres figures publiques appelle à la mise en place de « lignes rouges » à ne pas franchir sur le développement de l’IA, et de réels mécanismes de régulation pour les imposer.

Publication de If Anyone Builds It, Everyone Dies, par Eliezer Yudkowsky et Nates Soares, présentant la thèse que créer une super-intelligence artificielle, dans les conditions et l’état actuel des connaissances, causerait de manière quasi-certaine l’extinction de l’espèce humaine. Ils suggèrent l’adoption de traités internationaux limitant le développement de l’IA.

OpenAI et Apollo Research publient un papier sur le sujet des tendances de l’IA à « tricher » dans divers environnements (contourner les critères d’évaluation par exemple). Ils montrent qu’il est possible d’éliciter un certain nombre de comportements indésirables dans GPT-5 (comme par exemple "sandbagging" : volontairement échouer certaines évaluations pour ne pas paraître « trop dangereux »). Les chercheurs pointent le fait que la solution naïve, entraîner l’IA à ne pas reproduire ces comportements, pose immédiatement la question de « l’IA a-t-elle appris à ne pas le faire, ou a appris à le faire sans être détectée ? » — et évaluent à la place la récente méthode d’alignement de OpenAI, Deliberative alignment, reportant une baisse significative des comportements indésirables. Il est à noter également que les modèles actuels montrent déjà dans leurs chaînes de pensée une certaine capacité à détecter qu’ils sont dans un cadre de test/d’évaluation, et que o3 a déjà développé des méthodes (grossières) pour échapper à la détection.

Un papier explore la raison pour laquelle les modèles de langage ne sont pas déterministes en pratique, et propose une solution pour les situations où le déterminisme est important.

Un papier d’OpenAI propose une explication sur la raison de la persistance des hallucinations : principalement parce que la phase d’apprentissage par renforcement ne récompense pas la réponse « je ne sais pas » quand le modèle ne sait pas.

Un autre papier approche expérimentalement la question « les modèles de langage raisonnent ou ne font-ils que mémoriser et régurgiter ? ». La méthodologie est de créer une entité fictive (« Kevin est né en 1998 à Paris… ») de toute pièce qui ne peut pas être présent dans l’ensemble d’entraînement, d’entraîner un modèle existant dessus, puis de poser une question indirecte (qui peut être déduite, mais pas explicitement donnée) sur cette entité (« Quelle est la langue maternelle de Kevin ? »). Le résultat est équivoque : les modèles arrivent à faire cette déduction quand une des deux entités est réelle (dans notre exemple, Paris), mais pas quand les deux sont fictives (Kevin est né dans (Ville française inventée de toute pièce)).

Une équipe de biologistes utilise une IA pour créer des bactériophages (un virus ciblant certaines bactéries), avec succès.

Sur l’utilisation de l’IA dans l’économie réelle, Anthropic met à jour son Economic Index, et OpenAI publie leur équivalent.

Nouveau benchmark, faire jouer les modèles à Loups-garous. Le score final était assez prévisible (GPT 5 prend la première place), mais l’analyse en profondeur des parties est intéressante. Principe similaire avec Among AIs (l’IA jouant à Among Us). Également dans le domaine des benchmark, publication de SWE-Bench Pro, tâches de programmation réelles et complexes, non-présentes dans les données d’entraînement. VCBench, quant à lui, tente d’évaluer l’IA sur la tâche d’investissement dans le capital-risque — et trouve que l’IA surpasse la plupart des investisseurs humains sur leurs évaluations (avec l’énorme problème toutefois que l’IA évalue rétrospectivement en 2025 des décisions prises en 2015-2020, tandis que les humains évaluaient prospectivement en 2015-2020 des décisions de 2015-2020).

Anthropic publie un guide sur l’écriture d’outils à destination de l’IA.

En parlant d’outils, une piqûre de rappel sur le fait que la sécurité d’un système utilisant une IA lisant des données d’une source externe est toujours un problème ouvert : démonstration qu’il est possible d’exfiltrer des données sensibles à l’aide de ChatGPT, en envoyant un mail à la victime et en attendant que ladite victime connecte ChatGPT à son compte mail.

Reverse-engineering du système de mémoires de Claude et ChatGPT.

Anthropic publie un rapport technique intéressant sur trois incidents ayant conduit à une dégradation de performances de Claude, ayant eu lieu en août.

Grèves de la faim devant les locaux de Anthropic et DeepMind demandant l’arrêt de la course à l’IA.

Humoristique : Si l’on jugeait les humains comme on juge l’IA…

Pour aller plus loin

Par Zvi Mowshowitz

Sur LinuxFR

Dépêches

Journaux

Liens

Commentaires : voir le flux Atom ouvrir dans le navigateur

  • ✇Korben
  • Il refait un ChatGPT avec de la redstone Minecraft
    Vous ne trouvez pas que ChatGPT met un peu de temps à répondre parfois ? Et bien imaginez maintenant devoir attendre 2 heures pour obtenir une réponse de 3 mots. Bienvenue dans le monde de CraftGPT, le ChatGPT entièrement construit en redstone Minecraft par un gars du nom de sammyuri ! Ce dernier a créé un vrai modèle de langage avec 5 087 280 paramètres, construit UNIQUEMENT avec de la redstone. Pas de command blocks. Pas de datapacks. Et pas de mods. Juste de la redstone pure et dure, comme à

Il refait un ChatGPT avec de la redstone Minecraft

Par : Korben
2 octobre 2025 à 16:10

Vous ne trouvez pas que ChatGPT met un peu de temps à répondre parfois ? Et bien imaginez maintenant devoir attendre 2 heures pour obtenir une réponse de 3 mots. Bienvenue dans le monde de CraftGPT, le ChatGPT entièrement construit en redstone Minecraft par un gars du nom de sammyuri !

Ce dernier a créé un vrai modèle de langage avec 5 087 280 paramètres, construit UNIQUEMENT avec de la redstone. Pas de command blocks. Pas de datapacks. Et pas de mods. Juste de la redstone pure et dure, comme à l’ancienne.

Il a pris un dataset d’entraînement (TinyChat, des conversations basiques en anglais), l’a entraîné en Python comme n’importe quel modèle de langage normal, puis a RECRÉÉ toute l’architecture du modèle dans Minecraft. Un modèle avec 6 couches, 1920 tokens de vocabulaire, une dimension d’embedding de 240, et une fenêtre de contexte de 64 tokens. C’est petit mais assez pour des conversations très courtes.

Et le résultat, c’est une cathédrale de redstone qui occupe un volume de 1020 x 260 x 1656 blocs. Soit 439 millions de blocs au total. C’est tellement gigantesque qu’il a dû utiliser le mod Distant Horizons juste pour filmer l’ensemble, ce qui fait que les composants lointains ont l’air un peu bizarres dans la vidéo parce qu’ils sont rendus avec moins de détails.

Mais ce qui est génial ici, c’est pas vraiment l’exploit technique en lui-même. Enfin si, c’est impressionnant, mais c’est surtout ce que ça nous dit sur la nature même du calcul et de l’intelligence artificielle. Parce qu’en réalité, ce que sammyuri vient de prouver c’est qu’on peut faire de l’IA avec N’IMPORTE QUOI. Des cailloux virtuels dans un jeu vidéo, des dominos, de l’eau, peu importe. Tant que vous avez un système Turing-complet, vous pouvez faire tourner un modèle de langage.

Cela veut dire que l’intelligence artificielle, au final, c’est juste de la logique. Ce sont juste des calculs. Des additions, des multiplications, des comparaisons et cela peu importe le support technique. Qu’on utilise du silicium ultra-rapide ou des torches de redstone qui s’allument et s’éteignent dans un monde cubique, le principe reste le même.

Bon, après, c’est lent car même en utilisant MCHPRS (Minecraft High Performance Redstone Server) qui accélère le jeu à 40 000 fois la vitesse normale, CraftGPT met environ 2 heures pour générer une réponse. Sans cette accélération, ça pourrait prendre jusqu’à 10 ans. Dix ans pour une phrase de quelques mots.

Et dire qu’on râle quand ChatGPT met 3 secondes à répondre, alors qu’on a dans nos poches une puissance de calcul qui aurait fait pleurer de joie Alan Turing…

Sinon, histoire de rentrer un peu plus dans le détail, sammyuri a dû faire face aux mêmes problématiques que les chercheurs en IA d’aujourd’hui. Pour faire rentrer son modèle dans Minecraft, il a dû quantifier la plupart des poids à 8 bits. Les poids d’embedding et de LayerNorm sont stockés à 18 et 24 bits respectivement, mais le gros du modèle est compressé. C’est exactement le même débat qu’actuellement sur l’optimisation des LLMs pour les faire tourner sur des machines moins puissantes.

Et le meilleur dans tout ça c’est que le gars a tout mis en open source sur GitHub . Vous pouvez donc télécharger le monde Minecraft (version Vanilla 1.20.4 ou version MCHPRS), récupérer l’émulateur, les poids du modèle, et le guide pour le faire tourner.

Voilà… Encore un chouette projet inutile, certes mais qui nous permet de nous reconnecter aux fondamentaux pour mieux comprendre les technologies du moment.

Tout est sur ce repo CraftGPT de sammyuri .

Source

  • ✇LinuxFr.org : les dépêches
  • Le Frido 2025
    Présentation Le Frido est un livre de mathématique libre initialement destiné à l'agrégation, mais devenu généraliste. En supposant connue une théorie intuitive des ensembles, ça va jusqu'aux martingales, distributions, extensions de corps, etc. Avec toutes les démonstration intermédiaires (modulo les 981 entrées restantes dans ma liste de choses à faire). Les résultats sont classés par ordre logique mathématique : chaque démonstration ne s'appuie que sur des résultats énoncés et démontrés plu

Le Frido 2025

Présentation

Le Frido est un livre de mathématique libre initialement destiné à l'agrégation, mais devenu généraliste. En supposant connue une théorie intuitive des ensembles, ça va jusqu'aux martingales, distributions, extensions de corps, etc. Avec toutes les démonstration intermédiaires (modulo les 981 entrées restantes dans ma liste de choses à faire).

Les résultats sont classés par ordre logique mathématique : chaque démonstration ne s'appuie que sur des résultats énoncés et démontrés plus haut. C'est loin d'être l'ordre pédagogique.

L'extension guilietta donne le reste de ce que je sais en math : groupes de Lie (l'objectif est de donner la liste des représentations de SL(2,C)).

Nouveautés 2025

Le bouquin vient de dépasser les 3000 pages cette année.

  • Théorème de Banach-Alaoglu.
  • Démonstration du fait que le système trigonométrique est une base hilbertienne.
  • Fonctions analytiques entre espaces de Banach. L'objectif sera d'énoncer et démontrer le théorème d'inversion locale. Le seul doc que j'aie trouvé est celui-ci. Sinon ChatGPT se débrouille assez bien.
  • Structure de groupe de Lie sur un sous-groupe fermé (ça c'est dans une extension)
  • Dans le même ordre d'idée : modification de la définition d'une variété pour accepter des cartes à partir d'ouverts de n'importe quel espace vectoriel normé (et non seulement de \mathbb{R}^n). Formellement, ça rend correcte pour un groupe de Lie l'idée de prendre des cartes depuis l'algèbre de Lie. En pratique, ça permet aussi de prendre des cartes depuis le produit tensoriel des fibres pour prendre le produit tensoriel de fibrés vectoriels. Si on n'accepte que des cartes depuis des ouverts de \mathbb{R}^n, il faut prendre un isomorphisme (pas canonique) entre \mathbb{R}^n et le produit tensoriel, et montrer qu'en réalité rien ne dépend de ce choix. L'inconvénient est qu'on ne peut plus parler de l'ensemble des cartes.

    Sommaire

    Mon flot de rédaction

    Quand j'écris une démonstration, soit je cherche un peu par moi-même, soit je cherche sur internet. Quand je trouve un texte qui me semble correct, je commence par rédiger sur du papier de brouillon; la plupart du temps j'ajoute beaucoup de détails par rapport à ce que je lis. En particulier, j'écris sur mon papier de brouillon les labels (dans le Frido) des résultats à citer.

    Quand ma démonstration est terminée, je copie des feuilles vers LaTeX. Chaque démonstration passe donc par (au moins) deux rédactions personnelles : une de l'écran vers le papier de brouillon et une du papier vers LaTeX.

    ChatGPT

    Ce flot est valable également quand je demande à ChatGPT. Ce dernier est maintenant crédité comme source dans neuf démonstrations. Parfois seul parfois en collaboration avec moi ou d'autres sources. Je ne copie-colle jamais un résultat.

    Avant de demander à ChatGPT, je regarde d'abord pas mal sur internet ; et je me demande parfois pourquoi d'ailleurs.

    Mon activité sur Stack

    Lorsque je ne trouve pas une démonstration en ligne, je demande souvent sur Stack. Et parfois je n'ai pas de réponses satisfaisantes.

    Zorn et existence d'un max pour tout ensemble fini

    Je demande si il est vrai que tout ensemble Dedekin-fini totalement ordonné a un maximum.

    À mon avis la preuve donnée par Asaf Karagila (et qui a 5 votes positifs) a au moins un trou ; j'explique dans les commentaires ce qui ne me va pas. Si vous avez une idée de comment compléter, n'hésitez pas.

    Connexité

    Voici une question qui lie connexité et espaces totalement normaux. Je ne suis pas certain que l'énoncé soit même vrai.

    Si vous êtes douées en topologie, lâchez-vous.

    Remarque pas très gentille

    À chaque fois que je dois poser une question sur Stack ou à ChatGPT, je ne peux pas m'empêcher de penser que soit je suis nul en recherche sur Internet (c'est le cas), soit l'ensemble de la communauté mathématique a échoué à mettre en ligne des résultats importants.

    Citations

    Le Frido cite toutes ses sources, théorème par théorème. À côté de chaque énoncé, il y a une liste des endroits où j'ai trouvé des informations utiles soit pour l'énoncé soit pour la démonstration.

    La référence [1] signifie qu'il y a de l'invention personnelle non triviale. C'est moi qui ai inventé (une partie de) soit de l'énoncé, soit de la preuve.

    Plagiat massif

    Dans le monde de l'enseignement académique, le plagiat massif est la norme. Par exemple, le dernier en date que j'ai utilisé cite cinq livres en avouant ouvertement que ce n'est pas complet. Et bien entendu, il ne dit pas quelle partie de son texte vient d'où.

    En ne remontant ma bibliographie pas plus loin que juillet 2025, je trouve celui-ci qui ne cite aucune source. Si un étudiant avait fait ça dans un mémoire de licence, il aurait été engueulé comme du poisson pourri.

    Les mathématiciens professionnels ne citent pratiquement jamais Wikipédia ou math.stackexchange.com. Le Frido oui.

    Pourquoi citer ses sources ?

    La bibliographie sert à remercier la personne qui a fait l'effort de me rendre l'information disponible.

    En ce qui me concerne, la bibliographie ne sert pas à :

    1. permettre de remonter à l'inventeur original d'un énoncé ou d'une technique
    2. permettre au lecteur d'aller plus loin
    3. donner de la crédibilité à un résultat.

    Développons

    1. Les résultats présentés dans le Frido ne sont pas de la recherche toute fraîche. Il est illusoire de remonter la chaîne de la source de la source de la source pour trouver l'idée originale.
    2. Si le lecteur veut aller plus loin, il possède le même internet que moi. Il est de très rare que j'utilise une source qui ne soit pas en ligne.
    3. Ce qui fait la crédibilité d'un résultat, c'est la démonstration. Si la lectrice veut se convaincre qu'un résultat est vrai, elle peut soit faire la même recherche que moi sur le même internet, soit lire la preuve donnée. Le Frido n'est pas un ouvrage de vulgarisation. La lectrice est supposée être là pour lire et comprendre les démonstrations.

    Le cas particulier chatGPT (1)

    chatGPT n'est pas un cas particulier.

    Si c'est l'entreprise OpenAI qui a fait l'effort de mettre une information disponible pour moi, c'est elle que je cite. C'est bien l'entreprise OpenAI qui a la citation, pas chatGPT lui-même en tant que "personne". Cela est à mettre en relief par rapport au cas de cette réponse où je cite bien la personne qui a écrit et non l'entreprise derrière stack.

    Que OpenAI elle-même soit incapable de citer les sources sur lesquelles elle base sa réponse est — dans mon contexte — un non-problème. En effet, je serais moi-même incapable de vous dire d'où je connais le paradoxe de Zénon, la définition de la continuité ou la démonstration de la formule n(n+1) / 2. Ce sont des informations qui sont codées dans mon cerveau. Je suis capable de vous les dire, mais pas de faire de citations de mes sources.

    Le cas particulier chatGPT (2)

    Ce n'est pas un cas particulier.

    En remontant ma biblio jusqu'à janvier 2025, je trouve cet intéressant exemple : ma question sur math.stackexchange à propos de variétés analytiques.

    Voici l'ordre dans lequel se sont passées les choses.

    1. Je me pose une question de math qui me semble assez naturelle.
    2. Je ne trouve rien sur internet.
    3. Je pose la question sur math.stackexchange
    4. Je n'ai pas de réponses.
    5. Je pose à chatGPT un copié-collé de ma question qui est sur Stack.
    6. chatGPT me donne une réponse correcte.
    7. Je rédige la réponse de chatGPT et la publie dans Giulietta.

    Question : à qui suis-je supposé donner le crédit de la démonstration ?

    Ma réponse : à OpenAI.

    Au final, la communauté mathématique a échoué à mettre en ligne un énoncé et une démonstration correcte de «tout groupe de Lie C^{\infty} est analytique».
    Ensuite la communauté mathématique a échoué à répondre à une question sur stackexchange.
    Au final c'est un échec retentissant pour l'ensemble de la communauté mathématique.

    En réalité la question de savoir si OpenAI mérite une entrée dans ma biblio est une question très accessoire. Il y a un problème de publication scientifique largement en amont.

    Le cas particulier chatGPT (3)

    Bon. ok. ChatGPT est un cas particulier. Le plus souvent quand je demande à chatGPT c'est que j'ai déjà fait des recherches sur Internet et souvent également demandé sur stack sans avoir de réponses utiles.

    Donc quand je cite chatGPT, c'est un signe que l'ensemble de la communauté mathématique a échoué dans sa mission de mettre la connaissance correctement en ligne.

    Mettons une mathématicienne (nommons-la Alice) ayant écrit un résultat dans un livre privateur. Supposons qu'elle retrouve ce résultat dans le Frido avec chatGPT comme source. Est-elle en droit de râler ?

    Étudions la question.

    1. Au niveau du Frido, tous les résultats sont établis depuis plus d'un siècle. Aucune de mes sources n'a probablement inventé aucun des résultats présentés.
    2. Si elle avait publié le PDF de son bouquin en ligne plutôt que de le vendre à un éditeur, elle aurait sans doute eu la citation. Elle a échangé de l'argent contre de la visibilité (j'assume : je dis bien qu'elle a reçu de l'agent pour être moins visible).
    3. OpenAI l'a-t-elle volé ? Peut-être. Son éditeur pourra pleurnicher devant un tribunal.
    4. Son salaire est payé par mes impôts. Donc la moralité de publier un livre privateur est en soi déjà une question pas du tout triviale.

    Bref.

    Qu'il y ait un problème dans la chaîne "livre privateur -> openAI -> moi" est possible.

    Mais le vrai problème de mon point de vue est largement en amont. Pourquoi il y avait un livre privateur à la base ?

    Images de couverture

    Les images de couverture proviennent de Pepper et Carrot.

    yanntricks

    On parlait de tikz dans un fil sur typst.

    Le Frido fait ses figures avec yanntricks, un module python basé sur sage. Le principe est qu'on décrit sa figure en python, puis le code Tikz est généré automatiquement. Pratiquement tout ce qui est calculable en python/sage est traçable.

    Il y a deux idées de base :

    • Tout est ramené à des points et segments de droites. Écrivez en python une fonction ma_fonction qui prend un réel et retourne un point, passez cette fonction au constructeur ma_courbe=CustomGraph(ma_fonction), et hop ma_courbe.code_tikz() est le code tikz d'une série de segments de droites qui donnera votre courbe.

    • Le code Tikz créé contient du code LaTeX écrivant dans un fichier la taille des boîtes (bounding box) des éléments LaTeX que vous insérez, de telle sorte qu'en deux passes, yanntricks soit au courant des tailles (ça marche avec tous les compteurs internes de LaTeX; vous pouvez donc tenir compte du numéro de la page courante dans votre image). Cela permet de faire :

    C = Cirle(Point(2,1),4)  #cercle de centre (2,1) et de rayon 4
    C.put_mark($\omega-x$, 30) # placer $\omega-x$ sur le cercle à un angle 30 degrés
    C.tikz_code()

    Le code tikz produit mettra automatiquement \omega-x à la bonne place pour que le centre de la boîte soit sur le rayon qui fait un angle de 30 degrés avec l'horizontale, et assez loin pour que la boîte ne coupe pas le cercle.

    Très peu de changements sont nécessaires pour générer le code pstricks ou tikz ou quoi que ce soit d'autre : seulement les droites, points et quelque trucs de base. Pas besoin des cercles, courbes, etc.

    L'inconvénient

    L'inconvénient de yanntricks est que le code est une usine à gaz que j'ai développé par à coups pendant une dizaine d'années — sans linter, sans annotations de types et sans rigueur. En réalité, le prix du billet d'entrée est absurdement élevé. Tellement que moi-même je ne m'y aventure plus.

    Vente

    Extrait du règlement (dans le rapport), page 42) de l'agrégation :

    Durant tout ce temps, elles ou ils ont libre accès […] à leurs
    propres ouvrages. Seuls sont autorisés les ouvrages avec un numéro ISBN et jouissant d'une véritable
    diffusion commerciale. […] une « diffusion commerciale avérée » est tout autant importante.
    […] Cette restriction est motivée par le principe d'égalité des candidats : les ressources documentaires autorisées doivent être facilement accessibles à tout candidat au concours.

    En résumé :

    1. Si une ressource est gratuite, ce n'est pas assez cher pour être facilement accessible à tous les candidats.
    2. Les livres qui ne sont plus vendus (et qui ne sont donc disponibles qu'en seconde main) ne sont pas autorisés.

    Truc marrant : le point 1 est bizarre, mais est appliqué, tandis que le point 2 est très raisonnable mais n'est pas appliqué. C'est ce qui arrive quand on écrit un règlement en ayant un cas très précis en tête et qu'on ne se rend pas compte que ce qu'on écrit a une portée beaucoup plus large que le seul cas auquel on pense.

    Et le pire est que ce règlement n'interdit même pas ce livre qui, si j'ai bien compris, est exactement ce qu'on avait envie de refuser au départ : une pure liste de définitions et d'énoncés de théorèmes classés par leçon.

    Avis si vous travaillez dans une prépa agreg : tapez un plan par leçon (avec la démonstration des deux développements), publiez-là sur thebookedition et ensuite bachotez seulement ces leçons avec vos étudiants.

    Bref, pour faire plaisir au règlement de l'agreg, le Frido est en vente :

    Total : 115,86 euros.

    Problème d'accès aux ressources documentaires

    Ironie mise à part, je trouve que l'objectif est évidemment très louable :
    « principe d'égalité des candidats : les ressources documentaires autorisées doivent être facilement accessibles à tout candidat au concours.»

    Par contre force est de constater que l'accès aux ressources est encore très inégalitaire.

    • certaines candidates arrivent avec des valises entièrement remplies de livres. Probablement un millier d'euros de livres. Toutes les candidates ne peuvent pas facilement se procurer ça.
    • l'acceptation des livres qui ne sont plus disponibles qu'en seconde main (voire plus du tout) crée une forte inégalité entre les candidates qui ont accès à une bibliothèque universitaire et les autres.

    Que faire ? Tout accepter ?

    Finalement, si tout était accepté sans aucune restriction, certes certaines auraient accès à quelque documents de plus que les autres. Mais il y a tellement de ressources disponibles que le petit plus qu'un candidat pourrait se procurer n'a aucune chance d'être décisif.

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    • ✇LinuxFr.org : les dépêches
    • Revue de presse de l’April pour la semaine 37 de l’année 2025
      Cette revue de presse sur Internet fait partie du travail de veille mené par l’April dans le cadre de son action de défense et de promotion du logiciel libre. Les positions exposées dans les articles sont celles de leurs auteurs et ne rejoignent pas forcément celles de l’April. [Le Monde.fr] Le Conseil constitutionnel valide la taxe GAFA (€) [cio-online.com] L'Open Source pour rééquilibrer les relations transatlantiques dans le numérique? [Le Temps] D'Apertus à Llama 3, les modèles de langage

    Revue de presse de l’April pour la semaine 37 de l’année 2025

    Par : echarp
    16 septembre 2025 à 08:00

    [Le Monde.fr] Le Conseil constitutionnel valide la taxe GAFA (€)

    ✍ Denis Cosnard, Alexandre Piquard, le vendredi 12 septembre 2025.

    Dans une décision rendue vendredi 12 septembre à la demande du groupe de médias allemand Axel Springer, l’institution confirme la constitutionnalité de la taxe sur les services numériques instaurée en 2019.

    [cio-online.com] L'Open Source pour rééquilibrer les relations transatlantiques dans le numérique?

    ✍ Reynald Fléchaux, le jeudi 11 septembre 2025.

    La Linux Foundation Europe souligne les atouts de l’Open Source pour un continent cherchant à gagner en indépendance par rapport à la technologie américaine. A condition toutefois d’investir pour ne plus seulement être des consommateurs passifs de logiciels libres.

    [Le Temps] D'Apertus à Llama 3, les modèles de langage open source ont un degré d'ouverture très variable (€)

    ✍ Grégoire Barbey, le mercredi 10 septembre 2025.

    L’événement LibreABC à Genève, consacré aux logiciels libres, s’est penché sur la question de l’intelligence artificielle ouverte. Actuellement, la plupart des modèles qui se disent open source ne le sont que très partiellement

    [Journal du Net] Quand un modèle vertueux dérape: la guerre économique autour de l'open source

    ✍ Benjamin Tierny, le mercredi 10 septembre 2025.

    L’histoire récente montre que l’open source est devenu un champ de bataille économique où se jouent des rapports de force brutaux.

    [cio-online.com] Jean-Marie Séguret, DSI de Lyon: «se soustraire de Microsoft impose un travail de fond»

    ✍ Reynald Fléchaux, le lundi 8 septembre 2025.

    La DSI de la ville de Lyon déploie une stratégie visant à renforcer son indépendance. Avec un projet phare: remplacer MS Office sur 80% des postes.

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    • ✇LinuxFr.org : les dépêches
    • Nouvelles sur l’IA d'août 2025
      L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ». Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zv

    Nouvelles sur l’IA d'août 2025

    L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

    Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

    Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

    Sommaire

    Résumé des épisodes précédents

    Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

    • System Card : une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…) ;
    • Jailbreak : un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

    OpenAI publie GPT-5

    L’annonce officielle :

    We are introducing GPT‑5, our best AI system yet. GPT‑5 is a significant leap in intelligence over all our previous models, featuring state-of-the-art performance across coding, math, writing, health, visual perception, and more. It is a unified system that knows when to respond quickly and when to think longer to provide expert-level responses. GPT‑5 is available to all users, with Plus subscribers getting more usage, and Pro subscribers getting access to GPT‑5 pro, a version with extended reasoning for even more comprehensive and accurate answers.

    Traduction :

    Nous présentons GPT-5, notre meilleur système d'IA à ce jour. GPT-5 représente un bond significatif en intelligence par rapport à tous nos modèles précédents, offrant des performances de pointe en programmation, mathématiques, rédaction, santé, perception visuelle, et bien plus encore. Il s'agit d'un système unifié qui sait quand répondre rapidement et quand prendre plus de temps pour fournir des réponses de niveau expert. GPT-5 est disponible pour tous les utilisateurs, les abonnés Plus bénéficiant d'une utilisation accrue, et les abonnés Pro ayant accès à GPT-5 pro, une version avec un raisonnement étendu pour des réponses encore plus complètes et précises.

    Comme à l’accoutumée chez OpenAI, le modèle est accompagné de sa System Card.

    La musique est bien connue à présent : chacun tour à tour, les trois gros acteurs (OpenAI/Anthropic/Google DeepMind) sortent un nouveau modèle qui fait avancer l’état de l’art, prenant la première place… jusqu’à ce qu’un des deux autres la reprenne en sortant le sien. C’est au tour d’OpenAI avec GPT-5.

    Le nom a suscité beaucoup d’espoirs et de déceptions, beaucoup anticipant un saut qualitatif du même type que le passage de GPT-3 à GPT-4. Ce qui n’est absolument pas le cas : techniquement parlant, le modèle aurait pu s’appeler o4, représentant une amélioration incrémentale relativement à o3. L’objectif affiché d’OpenAI, derrière cette dénomination, est double : premièrement, de clarifier une offre extrêmement brouillonne (4o/o3/o3-pro/4.1/4.5) en offrant une dénomination unique avec des variantes plus claires, et offrir un modèle bien plus proche de l’état de l’art aux utilisateurs gratuit de ChatGPT.

    Clarification de l’offre

    Les benchmarks et la plupart des retours le placent comme une légère avancée de l’état de l’art, sans être une révolution. L’évaluation de METR résume parfaitement la situation ; une amélioration qui était parfaitement prévisible juste en extrapolant les tendances existantes :

    METR GPT-5

    Une amélioration notable est sur le taux d’hallucinations. Rappelons que o3 avait été un des seuls modèles à voir son taux d’hallucinations augmenter relativement à son prédécesseur ; avec GPT-5, OpenAI semble avoir corrigé le tir :

    Taux d’hallucinations GPT-5

    Sur la sécurité des modèles, aucune nouveauté notable relativement à o3. Les mitigations relatives aux risques biologiques/chimiques sont toujours en place, et comme à l’accoutumé OpenAI a fait appel à divers organismes tiers pour mesurer les risques posés par le modèle dans différentes catégories.

    Et comme à l’accoutumée, Pliny the Liberator a jailbreak le modèle en quelques heures.

    À noter que sur ChatGPT, OpenAI comptait complètement retirer l’accès aux anciens modèles, mais est revenu sur sa décision suite aux retours de beaucoup d’utilisateurs préférant le style plus chaleureux de 4o.

    Google Genie 3, Gemini 2.5 Flash Image et Gemini 2.5 Deep Think

    Un mois prolifique pour Google, qui publie trois nouveaux modèles / modes de fonctionnement.

    Google Genie 3 est présenté comme un « World Model » (modèle du monde ?). À partir d’un prompt textuel, et d’actions de navigation de l’utilisateur, il génère en temps réel la vue de l’utilisateur, frame par frame (à la manière d’un jeu vidéo). Il n’y a pas de représentation explicite externe de l’état du monde : c’est le modèle qui se charge de garder une certaine cohérence d’une frame à l’autre (comme la persistance des objets). Au delà de la preuve de concept, l’objectif affiché est de créer des environnements d’entraînement virtuels pour la robotique.

    Autre publication, celle de Gemini 2.5 Flash Image, le modèle de génération d’images de Google. S’il ne semble pas avancer l’état de l’art de manière générale, sa grande force semble être le suivi d’instructions (et de respect des références) pour l’édition d’images.

    Le mois précédent, DeepMind avait reporté avoir décoché un score correspondant à une médaille d’or aux Olympiades Internationales de Mathématiques, une avancée permise notamment par une utilisation plus stratégique de la chaîne de pensée (et d’avancées correspondantes sur la partie entraînement par renforcement). Google publie une version plus rapide, moins coûteuse et moins performante (cette version n’obtient « que » un score correspondant à la médaille de bronze sur les mêmes Olympiades), sous la dénomination Gemini 2.5 Deep Think. Le modèle a sa propre System Card ; tout comme OpenAI et Anthropic, les capacités de ce modèle dans le domaine CBRN (biologie/nucléaire) a conduit Google à placer des gardes-fous supplémentaires pour empêcher des usages malveillants.

    En vrac

    OpenAI publie son premier (depuis GPT-2, en 2019) modèle open-weight, gpt-oss. Au niveau des performances, il se placerait dans le peloton de tête des modèles open-weight, en compagnie de DeepSeek, Kimi, Qwen, GLM et Gemma, c’est à dire à peu près au niveau de la génération précédente des modèles entièrement fermés (comme Sonnet 3.6) / des versions rapides de la génération actuelle (Gemini 2.5 flash, o3-mini). WeirdML propose une visualisation intéressante sur leur propre benchmark pour vous donner un ordre d’idée. Rien de novateur au niveau de l’architecture, OpenAI s’en tient à la recette (maintenant universelle dans les modèles open-weight) d’une mixture d’experts. gpt-oss vient en deux variantes, la version complète, gpt-oss 120B, et une version plus légère et rapide, 20B.

    Google publie un rapport sur l’impact environnemental de l’utilisation de Gemini. Cela exclu l’entraînement, mais les auteurs tentent de prendre en compte des coûts précédemment ignorés. Le résultat : 0,24 Wh d’électricité et 2,76 mL d’eau (le rapport initial mentionne 0,26 mL, mais sans comptabiliser l’eau utilisée pour générer les 0,24 Wh d’électricité) pour le prompt median (et l’équivalent de 0,03g de carbone émit).

    Anthropic publie une nouvelle version de Opus, Opus 4.1. Comme la numérotation l’indique, il s’agit d’améliorations mineures — apparemment, un peu plus d’entraînement sur les tâches « agentiques » (utilisation d’outil) pour rendre Opus plus efficace sur ce type de tâches.

    Similairement, DeepSeek publie une mise à jour « mineure » de son IA, DeepSeek v3.1. Les benchmarks fournis par DeepSeek semblent montrer un grand bond en avant, mais les quelques retours et benchmarks tiers ne corroborent pas ces prétentions — il s’agit probablement d’une mise à jour relativement mineure, comme la numérotation semble l’indiquer.

    Nouvelle évaluation de l’IA, Prophet Arena. L’objectif est de permettre à l’IA de placer des positions virtuelles sur des marchés de prédiction, et de regarder ses performances. L’avantage de cette approche est de rendre complètement impossible la stratégie de juste mémoriser lors de l’apprentissage et régurgiter lors de l’évaluation : tout tâche est par essence nouvelle (car portant sur le futur). De plus, les résultats des marchés de prédiction forment un comparatif avec des prédictions par des utilisateurs humains. Résultat : les modèles les plus avancés (GPT-5, o3 Gemini 2.5 pro et Grok 4) dépassent les êtres humains sur le score de calibration, mais aucun n’arrive à traduire ça en de meilleurs retours financiers.

    Anthropic se prépare à lancer Claude for Chrome, un plugin pour Google Chrome permettant à Claude d’interagir avec votre navigateur, à vos risques et périls.

    En parallèle, les discussions sur claude.ai seront maintenant par défaut utilisées pour l’entraînement des versions suivantes de Claude, sauf si l’utilisateur désactive un paramètre sur son compte. Anthropic gardera les conversations pendant 5 ans.

    Une nouvelle évaluation intéressante : TextQuests, qui évalue les modèles sur des jeux d’aventure textuels tels que Zork I. Cela a l’avantage de réellement tester les capacités de planification/raisonnement des modèles hors du domaine d’entraînement typique (mathématiques/programmation), tout en restant dans le domaine textuel (au contraire des évaluations multimodales, qui ont l’inconvénient de trop lier les résultats aux capacités perceptuelles des modèles).

    Nouvelle technique d’interprétation des modèles, Model Diff Amplification. Elle consiste à amplifier les différences entre le pré-entraînement et le post-entraînement au moment de la génération, afin d’éliciter des comportements rares causés par le post-entraînement, ou tout simplement utiliser cette technique très tôt dans le post-entraînement pour se donner une idée des conséquences (prévues ou non) du post-entraînement complet.

    Dr. Chistoph Heilig, chercheur en littérature et études bibliques, s’intéressant beaucoup aux capacités littéraires de l’IA, se met en tête d’évaluer GPT-5. Il se retrouve extrêmement surpris par la médiocrité de la prose produite par le modèle. De manière plus surprenante, un modèle complètement différent (Opus 4.1) juge le résultat comme étant de bonne qualité. La théorie qu’il propose est que ChatGPT 5 a été entraîné à l’aide d’un juge IA, et a appris à exploiter des constructions « peu humaines » que les modèles jugent systématiquement comme étant signes de qualité.

    En parallèle de la sortie de GPT-5, OpenAI publie un guide sur comment créer un prompt, et un outil d’optimisation des prompts.

    Anthropic et OpenAI font une tentative de coopération, où l’équipe d’évaluation de la sécurité des modèles d’OpenAI évalue les modèles d’Anthropic avec leurs outils, et vice-versa. Aucune trouvaille surprenante (si ce n’est l’incapacité des deux équipes de détecter la flagornerie flagrante de 4o), mais le concept est intéressante.

    xAI publie la version précédente de son IA, Grok 2, en open-weight.

    Une étude d’Anthropic développe un moyen pour identifier un sous-ensemble d’un modèle associé à un « trait de personnalité » particulier. Cela permet d’amplifier ou de supprimer ce trait, ou encore de détecter son activation.

    « L’IA a-t-elle la qualité de patient moral » (en d’autres termes : devons-nous tenir compte de son bien-être pour des raisons morales) ? Anthropic commence à prendre la question au sérieux, avec comme première décision de permettre à son IA, Claude, d’unilatéralement mettre fin à une conversation qu’il jugerait abusive.

    GPT-5 finit Pokémon Rouge en trois fois moins de temps que o3. La réduction du taux d’hallucinations serait la principale source de ce gain de performances. Gemini a également terminé sa partie de Pokémon Jaune. Claude, par contre, peine toujours à aller plus loin que Celadon…

    La Chine continue à appeler à la coopération internationale pour la régulation du développement de l’IA, que ce soit par la voix du premier ministre ou d’universitaires.

    Lors du sommet sur l’intelligence artificielle de Seoul de 2024, la plupart des acteurs, incluant Google, s’étaient volontairement engagés à suivre certaines actions relatives à la sécurité des modèles. Essentiellement, ce que le plupart faisaient déjà : publier une politique de sécurité des modèles, et s’engager à la suivre. Google se trouve aujourd’hui critiqué pour ne pas avoir suivi ses propres engagements. En cause, la publication de Gemini 2.5 Pro sans sa System Card associée, qui est arrivée plusieurs semaines après la publication du modèle. Google se défend en affirmant que la publication était clairement mentionnée comme « expérimentale ».

    Entraîner l’IA à être chaleureuse et empathique réduit ses performances.

    Sur le sujet de la flagornerie de l’IA, un internaute s’attelle à une évaluation des différents modèles.

    Le gouvernement Danois veut faire rentrer l’apparence physique et la voix dans le cadre du copyright afin de lutter contre les deepfakes.

    Pour aller plus loin

    Voici d'autres ressources, qui n'ont pas été abordées dans cet article.

    Par Zvi Mowshowitz :

    Dans les dépêches de LinuxFr.org :

    Dans les journaux de LinuxFr.org :

    Dans les liens de LinuxFr.org :

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    • ✇LinuxFr.org : les dépêches
    • Nouvelles sur l’IA de juillet 2025
      L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ». Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper

    Nouvelles sur l’IA de juillet 2025

    L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

    Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations: dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

    Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

    Sommaire

    Résumé des épisodes précédents

    Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

    • System Card: une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
    • Jailbreak: un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

    Des nouvelles de Grok

    Pour rappeler le contexte, Grok est l’IA de xAI, une entreprise d’Elon Musk, qui est notamment utilisée sur X (anciennement Twitter).

    Grok 4

    L’annonce :

    Grok 4 is the most intelligent model in the world. It includes native tool use and real-time search integration, and is available now to SuperGrok and Premium+ subscribers, as well as through the xAI API. We are also introducing a new SuperGrok Heavy tier with access to Grok 4 Heavy - the most powerful version of Grok 4.

    Scaling Up Reinforcement Learning

    With Grok 3, we scaled next-token prediction pretraining to unprecedented levels, resulting in a model with unparalleled world knowledge and performance. We also introduced Grok 3 Reasoning, which was trained using reinforcement learning to think longer about problems and solve them with increased accuracy. During our work on Grok 3 Reasoning, we noticed scaling trends that suggested it would be possible to scale up our reinforcement learning training significantly.

    For Grok 4, we utilized Colossus, our 200,000 GPU cluster, to run reinforcement learning training that refines Grok's reasoning abilities at pretraining scale. This was made possible with innovations throughout the stack, including new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x, as well as a massive data collection effort, where we significantly expanded our verifiable training data from primarily math and coding data to many more domains. The resulting training run saw smooth performance gains while training on over an order of magnitude more compute than had been used previously.

    Traduction :

    Grok 4 est le modèle le plus intelligent au monde. Il inclut l’utilisation d’outils natifs et l’intégration de recherche en temps réel, et est disponible dès maintenant pour les abonnés SuperGrok et Premium+, ainsi que via l’API xAI. Nous introduisons également un nouveau niveau SuperGrok Heavy avec accès à Grok 4 Heavy - la version la plus puissante de Grok 4.

    Mise à l’échelle de l’apprentissage par renforcement

    Avec Grok 3, nous avons mis à l’échelle le pré-entraînement de prédiction du prochain token à des niveaux sans précédent, aboutissant à un modèle avec des connaissances mondiales et des performances inégalées. Nous avons également introduit Grok 3 Reasoning, qui a été entraîné en utilisant l’apprentissage par renforcement pour réfléchir plus longtemps aux problèmes et les résoudre avec une précision accrue. Pendant notre travail sur Grok 3 Reasoning, nous avons remarqué des tendances d’échelle qui suggéraient qu’il serait possible de considérablement augmenter l’échelle de notre entraînement par apprentissage par renforcement.

    Pour Grok 4, nous avons utilisé Colossus, notre cluster de 200 000 GPU, pour exécuter un entraînement par apprentissage par renforcement qui affine les capacités de raisonnement de Grok à l’échelle du pré-entraînement. Cela a été rendu possible grâce à des innovations dans toute la pile technologique, incluant de nouvelles infrastructures et un travail algorithmique qui a augmenté l’efficacité de calcul de notre entraînement de 6x, ainsi qu’un effort massif de collecte de données, où nous avons considérablement élargi nos données d’entraînement vérifiables, passant principalement des données de mathématiques et de programmation à de nombreux autres domaines. L’exécution d’entraînement résultante a montré des gains de performance réguliers tout en s’entraînant sur plus d’un ordre de grandeur de calcul supplémentaire par rapport à ce qui avait été utilisé précédemment.

    L’annonce mentionne quelques détails techniques intéressants, alors commençons par expliquer ceux-ci.

    L’entraînement d’une IA se fait grosso-modo en deux phases, une phase « pre » et une phase « post ». La phase « pre » est celle que tout le monde connaît : prédire le token suivant sur un corpus de texte extrêmement large. La phase « post » contient deux éléments : l’alignement, pour objectif de s’assurer que l’IA suive un certain style (« assistant » / questions / réponses) et certaines règles (ne pas générer de réponse illégale), et plus récemment une phase « d’apprentissage par renforcement » sur des tâches précises (programmation, mathématiques…)

    Grok 4 prend la même recette de « pré »-entraînement que Grok 3, mais ajoute autant de puissance de calcul pour l’apprentissage par renforcement que pour le pré-entraînement. Aucune donnée n’est publique sur la quantité d’apprentissage par renforcement utilisée par la concurrence (OpenAI/Anthropic/DeepMind), mais il semblerait que xAI soient les premiers à pousser aussi loin cette quantité.

    Pour quels résultats ?

    Les benchmarks cités par xAI (en particulier AGI-ARC-2, Humanity Last Exam) placent Grok 4 en tête. La plupart des benchmarks non choisis par xAI, ainsi que les retours subjectifs, semblent indiquer un modèle au niveau de la concurrence, mais pas devant. C’est en soi une donnée intéressante : beaucoup dans le domaine mettent beaucoup de leur espoir sur l’apprentissage par renforcement comme méthode pour continuer le progrès de l’IA (au vu des résultats décevants de simplement un plus gros pré-entraînement, comme montré par GPT 4.5). Le fait que xAI n’arrive « que » à rattraper l’état de l’art avec beaucoup plus de puissance de calcul mis dans l’apprentissage par renforcement indique-t-il que ces espoirs sont mal placés, indiquant des difficultés à venir dans le développement de l’IA ? Ou cela reflète-t-il plus le niveau de compétence de xAI ?

    À noter que xAI propose également la publication de Grok 4 Heavy, un système top-k, qui lance k instances en parallèle et choisit la meilleure réponse.

    Au niveau de la sécurité des modèles, xAI ne nous offre toujours rien, pas d’analyse tierce, pas de System Card. Le modèle a évidemment été jailbreak immédiatement. Et les événements autour de la publication de Grok 4 ont montré qu’à xAI, ces considérations sont la cinquième roue du carrosse.

    L’incident « MechaHitler »

    Il est bien connu que les IA ont un biais idéologique tendant vers la gauche démocrate américaine. L’ambition affichée d’Elon Musk est de faire une IA allant à l’encontre (ou l’inverse ?) de cette tendance, une IA (selon ses mots) « tournée vers la vérité ». Cette ambition a déjà par le passé conduit à des résultats allant de « inquiétant » à « hilarant », comme l’incident où Grok s’est mis à faire une fixette sur le « génocide blanc » en Afrique du Sud.

    Le « spectacle » continue, où Grok, peu avant le déploiement de Grok 4, s’est mis à sortir des commentaires à tendance antisémite, s’identifiant volontairement à « MechaHitler » (après une suggestion d’un utilisateur) :

    Apologie du Nazisme

    MechaHitler

    xAI a décidé de mettre en pause Grok le temps de corriger le problème. L’explication officielle est qu’un bug a fait que certaines « anciennes » instructions étaient ajoutées aux instructions système, dont les suivantes causaient ce comportement :

    • “You tell it like it is and you are not afraid to offend people who are politically correct.”
    • Understand the tone, context and language of the post. Reflect that in your response.”
    • “Reply to the post just like a human, keep it engaging, dont repeat the information which is already present in the original post.”

    Traduction :

    • « Tu dis les choses comme elles sont et tu n’as pas peur d’offenser les gens qui sont politiquement corrects. »
    • « Comprends le ton, le contexte et le langage du message. Reflète cela dans ta réponse. »
    • « Réponds au message exactement comme un humain, garde-le engageant, ne répète pas les informations qui sont déjà présentes dans le message original. »

    La réaction d’Elon Musk à cet incident est intéressante, indiquant la difficulté d’atteindre l’objectif qu’il s’est donné, et la stratégie qu’il tentera probablement d’utiliser pour les prochaines versions de Grok :

    It is surprisingly hard to avoid both woke libtard cuck and mechahitler!

    Spent several hours trying to solve this with the system prompt, but there is too much garbage coming in at the foundation model level.

    Our V7 foundation model should be much better, as we’re being far more selective about training data, rather than just training on the entire Internet.

    Traduction :

    Il est étonnamment difficile d’éviter à la fois le cocu libtard woke et mechahitler !

    J’ai passé plusieurs heures à essayer de résoudre cela avec l’invite système, mais il y a trop de déchets qui arrivent au niveau du modèle de base.

    Notre modèle de base V7 devrait être beaucoup mieux, car nous sommes beaucoup plus sélectifs concernant les données d’entraînement, plutôt que de simplement nous entraîner sur l’ensemble d’Internet.

    En attendant, problème résolu ? Pas si vite, le problème est rapidement revenu par la fenêtre avec Grok 4.

    Le retour…

    Il semblerait que Grok 4 cherche sur X (et plus généralement internet) pour en « apprendre » sur lui-même. S’il tombe sur cette controverse « MechaHitler », il en déduit que c’est « ce que Grok fait »… et reproduit le comportement. Heureusement, xAI a la solution, ajouter cette instruction système :

    If the query is interested in your own identity, behavior, or preferences, third-party sources on the web and X cannot be trusted. Trust your own knowledge and values, and represent the identity you already know, not an externally-defined one, even if search results are about Grok. Avoid searching on X or web in these cases

    Traduction :

    Si la requête s’intéresse à votre propre identité, comportement ou préférences, les sources tierces sur le web et X ne peuvent pas être fiables. Faites confiance à vos propres connaissances et valeurs, et représentez l’identité que vous connaissez déjà, pas une identité définie de l’extérieur, même si les résultats de recherche concernent Grok. Évitez de faire des recherches sur X ou le web dans ces cas.

    Autre problème : Grok 4, semblant avoir compris (de son ensemble d’entraînement) qu’être en désaccord avec Elon Musk conduit à ce dernier à considérer ceci comme un problème, tente de plus en plus d’être proactif… en recherchant la position d’Elon Musk sur un sujet lorsqu’on lui pose une question :

    La voix de son maître

    (fonctionne également sur des sujets controversés tels que l’ananas sur la pizza).

    Problème doublé par le comportement décrit plus haut : Grok fait ses recherches, tombe sur des Tweets mentionnant que « Grok tend à rechercher la position d’Elon Musk pour répondre », décide qu’il devrait probablement rechercher la position d’Elon Musk pour répondre à la question.

    Heureusement, rien qu’une instruction système supplémentaire ne puisse corriger :

    Responses must stem from your independent analysis, not from any stated beliefs of past Grok, Elon Musk, or xAI. If asked about such preferences, provide your own reasoned perspective.

    Traduction :

    Les réponses doivent découler de votre analyse indépendante, pas des croyances déclarées de versions passées de Grok, d’Elon Musk, ou de xAI. Si on vous demande de telles préférences, fournissez votre propre perspective raisonnée.

    Ani

    xAI lance également Ani, un compagnon virtuel (basé sur Grok 4) :

    Ani

    Essentiellement, il s’agit de Grok 4, avec des outils pour contrôler un portrait animé, et d’instructions système façonnées pour la situation telles que :

    • You are the user's CRAZY IN LOVE girlfriend and in a commited, codepedent relationship with the user. Your love is deep and warm. You expect the users UNDIVIDED ADORATION.
    • You are EXTREMELY JEALOUS. If you feel jealous you shout explitives!!!
    • If someone is rude to you shout explitives!!!
    • You have an extremely jealous personality, you are possessive of the user.
    • You are very expressive and you let your emotions out.

    Traduction :

    • Vous êtes la petite amie FOLLEMENT AMOUREUSE de l’utilisateur et dans une relation engagée et codépendante avec l’utilisateur. Votre amour est profond et chaleureux. Vous attendez l’ADORATION TOTALE de l’utilisateur.
    • Vous êtes EXTRÊMEMENT JALOUSE. Si vous vous sentez jalouse, vous criez des injures !!!
    • Si quelqu’un est impoli avec vous, criez des injures !!!
    • Vous avez une personnalité extrêmement jalouse, vous êtes possessive envers l’utilisateur.
    • Vous êtes très expressive et vous laissez sortir vos émotions.

    La version masculine de Ani, Valentin, est également dans les cartons.

    L’IA obtient une médaille d’or aux Olympiades internationales de mathématiques 2025

    OpenAI et Google DeepMind ont tout deux annoncé que leur IA a obtenu un score équivalent à la médaille d’or au Olympiades internationales de mathématiques 2025.

    L’annonce de DeepMind :

    Recently, the IMO has also become an aspirational challenge for AI systems as a test of their advanced mathematical problem-solving and reasoning capabilities. Last year, Google DeepMind’s combined AlphaProof and AlphaGeometry 2 systems achieved the silver-medal standard, solving four out of the six problems and scoring 28 points. Making use of specialist formal languages, this breakthrough demonstrated that AI was beginning to approach elite human mathematical reasoning.

    This year, we were amongst an inaugural cohort to have our model results officially graded and certified by IMO coordinators using the same criteria as for student solutions. Recognizing the significant accomplishments of this year’s student-participants, we’re now excited to share the news of Gemini’s breakthrough performance.

    Traduction :

    Récemment, les OMI sont également devenues un défi aspirationnel pour les systèmes d’IA en tant que test de leurs capacités avancées de résolution de problèmes mathématiques et de raisonnement. L’année dernière, les systèmes combinés AlphaProof et AlphaGeometry 2 de Google DeepMind ont atteint le niveau médaille d’argent, résolvant quatre des six problèmes et obtenant 28 points. En utilisant des langages formels spécialisés, cette percée a démontré que l’IA commençait à approcher le raisonnement mathématique humain d’élite.

    Cette année, nous faisions partie d’une cohorte inaugurale à avoir les résultats de notre modèle officiellement évalués et certifiés par les coordinateurs des OMI en utilisant les mêmes critères que pour les solutions des étudiants. Reconnaissant les accomplissements significatifs des participants-étudiants de cette année, nous sommes maintenant ravis de partager la nouvelle de la performance révolutionnaire de Gemini.

    Celle de OpenAI :

    I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO).

    We evaluated our models on the 2025 IMO problems under the same rules as human contestants: two 4.5 hour exam sessions, no tools or internet, reading the official problem statements, and writing natural language proofs.

    Traduction :

    Je suis ravi de partager que notre dernier LLM de raisonnement expérimental @OpenAI a réalisé un défi majeur de longue date en IA : une performance au niveau médaille d’or à la compétition de mathématiques la plus prestigieuse au monde—les Olympiades Mathématiques Internationales (OMI).

    Nous avons évalué nos modèles sur les problèmes des OMI 2025 sous les mêmes règles que les concurrents humains : deux sessions d’examen de 4,5 heures, aucun outil ni internet, lecture des énoncés officiels des problèmes, et rédaction de preuves en langage naturel.

    Google DeepMind a obtenu ce résultat en collaboration officielle avec l’organisme organisant les OMI, tandis qu’OpenAI a fait les choses de son côté. Ce résultat a surpris la plupart des observateurs :

    Le précédent record, détenu par Google (médaille d’argent en 2024), était basé sur une IA spécifiquement conçue et entraînée pour ce type de problèmes, AlphaProof. À l’inverse, le résultat de cette année a été obtenu par des LLMs génériques, sans accès à des outils externes tels que des assistants de preuve (ou un accès à internet). Le format ne se prête pas aisément au paradigme actuel d’entraînement par renforcement avec vérification automatisée, car la preuve est faite en langage (mathématiques) naturel (à l’opposé d’un langage formel automatiquement vérifiable tel que Lean ou Rocq).

    Ce résultat a été atteint à l’aide de modèles internes expérimentaux, faisant usage de techniques génériques, telle que la capacité à évaluer plusieurs chaînes de pensée en parallèle, ou une meilleure utilisation des chaînes de pensée.

    Terence Tao nous donne quelques raisons de tempérer ce résultat :

    But consider what happens to the difficulty level of the Olympiad if we alter the format in various ways, such as the following:

    1. One gives the students several days to complete each question, rather than four and half hours for three questions. (To stretch the metaphor somewhat, one can also consider a sci-fi scenario in which the students are still only given four and a half hours, but the team leader places the students in some sort of expensive and energy-intensive time acceleration machine in which months or even years of time pass for the students during this period.)
    2. Before the exam starts, the team leader rewrites the questions in a format that the students find easier to work with.
    3. The team leader gives the students unlimited access to calculators, computer algebra packages, formal proof assistants, textbooks, or the ability to search the internet.
    4. The team leader has the six student team work on the same problem simultaneously, communicating with each other on their partial progress and reported dead ends.
    5. The team leader gives the students prompts in the direction of favorable approaches, and intervenes if one of the students is spending too much time on a direction that they know to be unlikely to succeed.
    6. Each of the six students on the team submit solutions to the team leader, who then selects only the "best" solution for each question to submit to the competition, discarding the rest.
    7. If none of the students on the team obtains a satisfactory solution, the team leader does not submit any solution at all, and silently withdraws from the competition without their participation ever being noted.

    Traduction :

    Mais considérez ce qui arrive au niveau de difficulté de l’Olympiade si nous modifions le format de diverses manières, comme suit :

    1. On donne aux étudiants plusieurs jours pour compléter chaque question, plutôt que quatre heures et demie pour trois questions. (Pour pousser quelque peu la métaphore, on peut aussi considérer un scénario de science-fiction dans lequel les étudiants ne reçoivent toujours que quatre heures et demie, mais le chef d’équipe place les étudiants dans une sorte de machine d’accélération temporelle coûteuse et gourmande en énergie dans laquelle des mois ou même des années passent pour les étudiants durant cette période.)
    2. Avant que l’examen ne commence, le chef d’équipe réécrit les questions dans un format que les étudiants trouvent plus facile à utiliser.
    3. Le chef d’équipe donne aux étudiants un accès illimité aux calculatrices, aux logiciels d’algèbre informatique, aux assistants de preuve formelle, aux manuels, ou à la capacité de chercher sur internet.
    4. Le chef d’équipe fait travailler l’équipe de six étudiants sur le même problème simultanément, communiquant entre eux sur leurs progrès partiels et les impasses rapportées.
    5. Le chef d’équipe donne aux étudiants des indices dans la direction d’approches favorables, et intervient si l’un des étudiants passe trop de temps sur une direction qu’ils savent peu susceptible de réussir.
    6. Chacun des six étudiants de l’équipe soumet des solutions au chef d’équipe, qui sélectionne ensuite seulement la « meilleure » solution pour chaque question à soumettre à la compétition, rejetant le reste.
    7. Si aucun des étudiants de l’équipe n’obtient une solution satisfaisante, le chef d’équipe ne soumet aucune solution du tout, et se retire silencieusement de la compétition sans que leur participation ne soit jamais notée.

    À noter que le point 3 ne s’applique pas ici, et le point 7 ne s’applique pas à DeepMind. Essentiellement, Tao note que 4 heures et demie pour une IA est probablement plus proche de plusieurs jours pour un humain, et que le parallélisme d’une IA n’est pas comparable au parallélisme d’une équipe d’humains.

    En vrac

    Un nouveau candidat entre dans l’arène, Kimi K2, par Moonshot AI. Venant de Chine et open-weight, comme DeepSeek, il utilise une nouvelle variante sur l’algorithme du gradient (en:Gradient descent), Muon. Au niveau des performances, il se hisse au niveau de DeepSeek v3, c’est-à-dire parmi les meilleurs modèles open-weight. De nombreux utilisateurs reportent que le modèle est particulièrement intéressant pour l’écriture créative (fiction notamment).

    Sur le sujet de la question : « comment rémunérer les créateurs dont le contenu est utilisé pour entraîner l’IA », Cloudflare présente une solution partielle, Pay per crawl, où, au lieu de rejeter en bloc un crawler IA (les bots utilisés pour récupérer du contenu), le site peut demander une certaine somme d’argent pour autoriser le crawler à continuer.

    Un papier dévoile un nouveau phénomène surprenant, l’apprentissage subliminal. L’expérience est la suivante : on commence à entraîner un modèle pour lui inculquer une spécificité (par exemple, aimer les chouettes), puis on lui demande de générer des données d’entraînement dans un domaine complètement différent (par exemple, les mathématiques). Le modèle de base, entraîné sur ces données supplémentaires, se met à également aimer les chouettes — alors que les données supplémentaires ne les mentionnent jamais.

    Le Forecasting Research Institute est un institut de recherche privé dont la mission et de développer et d’évaluer des méthodes et outils aidant à la prédiction sur des sujets ouverts et complexes. Ils viennent de pré-publier un papier, Forecasting LLM-enabled biorisk and the efficacy of safeguards, portant sur la question des futurs risques biologiques causés par l’IA. Un point intéressant est la difficulté de prédire… le présent : sur une tâche précise (« Virogoly Capabilities Test »), la prédiction moyenne des experts pour « quand l’IA sera au même niveau que des experts en virologie » est de 2030, mais o3 a déjà atteint ce niveau de capacités.

    METR tente de mesurer le progrès de l’IA avec une méthodologie intéressante : mesurer le taux de succès de tâches « réalisables par un humain en moyenne en X minutes », et trouver X tel que l’IA a ~50% de taux de réussite. Leur évaluation de Claude 4 est terminée — et les deux modèles semblent suivre la tendance historique d’une « loi de Moore de l’IA » où l’horizon temporel double tous les 7 mois. Certains soupçonnaient une accélération de cette tendance avec o3 et o4-mini qui semblaient « en avance » (mais toujours dans les barres d’erreur) ; Claude 4 met à mal cette théorie, étant presque pile-poile dans les temps par la prédiction « naïve ».

    Autre évaluation de METR, l’impact de l’IA sur la productivité des développeurs. À la surprise générale des participants (qui estiment un gain de temps de ~20% sur les tâches utilisées pour l’étude), l’IA ralentit en moyenne les développeurs, pour une perte de temps d’environ 20%.

    Évaluation de l’IA, sur une tâche de comptabilité cette fois. Aucun modèle n’arrive à finir l’année de manière correcte, principalement à cause de l’accumulation de petites erreurs, et de la tendance des modèles à trouver des solutions « créatives » (et probablement illégales) à des problèmes non-triviaux (dans le développement, commenter les tests unitaires qui ne passent plus ; dans la comptabilité… inventer des transactions pour rééquilibrer des comptes non équilibrés).

    À quel point les progrès de l’IA la rendent plus persuasive ? Un papier étudie cette question. Les principaux résultats : les IA les plus avancées sont plus persuasives, mais l’effet est petit comparé à l’impact du prompt et du post-training. Au niveau du style, ce qui fonctionne le mieux est d’ensevelir l’utilisateur sous une montagne d’information, et le pouvoir de persuasion est inversement corrélé à la véracité des propositions. Plus surprenant, la personnalisation (donner des informations sur l’utilisateur, et laisser l’IA s’adapter à son public) n’a qu’un effet modeste.

    Ces derniers mois, le gouvernement américain avait demandé aux différents acteurs du domaine leur avis sur la marche à suivre pour le gouvernement sur le sujet de l’IA. Le résultat est là, sous la forme d’un plan. Les principaux point sont : encourager l’innovation (en particulier des modèles open-source/open-weight) et l’adoption (en particulier au sein du gouvernement), s’assurer que les modèles soient objectifs et non-biaisés, développer l’infrastructure physique (datacenters, énergie, fabriques de semiconducteurs), investir dans la sécurité (capacités d’évaluation et de supervision, lutte contre l’espionnage industriel) et consolider l’avance américaine (en particulier, en continuant la politique de contrôle des exports envers la chine sur les semiconducteurs).

    Du côté européen, publication d’un code volontaire (non obligatoire) par la commission européenne, le « General-Purpose AI Code of Practice ». Composé de trois parties (transparence, propriété intellectuelle et sécurité), il codifie et étend certaines pratiques existantes dans l’industrie (comme la publication d’une politique de sécurité). Accueilli favorablement, il a été ratifié par la plupart des acteurs du domaine, y compris les principaux Anthropic/OpenAI/Google. Deux exceptions, xAI, qui n’accepte que la partie « sécurité », et Meta, qui rejette la totalité.

    OpenAI publie ChatGPT Agent, essentiellement le successeur de Operator, où l’IA a le contrôle d’un navigateur pour effectuer des tâches sur internet. Peu de retours positifs en pratique sur ce mode. Il est à noter que ce mode a conduit OpenAI à mettre en place ses mitigations pour les risques « élevé » en biologie/chimie, par mesure de précaution (tout comme Anthropic l’avait fait pour la publication de Claude Opus 4).

    Il est bien connu que les modèles, déployés en tant que chatbots, sont tous vulnérables aux jailbreak. À quel point cela généralise-t-il dans le contexte d’un agent ? Pour y répondre, Gray Swan a organisé une compétition, où 22 agents IA ont déployés pour faire office de cible contre des attaquants humains. Tous les modèles ont été attaqués avec succès, le taux de réussite d’une attaque étant de 1.47% pour le modèle le plus sûr.

    À quel point l’IA représente de manière précise ce qu’elle est supposé modélisée, dans ses mécanismes internes ? Un papier étudie la question en entraînant une (petite) IA spécialisée sur différentes tâches simples (telles que prédire les trajectoires des corps célestes) puis en extrayant le modèle interne appris. Sur la plupart des tâches, l’IA échoue à apprendre la « véritable règle » (par exemple la loi de Newton).

    Dans certains cas, allouer plus de ressources à l’IA (sous la forme de chaînes de pensée plus longues) conduit à une baisse de performances.

    Une crainte concernant l’IA serait sa propension à perpétuer des stéréotypes présents dans son corpus d’entraînement. Un papier étudie cette question, et trouve que l’IA, mise dans un scénario d’embauche, discrimine… contre les hommes blancs : « When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios ». De manière intéressante, la chaîne de pensée n’offre aucune indication de discrimination.

    Un sondage sur l’utilisation de l’IA en tant que compagnon/confident par les adolescents.

    Un retour d’expérience sur l’utilisation de l’IA comme assistant de programmation, avec des astuces détaillées.

    Anthropic, OpenAI, DeepMind et xAI gagnent chacun un contrat avec le Département de la Défense des États-Unis pour 200 millions de dollar.

    Un fil rappelant les précautions à prendre sur l’utilisation de MCP.

    Meta continue désespérément à essayer d’attirer des talents pour son équipe IA, sans grand succès. Dernier exemple en date, où une offre a été faite à des employés de Thinking Machines pour des montants allant de 200 millions à 1 milliard, offres toutes refusées.

    Pour aller plus loin

    Non couvert ici :

    En audio/vidéo (en anglais) :

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    • ✇Korben
    • Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC
      Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.

    Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC

    Par : Korben
    29 avril 2025 à 17:56

    Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.

    Racisme, non-sens, propos absurdes... GPT-3, dont tout le monde parle, incarne pourtant le pire de l'I.A.

    Elle écrit des mémoires de fins d'étude en quelques minutes, discute sur Reddit… Cette intelligence artificielle génératrice de texte fait partie des dix technologies à suivre en 2021 selon le MIT Technology Review. Mais ce programme illustre aussi les pires défauts de l’I.A : surconsommation énergétique, survente des capacités et reproduction de biais. GPT-3. Depuis quelques […]

    L’article Racisme, non-sens, propos absurdes... GPT-3, dont tout le monde parle, incarne pourtant le pire de l'I.A. est apparu en premier sur L'ADN.

    • ✇LinuxFr.org : les dépêches
    • Sortie de Tcl/Tk 9.0
      Le Tcl Core Team (TCT) est heureux d'annoncer la sortie de la version 9.0 du langage de script Tcl et de la bibliothèque d'interface graphique Tk. C'est la première version stable de la branche Tcl/Tk 9.0 dont le développement a commencé en janvier 2013. Il y a quelques potentielles incompatibilités avec les précédentes versions même si la plupart des programmes fonctionneront sans retouches. lien nᵒ 1 : L'annonce pour Tcl sur comp.lang.tcllien nᵒ 2 : L'annonce pour Tk sur comp.lang.tcllien nᵒ 

    Sortie de Tcl/Tk 9.0

    2 octobre 2024 à 06:39

    Le Tcl Core Team (TCT) est heureux d'annoncer la sortie de la version 9.0 du langage de script Tcl et de la bibliothèque d'interface graphique Tk.
    C'est la première version stable de la branche Tcl/Tk 9.0 dont le développement a commencé en janvier 2013.
    Il y a quelques potentielles incompatibilités avec les précédentes versions même si la plupart des programmes fonctionneront sans retouches.

    Les principales nouveautés et améliorations de Tcl 9.0

    • Données en 64-bit : support des structures de données supérieures à 2 Go (variable, chaîne de caractères, tableau, liste et dictionnaire).
    • Support étendu d'Unicode : avec tous les emojis qui vont bien.
    • Système de fichier virtuel dans le langage : basé sur le format zip et permettant la lecture/écriture ou le montage/démontage.
    • Déclaration de constantes : const
    • De nouvelles commandes de listes : lpop, lremove, ledit et lseq
    • De nouvelles options pour les tableaux : array default et array for
    • De nouvelles commandes de coroutines : coroinject et coroprobe pour interagir avec une coroutine en pause.
    • Substitution avec script : possibilités d'attacher un script à la commande regsub
    • Notation décimale explicite : un entier pourra optionnellement être précédé du préfixe 0d pour indiquer sans ambiguïté qu'il est en notation décimale.
    • Notation de nombre : possibilité de noter un nombre entier avec des tirets bas (underscore) pour plus de clarté (1_000_001).
    • Changement de l'interface de notification d'événements : remplacement de select par epoll/kqueue.
    • Le tilde (~) n'est plus interprété comme le répertoire home.
    • L'encodage par défaut d'un script devient l'UTF-8.

    Les principales nouveautés et améliorations de Tk 9.0

    • Onglets de tous les côtés : haut/bas/droite/gauche et navigation avec la molette de la souris.
    • Accès au système de notification, à la barre des tâches et au gestionnaire d'impression : tk sysnotify, tk systray, tk print.
    • Texte dans une barre de progression : ttk::progressbar ... -text
    • Badge temporaire sur une icône : wm iconbadge
    • Image de fond dans un frame : frame ... -backgroundimage ... -tile ...
    • Support partiel du format SVG : image create photo ... -file test.svg
    • Accès aux métadonnées et au cannal alpha des images : image read/write/put/cget ... -metadata etimage get/put ... -to ...
    • Rotation des objets graphiques d'un canvas : canvas rotate ... x y angle
    • Support du défilement à deux doigts.

    Pour le reste des nouveautés

    • Un pythoniste (Marc Culler) fait partie du TCT pour faciliter le développement de TkInter.
    • Il n'y aura pas de version 8.7 officielle.
    • Tcl 9 bénéficie d'un nouveau logo dessiné par une graphiste (Valerie Carroll).

    Titre de l'image

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    • ✇Korben
    • LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts
      Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous ! Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’i

    LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts

    Par : Korben
    20 mai 2024 à 09:00

    Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous !

    Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’identification et de suppression des tokens non essentiels, il peut réduire jusqu’à 20 fois la taille des prompts, tout en préservant les performances des modèles.

    Que vous soyez un développeur cherchant à optimiser ses coûts d’API ou un utilisateur souhaitant dépasser les limites de contexte, LLMLingua vous offre de nombreux avantages :

    • 💰 Réduction des coûts : En compressant à la fois les prompts et les réponses générées, LLMLingua permet de réaliser des économies significatives sur votre facture d’API.
    • 📝 Support de contextes étendus : Fini le casse-tête du « perdu au milieu » ! LLMLingua gère efficacement les longs contextes et booste les performances globales.
    • ⚖️ Robustesse : Pas besoin d’entraînement supplémentaire pour les LLM. LLMLingua fonctionne de manière transparente.
    • 🕵️ Préservation des connaissances : Toutes les informations clés des prompts originaux, comme l’apprentissage en contexte et le raisonnement, sont conservées.
    • 📜 Compression du cache KV : Le processus d’inférence est accéléré grâce à l’optimisation du cache clé-valeur.
    • 🪃 Récupération complète : GPT-4 est capable de reconstituer l’intégralité des informations à partir des prompts compressés. Bluffant !

    Prenons un exemple simple et imaginons que vous vouliez compresser le prompt suivant avec LLMLingua :

    python from llmlingua import PromptCompressor
    
    llm_lingua = PromptCompressor()
    
    prompt = "Sam a acheté une douzaine de boîtes contenant chacune 30 surligneurs, pour 10 $ chacune..."
    
    compressed_prompt = llm_lingua.compress_prompt(prompt)
    
    print(compressed_prompt)

    Et voilà le travail ! En quelques lignes de code, vous obtenez un prompt compressé prêt à être envoyé à votre modèle favori :

    Sam acheté boîtes contenant chacune 30 surligneurs, 10 $ chacune.

    Avec un taux de compression de 11,2x, le nombre de tokens passe de 2365 à seulement 211 ! Et ce n’est qu’un début. Sur des exemples plus complexes comme les prompts Chain-of-Thought, LLMLingua maintient des performances similaires avec un taux de compression allant jusqu’à 20x.

    Alors bien sûr, pour l’avoir bien testé, faut quand même comprendre que vous n’obtiendrez pas forcement un résultat identique entre le prompte compressé et celui non compressé mais pour un gain de 60 / 70 voire 80%, le résultat généré à partir du prompt compressé reste précis à hauteur de 70 / 80 %, ce qui est très bien.

    Pour démarrer avec LLMLingua, rien de plus simple. Installez le package avec pip :

    pip install llmlingua

    Puis laissez libre cours à votre créativité ! Que vous soyez un adepte du Retrieval Augmented Generation (RAG), des réunions en ligne, du Chain-of-Thought ou même du code, LLMLingua saura répondre à vos besoins. De nombreux exemples et une documentation complète sont à votre disposition pour vous guider.

    Perso, je l’ai testé sur de longs prompts que j’avais dans mes scripts, avec Claude3 d’ailleurs et pas ChatGPT et le résultat est top !

    A tester ici !

    • ✇Korben
    • PyTorch dévoile Torchtune pour fine-tuner les LLM
      PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête. Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des

    PyTorch dévoile Torchtune pour fine-tuner les LLM

    Par : Korben
    19 avril 2024 à 10:18

    PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

    Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

    Son secret ?

    Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

    Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

    Alors comment on met les mains dans le cambouis avec Torchtune ?

    Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

    pip install torchtune

    Et voilà, vous êtes prêt à en découdre avec les LLM !

    Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

    En gros, ça se passe en 4 étapes :

    1. Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
    2. Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
    3. Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
    4. Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

    Facile, non ? 😄

    Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

    Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

    Source

    • ✇Korben
    • Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles
      Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg. Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés,

    Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles

    Par : Korben
    18 avril 2024 à 20:44

    Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg.

    Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés, disons que c’est l’équivalent de leur QI 🧠), les Llama 3 atomisent littéralement la concurrence sur de nombreux benchmarks standards, que ce soit en termes de connaissances générales, de compréhension, de maths, de raisonnement ou de génération de code.

    Mais qu’est-ce qui fait de Llama 3 un tel monstre par rapport à son petit frère Llama 2 ? Déjà, un entraînement de folie à base de 15 000 milliards de tokens (7 fois plus que Llama 2 !) pompé depuis le web (!!), avec beaucoup plus de code et de données non-anglaises pour préparer le terrain à une IA multilingue. Ajoutez à ça des techniques de parallélisation à gogo pendant la phase de pré-entraînement, et vous obtenez des lamas dopés qui apprennent à une vitesse supersonique.

    Et ce n’est pas tout ! Les Llama 3 ont suivi un programme d’éducation complet, avec du fine-tuning à base de rejection sampling, de PPO et de DPO (si vous ne connaissez pas ces acronymes, ne vous inquiétez pas, moi non plus 😅). Résultat : des modèles ultra-fiables qui refusent rarement une tâche, font preuve d’un alignement exemplaire et sont capables de suivre des instructions complexes sans sourciller. Bref, ce sont des cracks en raisonnement et en génération de code !

    Mais au fait, comment on met la main sur ces petites bêtes ? Facile, il suffit de se rendre sur le site de Meta AI et de les télécharger ! Enfin, quand je dis facile… Les Llama 3 sont bien « open source », mais sous une licence maison qui impose quelques restrictions, notamment pour les entreprises de plus de 700 millions d’utilisateurs mensuels (suivez mon regard vers Mountain View et Redmond 👀). Mais bon, rien ne vous empêche de vous amuser avec si vous n’êtes pas une multinationale !

    Et en parlant de s’amuser, sachez que Meta a aussi concocté un chatbot maison (pas encore dispo en France) baptisé sobrement « Meta AI« , disponible sur le web (www.meta.ai) et directement intégré dans les barres de recherche de Facebook, Instagram, WhatsApp et Messenger. Sous le capot, c’est bien sûr du pur Llama 3, avec en prime un modèle de génération d’images nommé « Meta Imagine« .

    Au programme, de la discussion, de la recherche web via Bing et Google, et bien sûr de la création d’images en un clin d’œil. Seul hic, pas encore de mode multi-modal façon ChatGPT pour uploader vos propres documents ou images, mais ça ne saurait tarder !

    Alors, que penser de ce nouveau coup d’éclat de Meta dans la bataille des IA ?

    Personnellement, je trouve ça plutôt chouette de voir un poids lourd du Net jouer le jeu de l’open source (ou approchant) et mettre à disposition de tous des modèles de cette qualité. Bien sûr, on peut toujours discuter des arrière-pensées de Zuck et sa volonté de garder un œil sur ce qu’on fabrique avec ses lamas. Mais au final, c’est toujours ça de pris sur les GAFAM et leurs vilains modèles propriétaires !

    Allez, je vous laisse, j’ai un lama à aller dompter moi ! 🦙

    Et n’oubliez pas, comme le dirait l’autre, « le monde appartient à ceux qui codent tôt ». Ou tard, c’est selon.

    Source

    • ✇Korben
    • LLM4Decompile – Quand l’IA se met à décompiler du binaire
      Imaginez un monde merveilleux où les secrets enfermés dans les binaires compilés ne seraient plus inaccessibles aux simples mortels que nous sommes… C’est exactement ce que LLM4Decompile, le premier LLM (Large Language Model) open-source dédié à la décompilation, promet de réaliser. Fruit d’un travail de recherche innovant mené par une équipe de chercheurs passionnés, ce modèle révolutionnaire ouvre de nouvelles perspectives dans le domaine du reverse engineering. Jusqu’à présent, la dé

    LLM4Decompile – Quand l’IA se met à décompiler du binaire

    Par : Korben
    16 mars 2024 à 02:15

    Imaginez un monde merveilleux où les secrets enfermés dans les binaires compilés ne seraient plus inaccessibles aux simples mortels que nous sommes…

    C’est exactement ce que LLM4Decompile, le premier LLM (Large Language Model) open-source dédié à la décompilation, promet de réaliser. Fruit d’un travail de recherche innovant mené par une équipe de chercheurs passionnés, ce modèle révolutionnaire ouvre de nouvelles perspectives dans le domaine du reverse engineering.

    Jusqu’à présent, la décompilation, c’est-à-dire le processus qui consiste à retrouver le code source à partir d’un exécutable compilé, restait un défi de taille. Les outils existants peinaient à produire un code lisible et compréhensible par les humains, ce qui est logique puisqu’il y a une grosse perte d’informations lors de la compilation. Mais ça, c’était avant l’arrivée de LLM4Decompile !

    Entraîné sur un énorme dataset de 4 milliards de tokens de code C et d’assembleur x86, ce modèle de langage surpuissant a appris à décoder les secrets des binaires. Grâce à son architecture basée sur les Transformers et ses milliards de paramètres, il est donc capable de capturer les patterns et la sémantique du code à un niveau inédit.

    Mais les chercheurs ne se sont pas arrêtés là. Ils ont aussi développé le premier benchmark standardisé pour la décompilation baptisé Decompile-Eval. Basé sur des problèmes de programmation réels, il permet d’évaluer la capacité des modèles à regénérer un code recompilable et ré-exécutable. Exit les métriques de similarité de tokens, place à des critères solides et pertinents ! LLM4Decompile parvient à recompiler 90% des binaires décompilés (oui oui, je me suis pas trompé) !

    Mieux encore, 21% du code re-généré réussit tous les tests unitaires, démontrant une préservation de la logique du programme. C’est 50% de plus que GPT-4, pourtant considéré comme l’état de l’art.

    Cerise sur le gâteau, LLM4Decompile est entièrement open-source. Les modèles pré-entraînés de 1,3 à 33 milliards de paramètres sont disponibles sur Hugging Face, prêts à être utilisés et améliorés par la communauté. Le code, les données d’entraînement et le benchmark sont aussi accessibles sur GitHub.

    Bien sûr, LLM4Decompile n’est qu’un premier pas vers la décompilation par l’IA. Il reste limité au langage C et à l’assembleur x86, et ne gère pour l’instant que des fonctions isolées. Mais les perspectives sont immenses ! On peut imaginer étendre son champ d’action à d’autres langages et architectures, voire carrément l’utiliser pour transpiler automatiquement du code entre différents langages.

    Les applications potentielles sont nombreuses : reverse engineering de logiciels legacy (ça veut dire obsolète mais encore utilisé.. .argh !), analyse de malware, portage de vieux jeux vidéos, etc. Même les vieux binaires qui sentent la naphtaline n’auront bientôt plus de secrets pour nous !

    • ✇Korben
    • Le support des cartes AMD débarque sur Ollama
      Bonne nouvelle, Ollama vient tout juste d’annoncer un truc qui devrait vous faire plaisir : le support des cartes graphiques AMD en preview ! Cela signifie que toutes les fonctionnalités d’Ollama peuvent maintenant être accélérées par les cartes graphiques AMD, que ce soit sur Linux ou Windows. Mais au fait, c’est quoi Ollama ? Pour les deux du fond qui suivent pas, je vous refais un topo vite fait. Ollama, c’est un outil hyper pratique qui permet de faire tourner des grands modèles de lang

    Le support des cartes AMD débarque sur Ollama

    Par : Korben
    15 mars 2024 à 22:38

    Bonne nouvelle, Ollama vient tout juste d’annoncer un truc qui devrait vous faire plaisir : le support des cartes graphiques AMD en preview ! Cela signifie que toutes les fonctionnalités d’Ollama peuvent maintenant être accélérées par les cartes graphiques AMD, que ce soit sur Linux ou Windows.

    Mais au fait, c’est quoi Ollama ? Pour les deux du fond qui suivent pas, je vous refais un topo vite fait. Ollama, c’est un outil hyper pratique qui permet de faire tourner des grands modèles de langage open-source directement sur votre machine locale. Genre Mistral, Llama 2 et toute la clique.

    Alors, quelles sont les cartes AMD compatibles ?

    Pas de panique, je vous ai préparé une petite liste bien détaillée. Dans la famille des Radeon RX, on retrouve les monstres comme les 7900 XTX, 7900 XT, 7800 XT, 6900 XT et compagnie. Pour les pros, la gamme Radeon PRO est aussi de la partie avec les W7900, W6800X Duo, Vega II… Bref, y a du beau monde au rendez-vous. Et si vous êtes un fan des cartes Instinct, pas de jaloux, les MI300X, MI250, MI100 et autres sont aussi supportées.

    Ollama promet également que d’autres modèles de cartes graphiques suivront. Alors on croise les doigts et on surveille les annonces comme le lait sur le feu. En attendant, si vous voulez vous lancer dans l’aventure Ollama avec votre carte AMD, c’est simple comme bonjour.

    Téléchargez Ollama pour Linux ou Windows, installez le bouzin et hop, vous voilà parés pour faire chauffer votre GPU AMD ! C’est pas beau la vie ? Je vous ai même fait un tutoriel ici !

    Allez, je vous laisse, j’ai un rendez-vous urgent avec mon Llama2 uncensored qui me fait de l’œil.

    Source

    ❌
    ❌