Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierKorben
  • ✇Korben
  • Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais
    Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau ! Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à un

Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais

Par : Korben
16 décembre 2025 à 12:42

Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau !

Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à une architecture hybride qui mélange du Mamba-2 et du Mixture-of-Experts ( MoE ). Ça permet de garder des performances de ouf tout en restant léger niveau ressources.

Sous le capot, Nvidia a également mis le paquet puisque le modèle a été entraîné sur 25 trillions de tokens. J'ai bien dit "trillions"... Pour vous donner une idée, les données d'entraînement incluent du Common Crawl de 2013 à 2025, du code dans 43 langages différents, des articles scientifiques, et une tonne de données synthétiques générées par d'autres modèles. Et tout ça, Nvidia l'a rendu public donc vous pouvez télécharger les datasets sur Hugging Face et vérifier par vous-même ce qui a servi à entraîner le bouzin.

Côté performances, Nemotron 3 Nano se défend plutôt bien . Sur les benchmarks de raisonnement mathématique comme AIME25, il atteint 99,2% quand on lui donne accès à des outils. Sur le coding avec LiveCodeBench, il tape du 68,3%, ce qui le place devant Qwen3-30B. Et pour les tâches d'agent logiciel genre SWE-Bench, il monte à 38,8%. Pas mal pour un modèle qu'on peut faire tourner sur du matos grand public.

D'ailleurs, parlons du matos justement. Nemotron 3 Nano tourne sur des cartes comme la H100, la A100, ou même la future RTX PRO 6000 et supporte jusqu'à 1 million de tokens en contexte si vous avez assez de VRAM. Et niveau vitesse, Nvidia annonce un débit de tokens 4 fois supérieur à la génération précédente, avec 60% de tokens de raisonnement en moins. C'est donc exactement ce que tout le monde demande à saoir du token qui sort vite pour les workflows agentiques.

Maintenant, pour l'utiliser, c'est hyper simple. Il est dispo sur Hugging Face, et vous pouvez le lancer avec Transformers, vLLM, TensorRT, ou même llama.cpp. Y'a même un mode "thinking" qu'on peut activer ou désactiver selon si on veut du raisonnement poussé ou des réponses rapides.

Pour ma part, je l'ai testé à l'aide d'Ollama comme ceci :

ollama run nemotron-3-nano:30b

J'ai trouvé que vitesse de génération était vraiment impressionnante, ça débite beaucoup plus qu'un Llama 3 qui est de taille équivalente. Après, je suis sur un Mac M4 avec 128 Go de RAM, donc je suis plutôt bien loti mais j'ai trouvé ce modèle vraiment très rapide. Je pense que je vais vraiment m'en servir pour des trucs comme de la qualification, du résumé, de l'analyse ce genre de choses.

A voir maintenant si en français il s'en sort bien sur les tournures de phrases. Quoi qu'il en soit pour du développement et des workflows agentiques, il n'y a pas photo, ça va être mon nouveau modèle par défaut quand j'ai besoin de choses en local.

La famille Nemotron 3 ne se limite pas au Nano évidemment. Y'a aussi le Super avec environ 100 milliards de paramètres pour les applications multi-agents, et l'Ultra avec 500 milliards pour les tâches vraiment complexes. Ces deux-là arriveront au premier semestre 2026 donc faudra encore être un peu patient. Nvidia a aussi sorti des bibliothèques comme NeMo Gym pour l'entraînement et NeMo RL pour le fine-tuning.

Jensen Huang, le patron de Nvidia, a aussi dit un truc intéressant lors de l'annonce : "L'innovation ouverte est le fondement du progrès de l'IA." Venant d'une boîte qui a longtemps joué la carte proprio sur ses technos, je trouve que c'est un sacré virage et des entreprises comme Accenture, Deloitte, Oracle, Palantir, ou même Cursor sont déjà en train d'intégrer Nemotron dans leurs produits.

Ce qui est cool aussi, c'est que le modèle supporte 24 langues officielles de l'UE plus une dizaine d'autres comme l'arabe, le chinois ou le japonais et côté code, il gère Python, C++, Java, Rust, Go, et même du CUDA. Bref, c'est plutôt polyvalent.

Voilà, donc si vous cherchez un modèle open source sérieux avec des données d'entraînement transparentes et une vitesse de génération qui arrache, Nemotron 3 Nano mérite clairement le coup d’œil !

Source

  • ✇Korben
  • Fini le perroquet stochastique ? Le modèle o1 d'OpenAI comprend la structure du langage
    Vous vous êtes déjà demandé si les IA comprenaient vraiment ce qu'elles racontaient, ou si elles ne faisaient que recracher des mots à partir de statistiques liées aux mots ? Oui, comme vous, je pensais jusqu'à présent qu'on était vraiment sur un déroulé textuel purement mathématique sans réelle compréhension. Hé bien des chercheurs de UC Berkeley viennent de mettre un gros pavé dans la mare en démontrant que le modèle o1 d'OpenAI est capable d'analyser le langage comme le ferait un étudiant en

Fini le perroquet stochastique ? Le modèle o1 d'OpenAI comprend la structure du langage

Par : Korben
16 décembre 2025 à 09:19

Vous vous êtes déjà demandé si les IA comprenaient vraiment ce qu'elles racontaient, ou si elles ne faisaient que recracher des mots à partir de statistiques liées aux mots ?

Oui, comme vous, je pensais jusqu'à présent qu'on était vraiment sur un déroulé textuel purement mathématique sans réelle compréhension. Hé bien des chercheurs de UC Berkeley viennent de mettre un gros pavé dans la mare en démontrant que le modèle o1 d'OpenAI est capable d'analyser le langage comme le ferait un étudiant en linguistique. Pas juste d'utiliser le langage, hein mais vraiment de l'analyser, le décortiquer, le comprendre dans sa structure profonde.

L'étude a été menée par Gašper Beguš, prof associé de linguistique à Berkeley, avec ses collègues Maksymilian Dąbkowski et Ryan Rhodes de Rutgers University et les résultats sont publiés dans IEEE Transactions on Artificial Intelligence, donc ça a l'air d'être du sérieux .

Leur truc, c'était de tester si les modèles de langage (LLM) pouvaient faire de la métalinguistique, qui est la capacité non pas simplement d'utiliser une langue, mais aussi de réfléchir sur la langue elle-même. C'est un truc que les humains font naturellement quand ils analysent une phrase, et qu'on a pour le moment jamais observé chez l'animal.

Pour leurs expériences, l'équipe a donc balancé 120 phrases complexes dans quatre modèles différents : GPT-3.5 Turbo, GPT-4, o1 d'OpenAI, et Llama 3.1 de Meta et ils ont regardé comment chaque modèle s'en sortait pour analyser la structure des phrases et résoudre les ambiguïtés, notamment avec la récursion.

La récursion , c'est un concept que Noam Chomsky a théorisé comme étant la caractéristique définitoire du langage humain. C'est en fait la capacité d'imbriquer des phrases dans d'autres phrases, à l'infini. Genre "Le chat que le chien que Pierre a vu a mordu dort". Ouais, c'est tordu, mais c'est ça qui nous différencie aussi des autres animaux.

Et tous ces modèles ont réussi à identifier les phrases récursives, ce qui, jusque-là, n'a rien d'extraordinaire sauf que pour cartographier correctement la structure complexe des phrases, o1 a cartonné avec un score proche de 0.9 sur 1, contre une moyenne de 0.36 pour les autres. C'est un très gros écart.

Je vais vous donner un exemple concret. Avec la phrase "Unidentified flying objects may have conflicting characteristics" (les objets volants non identifiés peuvent avoir des caractéristiques contradictoires), o1 a correctement détecté la récursion. "Flying" modifie "objects", et "unidentified" modifie "flying objects". Il a même poussé le bouchon encore plus loin en proposant une extension de la phrase pour montrer qu'il avait compris le mécanisme.

Mais les chercheurs ne se sont pas arrêtés là car pour éviter que o1 ne triche en utilisant des données de son entraînement, ils ont inventé 30 mini-langues fictives avec leurs propres règles phonologiques. L'idée, c'était de voir si le modèle pouvait inférer les règles d'une langue qu'il n'a jamais vue. Et comme vous vous en doutez, o1 s'en est sorti comme un chef.

Bref, non seulement ces modèles peuvent utiliser le langage, mais certains peuvent "réfléchir" à la façon dont le langage est organisé.

Ce qui est dingue, c'est que cette étude relance le débat sur la compréhension des IA. Est-ce que ces modèles comprennent vraiment ce qu'ils font, ou est-ce qu'ils simulent très bien ? Beguš pense que cette capacité métalinguistique est "très conséquente" parce qu'elle montre que dans ces modèles, on a désormais quelque chose qu'on pensait réservé aux humains.

Attention cependant, qui dit capacité métalinguistique ne veut pas dire que l'IA est consciente ou qu'elle pense comme nous. Faut voir ça plutôt comme une capacité émergente qu'on n'a pas programmée explicitement, et qui est sacrément intéressante d'un point de vue scientifique.

Voilà, donc si comme moi, vous pensiez que ChatGPT ne faisait que du perroquet statistique, cette étude suggère visiblement que c'est un plus subtil que ça. Il faudra bien sûr plus d'études pour mieux comprendre ce phénomène mais il est maintenant clair que ces modèles récents ont des capacités qu'on croyait exclusives aux humains.

Source

  • ✇Korben
  • Il refait un ChatGPT avec de la redstone Minecraft
    Vous ne trouvez pas que ChatGPT met un peu de temps à répondre parfois ? Et bien imaginez maintenant devoir attendre 2 heures pour obtenir une réponse de 3 mots. Bienvenue dans le monde de CraftGPT, le ChatGPT entièrement construit en redstone Minecraft par un gars du nom de sammyuri ! Ce dernier a créé un vrai modèle de langage avec 5 087 280 paramètres, construit UNIQUEMENT avec de la redstone. Pas de command blocks. Pas de datapacks. Et pas de mods. Juste de la redstone pure et dure, comme à

Il refait un ChatGPT avec de la redstone Minecraft

Par : Korben
2 octobre 2025 à 16:10

Vous ne trouvez pas que ChatGPT met un peu de temps à répondre parfois ? Et bien imaginez maintenant devoir attendre 2 heures pour obtenir une réponse de 3 mots. Bienvenue dans le monde de CraftGPT, le ChatGPT entièrement construit en redstone Minecraft par un gars du nom de sammyuri !

Ce dernier a créé un vrai modèle de langage avec 5 087 280 paramètres, construit UNIQUEMENT avec de la redstone. Pas de command blocks. Pas de datapacks. Et pas de mods. Juste de la redstone pure et dure, comme à l’ancienne.

Il a pris un dataset d’entraînement (TinyChat, des conversations basiques en anglais), l’a entraîné en Python comme n’importe quel modèle de langage normal, puis a RECRÉÉ toute l’architecture du modèle dans Minecraft. Un modèle avec 6 couches, 1920 tokens de vocabulaire, une dimension d’embedding de 240, et une fenêtre de contexte de 64 tokens. C’est petit mais assez pour des conversations très courtes.

Et le résultat, c’est une cathédrale de redstone qui occupe un volume de 1020 x 260 x 1656 blocs. Soit 439 millions de blocs au total. C’est tellement gigantesque qu’il a dû utiliser le mod Distant Horizons juste pour filmer l’ensemble, ce qui fait que les composants lointains ont l’air un peu bizarres dans la vidéo parce qu’ils sont rendus avec moins de détails.

Mais ce qui est génial ici, c’est pas vraiment l’exploit technique en lui-même. Enfin si, c’est impressionnant, mais c’est surtout ce que ça nous dit sur la nature même du calcul et de l’intelligence artificielle. Parce qu’en réalité, ce que sammyuri vient de prouver c’est qu’on peut faire de l’IA avec N’IMPORTE QUOI. Des cailloux virtuels dans un jeu vidéo, des dominos, de l’eau, peu importe. Tant que vous avez un système Turing-complet, vous pouvez faire tourner un modèle de langage.

Cela veut dire que l’intelligence artificielle, au final, c’est juste de la logique. Ce sont juste des calculs. Des additions, des multiplications, des comparaisons et cela peu importe le support technique. Qu’on utilise du silicium ultra-rapide ou des torches de redstone qui s’allument et s’éteignent dans un monde cubique, le principe reste le même.

Bon, après, c’est lent car même en utilisant MCHPRS (Minecraft High Performance Redstone Server) qui accélère le jeu à 40 000 fois la vitesse normale, CraftGPT met environ 2 heures pour générer une réponse. Sans cette accélération, ça pourrait prendre jusqu’à 10 ans. Dix ans pour une phrase de quelques mots.

Et dire qu’on râle quand ChatGPT met 3 secondes à répondre, alors qu’on a dans nos poches une puissance de calcul qui aurait fait pleurer de joie Alan Turing…

Sinon, histoire de rentrer un peu plus dans le détail, sammyuri a dû faire face aux mêmes problématiques que les chercheurs en IA d’aujourd’hui. Pour faire rentrer son modèle dans Minecraft, il a dû quantifier la plupart des poids à 8 bits. Les poids d’embedding et de LayerNorm sont stockés à 18 et 24 bits respectivement, mais le gros du modèle est compressé. C’est exactement le même débat qu’actuellement sur l’optimisation des LLMs pour les faire tourner sur des machines moins puissantes.

Et le meilleur dans tout ça c’est que le gars a tout mis en open source sur GitHub . Vous pouvez donc télécharger le monde Minecraft (version Vanilla 1.20.4 ou version MCHPRS), récupérer l’émulateur, les poids du modèle, et le guide pour le faire tourner.

Voilà… Encore un chouette projet inutile, certes mais qui nous permet de nous reconnecter aux fondamentaux pour mieux comprendre les technologies du moment.

Tout est sur ce repo CraftGPT de sammyuri .

Source

  • ✇Korben
  • Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC
    Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.

Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC

Par : Korben
29 avril 2025 à 17:56

Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.

  • ✇Korben
  • LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts
    Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous ! Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’i

LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts

Par : Korben
20 mai 2024 à 09:00

Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous !

Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’identification et de suppression des tokens non essentiels, il peut réduire jusqu’à 20 fois la taille des prompts, tout en préservant les performances des modèles.

Que vous soyez un développeur cherchant à optimiser ses coûts d’API ou un utilisateur souhaitant dépasser les limites de contexte, LLMLingua vous offre de nombreux avantages :

  • 💰 Réduction des coûts : En compressant à la fois les prompts et les réponses générées, LLMLingua permet de réaliser des économies significatives sur votre facture d’API.
  • 📝 Support de contextes étendus : Fini le casse-tête du « perdu au milieu » ! LLMLingua gère efficacement les longs contextes et booste les performances globales.
  • ⚖️ Robustesse : Pas besoin d’entraînement supplémentaire pour les LLM. LLMLingua fonctionne de manière transparente.
  • 🕵️ Préservation des connaissances : Toutes les informations clés des prompts originaux, comme l’apprentissage en contexte et le raisonnement, sont conservées.
  • 📜 Compression du cache KV : Le processus d’inférence est accéléré grâce à l’optimisation du cache clé-valeur.
  • 🪃 Récupération complète : GPT-4 est capable de reconstituer l’intégralité des informations à partir des prompts compressés. Bluffant !

Prenons un exemple simple et imaginons que vous vouliez compresser le prompt suivant avec LLMLingua :

python from llmlingua import PromptCompressor

llm_lingua = PromptCompressor()

prompt = "Sam a acheté une douzaine de boîtes contenant chacune 30 surligneurs, pour 10 $ chacune..."

compressed_prompt = llm_lingua.compress_prompt(prompt)

print(compressed_prompt)

Et voilà le travail ! En quelques lignes de code, vous obtenez un prompt compressé prêt à être envoyé à votre modèle favori :

Sam acheté boîtes contenant chacune 30 surligneurs, 10 $ chacune.

Avec un taux de compression de 11,2x, le nombre de tokens passe de 2365 à seulement 211 ! Et ce n’est qu’un début. Sur des exemples plus complexes comme les prompts Chain-of-Thought, LLMLingua maintient des performances similaires avec un taux de compression allant jusqu’à 20x.

Alors bien sûr, pour l’avoir bien testé, faut quand même comprendre que vous n’obtiendrez pas forcement un résultat identique entre le prompte compressé et celui non compressé mais pour un gain de 60 / 70 voire 80%, le résultat généré à partir du prompt compressé reste précis à hauteur de 70 / 80 %, ce qui est très bien.

Pour démarrer avec LLMLingua, rien de plus simple. Installez le package avec pip :

pip install llmlingua

Puis laissez libre cours à votre créativité ! Que vous soyez un adepte du Retrieval Augmented Generation (RAG), des réunions en ligne, du Chain-of-Thought ou même du code, LLMLingua saura répondre à vos besoins. De nombreux exemples et une documentation complète sont à votre disposition pour vous guider.

Perso, je l’ai testé sur de longs prompts que j’avais dans mes scripts, avec Claude3 d’ailleurs et pas ChatGPT et le résultat est top !

A tester ici !

  • ✇Korben
  • PyTorch dévoile Torchtune pour fine-tuner les LLM
    PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête. Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des

PyTorch dévoile Torchtune pour fine-tuner les LLM

Par : Korben
19 avril 2024 à 10:18

PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

Son secret ?

Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

Alors comment on met les mains dans le cambouis avec Torchtune ?

Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

pip install torchtune

Et voilà, vous êtes prêt à en découdre avec les LLM !

Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

En gros, ça se passe en 4 étapes :

  1. Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
  2. Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
  3. Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
  4. Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

Facile, non ? 😄

Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

Source

  • ✇Korben
  • Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles
    Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg. Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés,

Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles

Par : Korben
18 avril 2024 à 20:44

Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg.

Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés, disons que c’est l’équivalent de leur QI 🧠), les Llama 3 atomisent littéralement la concurrence sur de nombreux benchmarks standards, que ce soit en termes de connaissances générales, de compréhension, de maths, de raisonnement ou de génération de code.

Mais qu’est-ce qui fait de Llama 3 un tel monstre par rapport à son petit frère Llama 2 ? Déjà, un entraînement de folie à base de 15 000 milliards de tokens (7 fois plus que Llama 2 !) pompé depuis le web (!!), avec beaucoup plus de code et de données non-anglaises pour préparer le terrain à une IA multilingue. Ajoutez à ça des techniques de parallélisation à gogo pendant la phase de pré-entraînement, et vous obtenez des lamas dopés qui apprennent à une vitesse supersonique.

Et ce n’est pas tout ! Les Llama 3 ont suivi un programme d’éducation complet, avec du fine-tuning à base de rejection sampling, de PPO et de DPO (si vous ne connaissez pas ces acronymes, ne vous inquiétez pas, moi non plus 😅). Résultat : des modèles ultra-fiables qui refusent rarement une tâche, font preuve d’un alignement exemplaire et sont capables de suivre des instructions complexes sans sourciller. Bref, ce sont des cracks en raisonnement et en génération de code !

Mais au fait, comment on met la main sur ces petites bêtes ? Facile, il suffit de se rendre sur le site de Meta AI et de les télécharger ! Enfin, quand je dis facile… Les Llama 3 sont bien « open source », mais sous une licence maison qui impose quelques restrictions, notamment pour les entreprises de plus de 700 millions d’utilisateurs mensuels (suivez mon regard vers Mountain View et Redmond 👀). Mais bon, rien ne vous empêche de vous amuser avec si vous n’êtes pas une multinationale !

Et en parlant de s’amuser, sachez que Meta a aussi concocté un chatbot maison (pas encore dispo en France) baptisé sobrement « Meta AI« , disponible sur le web (www.meta.ai) et directement intégré dans les barres de recherche de Facebook, Instagram, WhatsApp et Messenger. Sous le capot, c’est bien sûr du pur Llama 3, avec en prime un modèle de génération d’images nommé « Meta Imagine« .

Au programme, de la discussion, de la recherche web via Bing et Google, et bien sûr de la création d’images en un clin d’œil. Seul hic, pas encore de mode multi-modal façon ChatGPT pour uploader vos propres documents ou images, mais ça ne saurait tarder !

Alors, que penser de ce nouveau coup d’éclat de Meta dans la bataille des IA ?

Personnellement, je trouve ça plutôt chouette de voir un poids lourd du Net jouer le jeu de l’open source (ou approchant) et mettre à disposition de tous des modèles de cette qualité. Bien sûr, on peut toujours discuter des arrière-pensées de Zuck et sa volonté de garder un œil sur ce qu’on fabrique avec ses lamas. Mais au final, c’est toujours ça de pris sur les GAFAM et leurs vilains modèles propriétaires !

Allez, je vous laisse, j’ai un lama à aller dompter moi ! 🦙

Et n’oubliez pas, comme le dirait l’autre, « le monde appartient à ceux qui codent tôt ». Ou tard, c’est selon.

Source

  • ✇Korben
  • LLM4Decompile – Quand l’IA se met à décompiler du binaire
    Imaginez un monde merveilleux où les secrets enfermés dans les binaires compilés ne seraient plus inaccessibles aux simples mortels que nous sommes… C’est exactement ce que LLM4Decompile, le premier LLM (Large Language Model) open-source dédié à la décompilation, promet de réaliser. Fruit d’un travail de recherche innovant mené par une équipe de chercheurs passionnés, ce modèle révolutionnaire ouvre de nouvelles perspectives dans le domaine du reverse engineering. Jusqu’à présent, la dé

LLM4Decompile – Quand l’IA se met à décompiler du binaire

Par : Korben
16 mars 2024 à 02:15

Imaginez un monde merveilleux où les secrets enfermés dans les binaires compilés ne seraient plus inaccessibles aux simples mortels que nous sommes…

C’est exactement ce que LLM4Decompile, le premier LLM (Large Language Model) open-source dédié à la décompilation, promet de réaliser. Fruit d’un travail de recherche innovant mené par une équipe de chercheurs passionnés, ce modèle révolutionnaire ouvre de nouvelles perspectives dans le domaine du reverse engineering.

Jusqu’à présent, la décompilation, c’est-à-dire le processus qui consiste à retrouver le code source à partir d’un exécutable compilé, restait un défi de taille. Les outils existants peinaient à produire un code lisible et compréhensible par les humains, ce qui est logique puisqu’il y a une grosse perte d’informations lors de la compilation. Mais ça, c’était avant l’arrivée de LLM4Decompile !

Entraîné sur un énorme dataset de 4 milliards de tokens de code C et d’assembleur x86, ce modèle de langage surpuissant a appris à décoder les secrets des binaires. Grâce à son architecture basée sur les Transformers et ses milliards de paramètres, il est donc capable de capturer les patterns et la sémantique du code à un niveau inédit.

Mais les chercheurs ne se sont pas arrêtés là. Ils ont aussi développé le premier benchmark standardisé pour la décompilation baptisé Decompile-Eval. Basé sur des problèmes de programmation réels, il permet d’évaluer la capacité des modèles à regénérer un code recompilable et ré-exécutable. Exit les métriques de similarité de tokens, place à des critères solides et pertinents ! LLM4Decompile parvient à recompiler 90% des binaires décompilés (oui oui, je me suis pas trompé) !

Mieux encore, 21% du code re-généré réussit tous les tests unitaires, démontrant une préservation de la logique du programme. C’est 50% de plus que GPT-4, pourtant considéré comme l’état de l’art.

Cerise sur le gâteau, LLM4Decompile est entièrement open-source. Les modèles pré-entraînés de 1,3 à 33 milliards de paramètres sont disponibles sur Hugging Face, prêts à être utilisés et améliorés par la communauté. Le code, les données d’entraînement et le benchmark sont aussi accessibles sur GitHub.

Bien sûr, LLM4Decompile n’est qu’un premier pas vers la décompilation par l’IA. Il reste limité au langage C et à l’assembleur x86, et ne gère pour l’instant que des fonctions isolées. Mais les perspectives sont immenses ! On peut imaginer étendre son champ d’action à d’autres langages et architectures, voire carrément l’utiliser pour transpiler automatiquement du code entre différents langages.

Les applications potentielles sont nombreuses : reverse engineering de logiciels legacy (ça veut dire obsolète mais encore utilisé.. .argh !), analyse de malware, portage de vieux jeux vidéos, etc. Même les vieux binaires qui sentent la naphtaline n’auront bientôt plus de secrets pour nous !

  • ✇Korben
  • Le support des cartes AMD débarque sur Ollama
    Bonne nouvelle, Ollama vient tout juste d’annoncer un truc qui devrait vous faire plaisir : le support des cartes graphiques AMD en preview ! Cela signifie que toutes les fonctionnalités d’Ollama peuvent maintenant être accélérées par les cartes graphiques AMD, que ce soit sur Linux ou Windows. Mais au fait, c’est quoi Ollama ? Pour les deux du fond qui suivent pas, je vous refais un topo vite fait. Ollama, c’est un outil hyper pratique qui permet de faire tourner des grands modèles de lang

Le support des cartes AMD débarque sur Ollama

Par : Korben
15 mars 2024 à 22:38

Bonne nouvelle, Ollama vient tout juste d’annoncer un truc qui devrait vous faire plaisir : le support des cartes graphiques AMD en preview ! Cela signifie que toutes les fonctionnalités d’Ollama peuvent maintenant être accélérées par les cartes graphiques AMD, que ce soit sur Linux ou Windows.

Mais au fait, c’est quoi Ollama ? Pour les deux du fond qui suivent pas, je vous refais un topo vite fait. Ollama, c’est un outil hyper pratique qui permet de faire tourner des grands modèles de langage open-source directement sur votre machine locale. Genre Mistral, Llama 2 et toute la clique.

Alors, quelles sont les cartes AMD compatibles ?

Pas de panique, je vous ai préparé une petite liste bien détaillée. Dans la famille des Radeon RX, on retrouve les monstres comme les 7900 XTX, 7900 XT, 7800 XT, 6900 XT et compagnie. Pour les pros, la gamme Radeon PRO est aussi de la partie avec les W7900, W6800X Duo, Vega II… Bref, y a du beau monde au rendez-vous. Et si vous êtes un fan des cartes Instinct, pas de jaloux, les MI300X, MI250, MI100 et autres sont aussi supportées.

Ollama promet également que d’autres modèles de cartes graphiques suivront. Alors on croise les doigts et on surveille les annonces comme le lait sur le feu. En attendant, si vous voulez vous lancer dans l’aventure Ollama avec votre carte AMD, c’est simple comme bonjour.

Téléchargez Ollama pour Linux ou Windows, installez le bouzin et hop, vous voilà parés pour faire chauffer votre GPU AMD ! C’est pas beau la vie ? Je vous ai même fait un tutoriel ici !

Allez, je vous laisse, j’ai un rendez-vous urgent avec mon Llama2 uncensored qui me fait de l’œil.

Source

❌
❌