Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal
  • ✇ActuIA
  • Une interface cerveau-ordinateur permet à un homme atteint de SLA de retrouver sa voix
    Une équipe de chercheurs de l’UC Davis Health a développé une interface cerveau-ordinateur (BCI) qui permet à un homme atteint de sclérose latérale amyotrophique (SLA) de retrouver sa capacité à communiquer. Cette technologie innovante, qui traduit les signaux cérébraux en paroles avec une précision pouvant atteindre 97 %, pourrait redonner espoir aux millions de personnes atteintes de paralysie et de troubles de la parole dans le monde. L’interface BCI a été implantée dans le cerveau de Casey H

Une interface cerveau-ordinateur permet à un homme atteint de SLA de retrouver sa voix

Par : Thomas Calvi
10 septembre 2024 à 11:00

Une équipe de chercheurs de l’UC Davis Health a développé une interface cerveau-ordinateur (BCI) qui permet à un homme atteint de sclérose latérale amyotrophique (SLA) de retrouver sa capacité à communiquer. Cette technologie innovante, qui traduit les signaux cérébraux en paroles avec une précision pouvant atteindre 97 %, pourrait redonner espoir aux millions de personnes atteintes de paralysie et de troubles de la parole dans le monde.

L’interface BCI a été implantée dans le cerveau de Casey Harrell, un homme de 45 ans souffrant de la maladie de Lou Gehrig (SLA), une maladie neurodégénérative qui affecte les cellules nerveuses responsables du contrôle des mouvements et des muscles de la parole. Grâce à ce dispositif, Casey Harrell peut désormais s’exprimer par l’intermédiaire d’un ordinateur qui convertit son activité cérébrale en texte parlé, avec une précision qui n’avait jamais été atteinte dans le domaine des neuroprothèses vocales.

L’étude rapportant ces travaux “An Accurate and Rapidly Calibrating Speech Neuroprosthesis” a été publiée le 14 août dernier dans le New England Journal of Medicine.

Des débuts prometteurs pour une technologie innovante

Le Dr David Brandman, neurochirurgien à l’UC Davis et co-auteur principal de l’étude avec Nicholas Card, a supervisé l’implantation de quatre réseaux de microélectrodes dans le gyrus précentral gauche de Casey Harrell une région du cerveau clé pour la coordination des mouvements de la parole. Ces électrodes captent l’activité neuronale lorsque Casey tente de parler, permettant ainsi au système de déchiffrer les phonèmes et les mots qu’il essaie de prononcer. Les mots sont affichés sur l’écran de l’ordinateur avant d’être traduits à voix haute par un modèle de synthèse vocale pré-entraîné affiné par les chercheurs.

David Brandman souligne :

“Cette technologie BCI a non seulement permis à Casey de communiquer avec ses proches, mais elle ouvre la voie à un nouveau monde d’interactions pour des patients incapables de parler. Nous avons franchi une étape décisive dans la compréhension et la décodification de l’activité cérébrale liée à la parole”. 

Lors des premiers tests, le dispositif a montré une précision impressionnante de 99,6 % avec un vocabulaire limité à 50 mots, après seulement 30 minutes d’entraînement. En augmentant la taille du vocabulaire à 125 000 mots, le BCI a maintenu une précision de 97,5 %, marquant ainsi une avancée sans précédent.

Une voix retrouvée grâce à l’intelligence artificielle

Malgré les avancées récentes dans la technologie BCI, les tentatives de rétablir la communication ont été lentes et souvent imparfaites. En effet, les algorithmes de machine learning utilisés pour décoder les signaux cérébraux demandaient beaucoup de temps et de données pour fonctionner efficacement.

David Brandman explique :

“Les systèmes BCI de discours précédents comportaient de fréquentes erreurs de mots. Il était donc difficile pour l’utilisateur d’être compris de manière cohérente et constituait un obstacle à la communication. Notre objectif était de développer un système qui permette à quelqu’un d’être compris chaque fois qu’il veut parler.”

Ce qui rend cette technologie encore plus remarquable est la capacité du système à reproduire la voix de Casey telle qu’elle était avant l’apparition de la SLA, cinq ans plus tôt. L’équipe a utilisé des enregistrements audio de Casey datant d’avant la maladie pour entraîner l’IA à générer une voix proche de celle d’origine, restituant non seulement ses mots, mais aussi son identité vocale.

Sergey Stavisky, neuroscientifique à l’UC Davis et co-directeur du laboratoire de neuroprothèses, a souligné l’importance de cette avancée :

“Voir Casey exprimer des pensées et des émotions à travers sa propre voix a été incroyablement émouvant. Pour lui, comme pour nous, c’était un moment de joie pure”.

Perspectives

L’essai clinique, intitulé BrainGate 2, se poursuit avec d’autres participants, et les chercheurs espèrent que cette technologie pourra bientôt être généralisée pour améliorer la vie de milliers de patients atteints de paralysie sévère.

Casey Harrell, le premier patient à bénéficier de cette technologie, résume son expérience :

“Ne pas pouvoir parler, c’est être prisonnier de soi-même. Grâce à cette technologie, je retrouve une partie de ma liberté, et je peux à nouveau participer aux conversations”.

L’équipe de recherche continue de perfectionner le système pour augmenter encore plus la précision et la fluidité du dialogue, avec l’espoir que d’autres applications médicales suivront.

Cette percée est un immense pas en avant pour la science et la technologie, mais surtout pour les millions de personnes dans le monde qui rêvent de retrouver une voix. Avec cette technologie, ce rêve pourrait bientôt devenir une réalité.

Références de l’article :

  • Université de Californie – Davis Health
  • “An Accurate and Rapidly Calibrating Speech Neuroprosthesis” New England Journal of Medicine. DOI : 10.1056/NEJMoa2314132

Auteurs : Nicholas S. Card, Maitreyee Wairagkar, Carrina Iacobacci, Xianda Hou, Tyler Singer-Clark, Francis R. Willett, Erin M. Kunz, Chaofei Fan, Maryam Vahdati Nia, Darrel R. Deo, Aparna Srinivasan, Eun Young Choi, Matthew F. Glasser, Leigh R. Hochberg, Jaimie M. Henderson, Kiarash Shahlaie, Sergey D. Stavisky, David M. Brandman.

Une interface cerveau-ordinateur permet à un homme atteint de SLA de retrouver sa voix
  • ✇ActuIA
  • La CRAM, une technologie de mémoire innovante pour des applications d’IA moins énergivores
    Des chercheurs en ingénierie de l’Université du Minnesota à Twin Cities ont dévoilé une avancée technologique majeure qui pourrait transformer le paysage de l’IA : un nouveau dispositif de mémoire, baptisé CRAM (mémoire vive computationnelle), qui pourrait réduire la consommation d’énergie des systèmes d’IA d’un facteur impressionnant de 1 000, tout en maintenant des performances optimales. Leurs travaux ont été publiés dans npj Unconventional Computing, une revue scientifique à comité de lectur

La CRAM, une technologie de mémoire innovante pour des applications d’IA moins énergivores

19 août 2024 à 09:30

Des chercheurs en ingénierie de l’Université du Minnesota à Twin Cities ont dévoilé une avancée technologique majeure qui pourrait transformer le paysage de l’IA : un nouveau dispositif de mémoire, baptisé CRAM (mémoire vive computationnelle), qui pourrait réduire la consommation d’énergie des systèmes d’IA d’un facteur impressionnant de 1 000, tout en maintenant des performances optimales. Leurs travaux ont été publiés dans npj Unconventional Computing, une revue scientifique à comité de lecture publiée par Nature. 

Cette innovation est le fruit de plus de deux décennies de recherche et s’attaque directement à l’un des plus grands défis des systèmes informatiques actuels : la consommation d’énergie liée au transfert constant de données entre la mémoire et la logique de traitement. En effet, les architectures informatiques traditionnelles, basées sur le modèle de von Neumann, nécessitent de nombreux transferts de données énergivores pour traiter l’information. Le CRAM brise cette barrière en permettant de traiter les données directement dans la mémoire, éliminant ainsi ces transferts coûteux.

Jian-Ping Wang, auteur principal de l’article et professeur distingué McKnight et titulaire de la chaire Robert F. Hartmann au département de génie électrique et informatique de l’Université du Minnesota, commente :

“Notre concept initial d’utiliser directement les cellules de mémoire pour l’informatique il y a 20 ans était considéré comme fou”.

Yang Lv, chercheur postdoctoral à l’Université du Minnesota et premier auteur de l’article ajoute :

“Ce travail est la première démonstration expérimentale de la CRAM, où les données peuvent être entièrement traitées dans le réseau de mémoire sans avoir besoin de quitter la grille où un ordinateur stocke des informations”.

Une technologie de pointe basée sur la spintronique

Le cœur de cette innovation réside dans l’utilisation des jonctions à tunnel magnétique (MTJ), une technologie de spintronique qui exploite le spin des électrons au lieu de leur charge électrique pour stocker des données. Les MTJ sont des dispositifs nanostructurés utilisés pour améliorer les disques durs, les capteurs et d’autres systèmes microélectroniques, y compris la mémoire magnétique à accès aléatoire (MRAM), qui a été utilisée dans des systèmes embarqués tels que les microcontrôleurs et les montres intelligentes. Cette approche non seulement réduit la consommation d’énergie, mais augmente également la vitesse de traitement et la robustesse du système dans des environnements difficiles.

Ulya Karpuzcu, expert en architecture informatique, co-auteur de l’article et professeur agrégé au département de génie électrique et informatique de l’Université du Minnesota, explique :

“En tant que substrat de calcul numérique en mémoire extrêmement économe en énergie, la CRAM est très flexible dans la mesure où le calcul peut être effectué à n’importe quel endroit de la baie de mémoire. En conséquence, nous pouvons reconfigurer la CRAM pour qu’elle corresponde au mieux aux besoins de performance d’un ensemble diversifié d’algorithmes d’IA”.

Il ajoute:

“Il est plus économe en énergie que les blocs de construction traditionnels des systèmes d’IA d’aujourd’hui. La CRAM effectue des calculs directement dans les cellules de mémoire, en utilisant efficacement la structure du réseau, ce qui élimine le besoin de transferts de données lents et énergivores”.

Selon les chercheurs, un accélérateur d’inférence d’apprentissage automatique basé sur la CRAM permet d’obtenir une amélioration de l’ordre de 1 000. Ils ont démontré que la CRAM peut accomplir des tâches essentielles pour l’IA, telles que l’addition scalaire et la multiplication matricielle, en seulement 434 nanosecondes, avec une consommation énergétique de seulement 0,47 microjoule. Ce qui représente une économie d’énergie environ 2 500 fois supérieure par rapport aux systèmes de mémoire conventionnels, qui séparent les composants logiques et de mémoire.

Un effort collaboratif de longue haleine

L’équipe dirigée par le professeur Jian-Ping Wang, un pionnier dans le domaine des dispositifs MTJ, a travaillé sans relâche depuis 2003 pour concrétiser cette vision. Ce projet a réuni une équipe interdisciplinaire composée de spécialistes en physique, en science des matériaux, en informatique et en ingénierie, contribuant à des avancées significatives qui rendent aujourd’hui cette technologie prête à être intégrée dans des applications industrielles.

Implications et perspectives

Avec l’augmentation exponentielle de la demande en applications d’IA, l’impact potentiel de cette technologie est immense. Selon l’Agence internationale de l’énergie (AIE), la consommation d’énergie de l’IA pourrait atteindre 1 000 térawattheures (TWh) d’ici 2026, soit l’équivalent de la consommation annuelle d’électricité du Japon. L’adoption de la CRAM pourrait réduire de manière drastique cette consommation, rendant les systèmes d’IA plus durables et plus économes en énergie.

L’équipe envisage déjà de collaborer avec des leaders de l’industrie des semi-conducteurs pour produire à grande échelle ce nouveau matériel et intégrer cette technologie dans les prochaines générations de systèmes d’IA.

Un soutien solide pour une technologie pionnière

Ce projet a été soutenu par des institutions majeures telles que la Defense Advanced Research Projects Agency (DARPA), le National Institute of Standards and Technology (NIST), la National Science Foundation (NSF), et Cisco Inc. Les travaux ont également bénéficié des infrastructures de pointe du Minnesota Nano Center et du Minnesota Supercomputing Institute.

Références de l’article :

“Démonstration expérimentale de la mémoire à accès aléatoire computationnelle basée sur les jonctions tunnel magnétiques”.
npj Unconventional Computing https://doi.org/10.1038/s44335-024-00003-3, publié le 25/07/2024

Auteurs : Yang Lv, Brandon R. Zink, Robert P. Bloom, Hüsrev Cılasun, Pravin Khanal, Salonik Resch, Zamshed Chowdhury, Ali Habiboglu, Weigang Wang, Sachin S. Sapatnekar, Ulya Karpuzcu, Jian-Ping Wang.

La CRAM, une technologie de mémoire innovante pour des applications d'IA moins énergivores
  • ✇ActuIA
  • ETH Zürich : le changement climatique influence la rotation de la terre
    Le changement climatique modifie la rotation de la Terre et la durée du jour. Des chercheurs de l’ETH Zürich ont démontré que la fonte des glaces, provoquée par le réchauffement climatique, affecte significativement l’axe de rotation de la planète et sa vitesse de rotation, supplantant même l’influence séculaire de la lune. Soutenus par l’agence spatiale américaine NASA, les chercheurs ont publié leurs travaux dans deux articles de recherche, l’un paru le 12 juillet dernier dans Nature Géoscien

ETH Zürich : le changement climatique influence la rotation de la terre

17 juillet 2024 à 14:00

Le changement climatique modifie la rotation de la Terre et la durée du jour. Des chercheurs de l’ETH Zürich ont démontré que la fonte des glaces, provoquée par le réchauffement climatique, affecte significativement l’axe de rotation de la planète et sa vitesse de rotation, supplantant même l’influence séculaire de la lune.

Soutenus par l’agence spatiale américaine NASA, les chercheurs ont publié leurs travaux dans deux articles de recherche, l’un paru le 12 juillet dernier dans Nature Géoscience et le second le 15, dans la revue PNAS (Proceedings of the National Academy of Sciences).

Impact du changement climatique sur la rotation de la Terre

Lorsque les masses de glace au Groenland et en Antarctique fondent sous l’effet du changement climatique, l’eau des régions polaires s’écoule vers les océans, principalement autour de l’équateur. Cette redistribution de masse ralentit la rotation de la Terre, allongeant ainsi la durée du jour de quelques millisecondes, ce que les chercheurs démontrent dans l’étude PNAS.

Benedikt Soja, professeur de géodésie spatiale au Département de génie civil, environnemental et géomatique de l’ETH Zurich, explique :

“C’est comme lorsqu’une patineuse artistique fait une pirouette, en tenant d’abord ses bras près de son corps, puis en les étirant.. La rotation initialement rapide devient plus lente car les masses s’éloignent de l’axe de rotation, augmentant l’inertie physique. En physique, on parle de la loi de conservation du moment angulaire, et cette même loi régit également la rotation de la Terre. Si la Terre tourne plus lentement, les jours s’allongent. Le changement climatique modifie donc également la durée du jour sur Terre, bien que de manière minime”.

Une autre cause de ce ralentissement est le frottement des marées, déclenché par la lune. Cette étude arrive à une conclusion surprenante : si les humains continuent d’émettre plus de gaz à effet de serre et que la Terre se réchauffe en conséquence, cela aura finalement une plus grande influence sur la vitesse de rotation de la Terre que l’effet de la lune, qui a déterminé l’augmentation de la durée du jour pendant des milliards d’années.

Benedikt Soja souligne :

“Nous, les humains, avons un impact plus important sur notre planète que nous ne le pensons et cela nous impose naturellement une grande responsabilité pour l’avenir de notre planète”.

Déplacement de l’axe de rotation

Les changements de masse à la surface et à l’intérieur de la Terre causés par la fonte des glaces ne modifient pas seulement la vitesse de rotation de la Terre, mais, comme le montrent les chercheurs dans Nature Geoscience, ils déplacent également son axe de rotation. Ce mouvement polaire, observé sur plusieurs décennies, déplace les points où l’axe de rotation rencontre la surface de la Terre de plusieurs mètres sur un siècle. Les processus internes de la Terre, tels que les déplacements dans le manteau visqueux et les flux de chaleur dans le noyau externe, contribuent également à ce phénomène :

  • Le noyau externe de la Terre est constitué de métal liquide. À l’intérieur de ce noyau, des flux de chaleur et des mouvements de convection se produisent. Ces mouvements influencent la distribution de masse interne et génèrent des changements dans le champ magnétique terrestre. Ces variations de masse et de dynamique interne affectent la position de l’axe de rotation ;
  • Le manteau terrestre est une couche de roche visqueuse située entre le noyau et la croûte. Sous l’effet de la chaleur et des forces tectoniques, la roche dans le manteau se déplace lentement. Ces déplacements, causés par la convection thermique et les forces tectoniques, modifient la distribution de masse à long terme, ce qui contribue également au mouvement de l’axe de rotation.

Mostafa Kiani Shahvandi, l’un des doctorants du professeur Soja et auteur principal de l’étude, explique :

“Pour la première fois, nous présentons une explication complète des causes du mouvement polaire à longue période. En d’autres termes, nous savons maintenant pourquoi et comment l’axe de rotation de la Terre se déplace par rapport à la croûte terrestre”. 

Les chercheurs ont également démontré l’interconnexion et l’influence mutuelle des processus à la surface et à l’intérieur de la Terre.

Benedikt Soja déclare :

“Le changement climatique provoque le déplacement de l’axe de rotation de la Terre, et il semble que la rétroaction de la conservation du moment angulaire modifie également la dynamique du noyau de la Terre”.

Kiani Shahvandi ajoute :

“Le changement climatique en cours pourrait donc même affecter les processus profonds de la Terre et avoir une plus grande portée qu’on ne le pensait auparavant”. 

Modélisation et intelligence artificielle

Les chercheurs de l’ETH Zurich ont développé une approche innovante pour modéliser le mouvement polaire de la Terre en utilisant un algorithme d’apprentissage automatique basé sur des réseaux neuronaux informés par la physique (PINNs). Cette méthode permet de traiter conjointement toutes les contributions connues au mouvement polaire.

Les PINNs sont des réseaux de neurones qui intègrent des lois physiques et des modèles géophysiques pour améliorer la précision des prédictions. Contrairement aux algorithmes d’apprentissage automatique classiques, les PINNs sont contraints de satisfaire aux modèles physiques sous-jacents, même lorsqu’ils utilisent des modèles imparfaits de ces processus. Cette intégration permet de mieux capturer les interactions complexes entre différents processus géophysiques.

Les PINNs se sont avérés particulièrement efficaces pour découvrir les connexions entre les processus géophysiques et récupérer la physique sous-jacente. Ils ont pu identifier et modéliser avec précision les interactions entre les différents effets sur la surface de la Terre, dans son manteau et dans son noyau.

Grâce à cette approche intégrée, les chercheurs ont pu modélise comment les pôles de rotation de la Terre se sont déplacés depuis 1900. Les résultats de ces modèles sont en excellent accord avec les données réelles, fournies par les observations astronomiques du passé et par les satellites au cours des trente dernières années, validant l’efficacité de l’approche PINN pour faire des prévisions sur les futurs déplacements.

Kiani Shahvandi a reçu le soutien de Siddhartha Mishra, professeur de mathématiques à l’ETH Zurich, qui a reçu en 2023 le prix Rössler de l’ETH Zurich, le prix de recherche le plus doté de l’université, et qui est un spécialiste dans ce domaine.

Implications pour la recherche et la navigation spatiale

Cette modélisation précise du mouvement polaire est cruciale pour la recherche géophysique et la navigation spatiale. En comprenant mieux les interactions entre les différents processus géophysiques, les scientifiques peuvent améliorer les modèles climatiques et prévoir les effets à long terme du changement climatique sur la dynamique terrestre. De plus, en navigation spatiale, les variations de la rotation terrestre doivent être prises en compte pour des missions précises, comme l’explique le professeur Soja :

“Même si la rotation de la Terre ne change que lentement, cet effet doit être pris en compte lors de la navigation dans l’espace, par exemple lors de l’envoi d’une sonde spatiale sur une autre planète. Même une légère déviation d’un centimètre sur Terre peut atteindre une déviation de plusieurs centaines de mètres sur les énormes distances impliquées. Sinon, il ne sera pas possible d’atterrir dans un cratère spécifique sur Mars”.

Références de l’article : Blog ETH Zurich, Barbara Vonarburg

Kiani Shahvandi M, Adhikari S, Dumberry M, Modiri S, Heinkelmann R, Schuh H, Mishra S, Soja B : Contributions du noyau, du manteau et des processus climatologiques au mouvement polaire de la Terre. Dans : Nature Geoscience, Vol. 17, juillet 2024, p. 705-710. https://doi.org/10.1038/s41561-024-01478-2call_made .

Kiani Shahvandi M, Adhikari S, Dumberry M, Mishra S, Soja B : Le rôle de plus en plus dominant du changement climatique sur les variations de la durée du jour. Dans : Proceedings de l’Académie nationale des sciences, PNAS 2024, vol. 121, n° 30, e2406930121. https://doi.org/10.1073/pnas.2406930121call_made.

ETH Zürich le changement climatique influence la rotation de la terre
  • ✇ActuIA
  • Mind-to-Image : quand l’IA permet de visualiser l’imagination
    Lors du lancement de son laboratoire de recherche au sein de la Sorbonne en septembre dernier, le trio d’artistes du collectif Obvious annonçait travailler sur la conversion d’ondes cérébrales en images. Il a présenté récemment le fruit de ses premiers travaux : l’algorithme Mind-to-Image, développé en collaboration avec l’Institut du Cerveau et de la Moelle Epinière et l’Université de la Sorbonne au cours des six derniers mois. Le Collectif Obvious, qui réunit trois amis d’enfance amateurs d’ar

Mind-to-Image : quand l’IA permet de visualiser l’imagination

13 mai 2024 à 09:00

Lors du lancement de son laboratoire de recherche au sein de la Sorbonne en septembre dernier, le trio d’artistes du collectif Obvious annonçait travailler sur la conversion d’ondes cérébrales en images. Il a présenté récemment le fruit de ses premiers travaux : l’algorithme Mind-to-Image, développé en collaboration avec l’Institut du Cerveau et de la Moelle Epinière et l’Université de la Sorbonne au cours des six derniers mois.

Le Collectif Obvious, qui réunit trois amis d’enfance amateurs d’art, Pierre Fautrel, Hugo Caselles-Dupré et Gauthier Vernier, utilise des algorithmes d’IA pour créer des œuvres d’art.

En 2018, l’une d’entre elles, le “Portrait d’Edmond de Belamy”, a été vendue 432 500$ par la célèbre maison d’enchères américaine Christie’s alors qu’elle était estimée au plus à 10 000 euros, créant la stupéfaction dans le monde de l’art. Depuis, leurs tableaux ont été exposés dans des musées prestigieux de par le monde, notamment au Musée de l’Ermitage à Saint-Pétersbourg, au Musée National de Chine ou encore au Haus der Kunst, à Munich. Célèbre à l’étranger, Obvious a également réalisé différents projets en France, parmi ceux-ci Marianne en 2022 ou l’Alpine A110 Sastruga.

Le laboratoire Obvious Research est une initiative conjointe entre le collectif et le professeur Matthieu Cord de l’Université La Sorbonne (MLIA), reconnu pour ses recherches en vision par ordinateur, un des auteurs de l’article de recherche consacré à Mind-to-Image.

Mind-to-Image: projection de l’imagination mentale visuelle du cerveau à partir de l’IRMf

L’idée d’utiliser l’IRMf (imagerie par résonance magnétique fonctionnelle) pour décoder et reconstruire des vidéos ou des images n’est pas nouvelle : en 2011, des chercheurs du laboratoire Jack Gallant de l’Université de Berkeley, en Californie, dont Shinji Nishimoto, chercheur postdoctoral au laboratoire, l’ont associée à la simulation informatique pour reconstruire, plus ou moins approximativement, des bandes-annonces de films hollywoodiens visionnées par les chercheurs.

Depuis, les progrès dans le domaine du deep learning ont permis de développer des IA génératives permettant d’explorer de nouvelles approches.

Ainsi, Shinji Nishimoto, aujourd’hui professeur à l’Université d’Osaka au Japon et l’un de ses collègues, Yu Takagi, ont utilisé Stable Diffusion, le générateur de texte en image publié par Stability AI en août 2022, pour transformer les activités cérébrales mesurées par IRMf en images fixes.

L’équipe de Mind-to-Image s’est attaquée à un défi plus ardu : reconstruire des images à partir de l’imagination visuelle mentale grâce à l’IA générative.

Ils ont utilisé le modèle open source publié en 2023 MindEye dont ils ont adapté l’architecture à la complexité inhérente aux données d’imagination visuelle. Ils ont ensuite introduit deux protocoles de collecte de données : l’imagination faible (basée sur la mémoire) et l’imagination forte (pure imagination).

L’imagination faible implique la reconstruction d’images de portraits et de paysages que le sujet a précédemment vues, tandis que l’imagination forte demande au sujet d’imaginer des images en se basant sur une instruction écrite.

Au départ, l’équipe a entraîné le modèle en utilisant un ensemble de données issu du protocole d’imagination faible. Cette phase impliquait la reconstruction d’images déjà connues et visualisées par le sujet.

Par la suite, le modèle, dont les paramètres ont été figés pour préserver l’apprentissage acquis, a été appliqué aux données provenant du protocole d’imagination forte pour générer des images imaginées à partir d’instructions textuelles.

Pour les auteurs de l’article :

“Notre étude démontre que le modèle réussit à distinguer entre des catégories larges telles que les portraits et les paysages, saisissant efficacement la catégorie du contenu imaginé par le sujet. La capture précise des contenus détaillés de ces images imaginées a été partiellement réussie, mais s’est avérée plus difficile. Cette recherche offre une voie prometteuse vers la génération de représentations visuelles directement à partir de la pensée humaine”. 

Références :

“Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI”

https://doi.org/10.48550/arXiv.2404.05468

Auteurs : Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord.

Mind-to-Image quand l'IA permet de visualiser l'imagination
  • ✇ActuIA
  • Quand l’IA prédit l’orientation politique à partir d’une photo : vers une surveillance accrue ?
    Deviner l’orientation politique d’une personne d’après son visage peut sembler autant improbable qu’inquiétant. Trois chercheurs de l’Université de Stanford ont selon eux démontré que c’était pourtant possible et pour des évaluateurs humains et pour des algorithmes d’IA et ce, à partir d’images standardisées de visages inexpressifs. Pour eux, leurs résultats soulignent l’urgence pour les chercheurs, le public et les décideurs politiques de reconnaître et de traiter les risques potentiels de la t

Quand l’IA prédit l’orientation politique à partir d’une photo : vers une surveillance accrue ?

Par : Thomas Calvi
2 mai 2024 à 11:00

Deviner l’orientation politique d’une personne d’après son visage peut sembler autant improbable qu’inquiétant. Trois chercheurs de l’Université de Stanford ont selon eux démontré que c’était pourtant possible et pour des évaluateurs humains et pour des algorithmes d’IA et ce, à partir d’images standardisées de visages inexpressifs. Pour eux, leurs résultats soulignent l’urgence pour les chercheurs, le public et les décideurs politiques de reconnaître et de traiter les risques potentiels de la technologie de reconnaissance faciale pour la vie privée.

Des recherches antérieures ont montré que les humains peuvent déduire l’orientation politique à partir d’images faciales, bien que cela puisse être influencé par des facteurs tels que la présentation de soi, l’expression faciale et les propriétés de l’image. Les algorithmes de reconnaissance faciale, quant à eux, ont atteint une précision encore plus élevée dans la prédiction de l’orientation politique, ce qui pose des questions sur la confidentialité et le contrôle des informations personnelles.

Les chercheurs de Stanford ont voulu déterminer dans quelle mesure ces prédictions reposent sur des traits faciaux stables plutôt que sur d’autres facteurs modifiables.

Echantillon de l’étude

Les 591 participants à cette étude ont été recrutés dans une grande université américaine privée et étaient âgés de 19 à 22 ans. Ils ont été photographiés en laboratoire dans des conditions standardisées, vêtus d’un t-shirt noir, sans maquillage, les cheveux tirés en arrière, même orientation de la tête devant un arrière-plan neutre, après avoir rempli un questionnaire où ils ont indiqué leur âge, leur sexe et leur orientation politique.

Méthodologie

Pour prédire l’orientation politique à partir des photos, les chercheurs ont utilisé l’algorithme de reconnaissance faciale VGGFace2 avec une architecture ResNet-50-256D, spécialement conçue pour extraire des informations pertinentes à partir d’images faciales. Ce réseau neuronal a été entraîné sur un vaste ensemble de données comprenant 9 131 individus et 3,3 millions d’images faciales, couvrant une variété de poses, expressions faciales, éclairages et autres caractéristiques.

Les images ont été converties en descripteurs de visage de 256 valeurs, uniques à chaque individu, capturant des traits distinctifs et stables du visage, bien que non interprétables par les humains en raison de leur complexité.

Ces descripteurs ont ensuite été utilisés dans une régression linéaire pour cartographier les caractéristiques du visage sur une échelle d’orientation politique, validée par une méthode de validation croisée pour éviter le surapprentissage.

Dans un second temps, ils ont demandé à des évaluateurs humains de déduire eux-aussi l’orientation politique des participants à partir des photos.

Ils ont également appliqué leur méthode pour prédire l’affiliation à un parti politique dans un échantillon très différent : des images de profil de 3 401 politiciens des États-Unis, du Royaume-Uni et du Canada.

Limitations

Les auteurs soulignent certaines limitations de leur étude : la jeunesse de l’échantillon, sa taille et le fait que les participants étaient majoritairement libéraux.

D’autre part, les images faciales en basse résolution et bidimensionnelles utilisées pour l’étude ne capturaient pas entièrement la complexité tridimensionnelle de l’apparence du visage. De plus, l’algorithme de reconnaissance faciale n’était pas spécialement conçu pour prédire l’orientation politique, ce qui pourrait limiter sa performance par rapport à un modèle dédié à cette tâche.

Résultats

Les résultats ont montré que les évaluateurs humains (corrélation r = 0,21) et l’algorithme de reconnaissance faciale (corrélation r = 0,22) étaient capables de prédire les scores d’orientation politique des participants sur une échelle décorrélée de l’âge, du sexe et de l’origine ethnique (α de Cronbach = 0,94). Lorsque l’algorithme a exploité des informations sur l’âge, le sexe et l’origine ethnique des participants, sa précision prédictive a été encore améliorée (corrélation r = 0,31).

Alors que les images des politiciens n’étaient pas standardisées, la performance réalisée (r ≈ 0,13) montre que les associations entre l’apparence faciale et l’orientation politique se généralisent au-delà de l’échantillon relativement jeune et libéral des participants américains recueillis dans cette étude.

Pour eux, ces résultats suggèrent que les technologies de surveillance biométrique généralisées sont plus menaçantes qu’on ne le pensait auparavant. Des algorithmes, bien que modérément précis, peuvent avoir un impact considérable lorsqu’ils sont appliqués à de grandes populations dans des contextes à enjeux élevés. Ils estiment que les universitaires, le public et les décideurs politiques devraient en prendre note et envisager de renforcer les politiques réglementant l’enregistrement et le traitement des images faciales.

Références de l’article :

“Facial Recognition Technology and Human Raters Can Predict Political Orientation From Images of Expressionless Faces Even When Controlling for Demographics and Self-Presentation”

American Psychologist https://doi.org/10.1037/amp0001295

Auteurs :

Michal Kosinski, Poruz Khambatta, Yilun Wang, Université de Stanford

Quand l'IA prédit l'orientation politique à partir d'une photo vers une surveillance accrue

Génomique : Together AI dévoile EVO, un modèle de pointe ouvrant de nouvelles perspectives pour la biologie computationnelle

5 mars 2024 à 13:19

Together AI, une startup de recherche en IA basée à San Francisco qui s’est donnée pour mission de faire avancer les frontières de l’IA open source, a récemment publié EVO, un modèle de fondation génomique qui permet des tâches de prédiction et de génération de l’échelle moléculaire à l’échelle du génome, développé en collaboration avec Arc Institute, une organisation de recherche à but non lucratif basée à Palo Alto, près de San Francisco.

Le génome est une séquence qui code complètement l’ADN, l’ARN et les protéines qui orchestrent le fonctionnement d’un organisme. La modélisation des génomes entiers se heurte à deux défis majeurs: les séquences d’ADN sont extrêmement longues (jusqu’à des milliards de nucléotides) et la sensibilité requise pour comprendre pleinement les effets de l’évolution (qui se produit un nucléotide à la fois). En conséquence, les avancées existantes dans la modélisation de séquences biologiques avec l’IA se sont plutôt concentrées sur des capacités spécifiques à une tâche ou à modalité unique.

Les chercheurs de Together AI et de l’Arc Institute ont cherché à surmonter ces difficultés inhérentes à la modélisation de génomes entiers pour développer un modèle qui puisse comprendre non seulement les composants individuels de l’ADN, de l’ARN et des protéines, mais aussi comment ils interagissent pour créer des systèmes complexes.

Plutôt que l’architecture Transformer habituellement utilisée, ils ont opté pour l’architecture hybride StripedHyena, une architecture de traitement du signal en profondeur récemment introduite par Together Research, combinant l’attention rotative et les opérateurs d’hyène pour traiter et rappeler efficacement des modèles dans de longues séquences. Grâce à ses capacités de long contexte et son mode d’inférence efficace, elle leur a permis de générer des séquences allant jusqu’à 650k sur un seul GPU.

Architecture d’EVO

Les performances du modèle EVO 1

Le modèle EVO 1, qui compte 7 milliards de paramètres, a été entraîné sur OpenGenome, un ensemble de données procaryotes sur le génome entier contenant environ 300 milliards de jetons. Il peut non seulement générer à l’échelle de plusieurs molécules (protéines et ARNnc), mais il a également le potentiel de générer des séquences à l’échelle des génomes entiers :

  • Prédiction zéro-shot : Evo peut prédire la fonction biologique à l’échelle du génome entier, surpassant même les expériences d’essentialité génétique en laboratoire en un fraction du temps requis ;
  • Prédiction multimodale : Evo peut prédire la fonction des protéines, de l’ARN non codant et de l’ADN régulateur, couvrant ainsi toutes les modalités biologiques essentielles ;
  • Génération génétique : Evo peut générer de nouveaux systèmes CRISPR, des systèmes d’édition génétique composé d’un ARN guide et d’une protéine Cas, utilisés pour cibler et modifier spécifiquement des séquences d’ADN dans le génome. Il ouvre ainsi la voie à la création de diversité biologique à partir de modèles génératifs.
  • Conception générative : Evo peut non seulement générer des séquences à l’échelle moléculaire, mais également à l’échelle du génome entier, offrant des capacités de conception sans précédent.

Evo effectue une prédiction de fonction zéro-shot pour les protéines, les ARN non codants et l’ADN régulateur

Perspectives

Evo est le premier du genre à prédire et générer des séquences d’ADN à l’échelle du génome entier avec une résolution mononucléotidique, marquant un tournant dans la modélisation de séquences biologiques. Selon les chercheurs, il a le potentiel d’accélérer la découverte et la compréhension dans les sciences (biologie, chimie, science des matériaux…), ainsi que d’être appliqué à des problèmes concrets comme la découverte de médicaments, l’agriculture et la durabilité.

Ils soulignent l’importance de garantir un déploiement sécurisé de modèles ADN à grande échelle comme Evo, et ce, dans l’intérêt de l’humanité. Dans leur article, ils proposent une discussion approfondie sur les risques potentiels et les mesures de précaution à prendre.

Le modèle est disponible sur HuggingFace, GitHub, via l’API Together et<Playground.

Références : Blog Together AI

Article :  “Sequence modeling and design from molecular to genome scale with Evo”en prépublication sur BiorXiv, https://doi.org/10.1101/2024.02.27.582234

Auteurs et affiliations :

  • Eric NguyenStanford UniversityArc Institute)
  • Michael PoliTogetherAI)
  • Matthew G. DurrantStanford University)
  • Armin W. ThomasStanford University)
  • Brian Kang (Stanford University)
  • Jeremy Sullivan (Arc Institute)
  • Madelena Y. Ng (Stanford University)
  • Ashley Lewis Stanford University)
  • Aman PatelStanford University)
  • Aaron Lou (Stanford University)
  • Stefano Ermon (Stanford UniversityCZ Biohub)
  • Stephen A. BaccusStanford University)
  • Tina Hernandez-Boussard (Stanford University)
  • Christopher RéStanford University)
  • Patrick D. HsuStanford UniversityUniversity of California, Berkeley)
  • Brian L. Hie (Stanford UniversityArc Institute)

génome
  • ✇ActuIA
  • SliceGPT : une nouvelle méthode de compression des LLMs efficace
    Les grands modèles de langage pré-entraînés, tels que GPT-4 ont révolutionné le domaine du traitement du langage naturel (NLP) en offrant des performances de pointe sur de nombreuses tâches. Cependant, ces modèles sont également très coûteux en termes de ressources, tant pour l’entraînement que pour l’inférence. Des chercheurs de Microsoft Research et de l’ETH Zurich ont développé SliceGPT, une nouvelle méthode de compression post-entraînement pour les modèles de langage pré-entraînés, basée sur

SliceGPT : une nouvelle méthode de compression des LLMs efficace

14 février 2024 à 12:30

Les grands modèles de langage pré-entraînés, tels que GPT-4 ont révolutionné le domaine du traitement du langage naturel (NLP) en offrant des performances de pointe sur de nombreuses tâches. Cependant, ces modèles sont également très coûteux en termes de ressources, tant pour l’entraînement que pour l’inférence. Des chercheurs de Microsoft Research et de l’ETH Zurich ont développé SliceGPT, une nouvelle méthode de compression post-entraînement pour les modèles de langage pré-entraînés, basée sur la suppression de parties des matrices de poids du réseau.

Les LLMs nécessitent des infrastructures de calcul massives, ce qui limite leur accessibilité et leur déploiement dans divers contextes.

Pour réduire ces coûts, de nombreuses méthodes de compression ont été proposées, telles que la distillation, la quantification, le pruning ou la factorisation. Ces méthodes visent à réduire la taille du modèle, le nombre d’opérations ou la complexité du réseau, tout en préservant les performances du modèle original.

Avec SliceGPT, les chercheurs proposent une nouvelle méthode de compression post-entraînement pour les modèles de langage pré-entraînés, basée sur la suppression de parties des matrices de poids du réseau.

Pour réaliser cette compression, SliceGPT utilise l’analyse en composantes principales (PCA), une méthode statistique qui permet de transformer un ensemble de variables corrélées en un nouvel ensemble de variables non corrélées, appelées composantes principales. Ces composantes capturent l’essentiel de la variabilité des données d’origine.

Dans le contexte de SliceGPT, la PCA est utilisée pour calculer des transformations orthogonales à chaque couche du réseau. Ces transformations permettent de projeter le signal entre les blocs du réseau sur ses composantes principales. Ensuite, SliceGPT supprime les composantes principales mineures, ce qui revient à découper des lignes ou des colonnes des matrices modifiées des poids du réseau.

Ce processus de compression est conçu de manière à préserver l’invariance computationnelle du réseau, ce qui signifie que les prédictions du modèle ne sont pas altérées après la compression. En d’autres termes, bien que le modèle soit réduit en taille, il est capable de maintenir ses performances et de produire des résultats similaires à ceux obtenus avec le modèle original non compressé.

Evaluations

Les chercheurs ont évalué les performances de SLICEGPT sur les familles de modèles OPT, LLAMA-2 et Phi-2, en utilisant les jeux de données WikiText-2 et Alpaca pour la calibration. Ils montrent que SLICEGPT peut compresser ces modèles jusqu’à 30% en conservant une perplexité et une précision compétitives, tout en réduisant le temps d’inférence et le nombre de GPU nécessaires.

Ils ont également comparé SLICEGPT à d’autres méthodes de compression, SLICEGPT offre un meilleur compromis entre la taille du modèle, la qualité du langage et la vitesse d’inférence.

Ils ont réduit le coût de l’inférence du modèle LLAMA-2 70B sur des GPU A100 de 40 Go à 66% de celui du modèle dense sans aucune optimisation de code supplémentaire, en nécessitant moins de GPU (passant de 4 à 3).

Sur des GPU RTX6000 de 24 Go, le coût de l’inférence est réduit à 64%, nécessitant 2 GPU de moins (passant de 7 à 5). Sur des tâches secondaires sans entraînement, en découpant les modèles OPT 66B, LLAMA-2 70B et Phi-2 à 25%, ils maintiennent 99%, 96% et 87% des performances du modèle dense. Avec le réglage fin de récupération, les modèles LLAMA-2 70B et Phi-2 découpés à 25% augmentent respectivement à 99% et 90% de performance.

Les chercheurs espèrent que leurs travaux pourront aider de futures recherches à améliorer l’efficacité des modèles d’apprentissage profond, et peut-être inspirer de nouvelles perspectives théoriques.

Références de l’article :

“SLICEGPT: COMPRESS LARGE LANGUAGE MODELS BY DELETING ROWS AND COLUMNS”
https://doi.org/10.48550/arXiv.2305.18403

Auteurs :

Saleh Ashkboos, Torsten Hoefler, ETH Zurich,
Maximilian L. Croci, James Hensman, Microsoft Research
Marcelo Gennari do Nascimento, Microsoft

SliceGPT une nouvelle méthode de compression des LLMs efficace
  • ✇ActuIA
  • Des chercheurs de l’Université de Tokyo ont développé un robot qui utilise un muscle biologique pour se déplacer
    C’est dans un communiqué de presse que l’Université de Tokyo a révélé que le professeur Shoji Takeuchi et son équipe de la Graduate School of Information Science and Technology ont conçu un robot biohybride bipède, combinant un squelette artificiel avec un muscle biologique, capable de marcher et de pivoter sous l’eau. Les robots biohybrides ont le potentiel d’apporter des solutions innovantes dans des domaines tels que la médecine, la recherche environnementale ou la robotique molle. Cependant,

Des chercheurs de l’Université de Tokyo ont développé un robot qui utilise un muscle biologique pour se déplacer

2 février 2024 à 12:00

C’est dans un communiqué de presse que l’Université de Tokyo a révélé que le professeur Shoji Takeuchi et son équipe de la Graduate School of Information Science and Technology ont conçu un robot biohybride bipède, combinant un squelette artificiel avec un muscle biologique, capable de marcher et de pivoter sous l’eau.

Les robots biohybrides ont le potentiel d’apporter des solutions innovantes dans des domaines tels que la médecine, la recherche environnementale ou la robotique molle. Cependant, leur conception et leur utilisation soulèvent également des questions éthiques et de sécurité, notamment en ce qui concerne le contrôle et la manipulation de composants biologiques.

Depuis des années, ils sont le sujet de nombreuses recherches que l’impression 3D a fait progresser. Cependant, jusqu’à présent, ces robots, s’ils marchaient et effectuaient de larges virages, avaient du mal à exécuter des mouvements précis dans des espaces confinés, limitant ainsi leur utilisation pratique, notamment dans les opérations de recherche et de sauvetage.

Le robot développé par le professeur Shoji Takeuchi et son équipe, représente une avancée significative dans ce domaine. Contrairement à ses prédécesseurs, il peut effectuer des mouvements de rotation sur un pied, ce qui lui permet de manœuvrer dans des espaces restreints et de contourner les obstacles avec une grande précision.

Les chercheurs ont détaillé leurs travaux dans la revue Matter. Exposé à l’air, le tissu musculaire se dessèche et perd de son élasticité, le robot a donc été conçu pour être suspendu dans l’eau. Il se compose d’un flotteur pour maintenir une posture droite dans un milieu de culture, d’un corps en polymère qui comprend deux substrats flexibles, des jambes imprimées en 3D et des tissus musculaires squelettiques cultivés à partir de cellules de rat.

Illustration étiquetée et image du robot. Ces images étiquetées montrent le corps flexible du robot, fabriqué à partir de tissu musculaire squelettique et d’un substrat en silicone transparent et flexible, attaché aux jambes et aux pieds lestés imprimés en 3D. ©2024, Kinjo et al/ Matière

Le Pr Takeuchi commente :

“En incorporant des tissus vivants dans le cadre d’un robot, nous pouvons utiliser les fonctions supérieures des organismes vivants. Dans nos dernières recherches, nous avons combiné du tissu musculaire squelettique cultivé en laboratoire avec des jambes artificielles flexibles et des pieds imprimés en 3D. L’utilisation du tissu musculaire pour bouger les jambes nous a permis de créer un petit robot avec des mouvements efficaces et silencieux et un toucher doux”.

Les chercheurs stimulent manuellement chaque jambe du robot à l’aide d’électrodes en or, simulant ainsi les signaux électriques du cerveau pour induire la contraction du tissu musculaire. Cette stimulation, effectuée à des intervalles de cinq secondes, permet au robot de se déplacer à une vitesse de 5,4 millimètres par minute. Bien que cette vitesse puisse sembler modeste, les mouvements de jambes du robot sont comparables à ceux d’autres robots biohybrides, démontrant ainsi son efficacité dans la locomotion.

Le Pr Takeuchi explique :

“Au départ, nous n’étions pas du tout sûrs qu’il était possible de marcher bipède, c’était donc vraiment surprenant quand nous avons réussi. Notre robot biohybride a réussi à effectuer des mouvements vers l’avant et vers l’arrière avec une marche bipède en équilibrant efficacement quatre forces clés : la force contractile musculaire, la force réparatrice du corps flexible, la gravité agissant sur le poids et la flottabilité du flotteur”. 

GIF d’un robot qui marche. Ce GIF accéléré du robot sous l’eau montre les jambes marchant vers l’avant, les contractions musculaires étant stimulées par l’électricité. ©2024, Kinjo et al/ Matière

Bien que le robot soit actuellement limité à un fonctionnement sous l’eau en raison de la sensibilité du muscle cultivé à la déshydratation, les chercheurs envisagent des améliorations futures pour permettre une utilisation sur terre. Des muscles plus épais, dotés de leurs propres réserves de nutriments, pourraient être la clé pour surmonter cette limitation, ouvrant ainsi la voie à une utilisation plus étendue de ces robots dans divers environnements.

Le Pr Takeuchi conclut :

 “Nos résultats offrent des informations précieuses pour l’avancement des robots souples et flexibles alimentés par des tissus musculaires et ont le potentiel de contribuer à une compréhension plus approfondie des mécanismes de locomotion biologique, nous permettant d’imiter davantage les subtilités de la marche humaine dans les robots”.

Références :

“Robot bipède biohybride alimenté par le tissu musculaire squelettique”,
Matter : 26 janvier 2024, doi :10.1016/j.matt.2023.12.035.

Auteurs : Ryuki Kinjo, Yuya Morimoto, Byeongwook Jo, Shoji Takeuchi.

robotique-universite-de-tokyo
  • ✇ActuIA
  • Lumiere, la nouvelle IA génératrice de vidéos de Google Research
    Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d’images fixes, permettre de les styliser suivant son choix ou créer des cinémagraphes en animant seulement la partie sélectionnée d’une image. Les modèles de génération d’images tels qu’Adobe Firefly, DALL-E, Midjourney, Imagen

Lumiere, la nouvelle IA génératrice de vidéos de Google Research

Par : Thomas Calvi
29 janvier 2024 à 10:30

Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d’images fixes, permettre de les styliser suivant son choix ou créer des cinémagraphes en animant seulement la partie sélectionnée d’une image.

Les modèles de génération d’images tels qu’Adobe Firefly, DALL-E, Midjourney, Imagen ou Stable Diffusion ont soulevé l’enthousiasme et été rapidement adoptés. Une suite logique était la génération de vidéos, Meta AI s’y est attaqué dès octobre 2022 avec Make-A-Video, le laboratoire NVIDIA AI de Toronto a dévoilé un modèle de synthèse Text-to-Video haute résolution basé sur le modèle Stable Diffusion open source de Stability AI qui a de son côté présenté en novembre dernier Stable Video Diffusion, un modèle très performant.

La génération de vidéos est une tâche beaucoup plus complexe que la génération d’images, impliquant une dimension temporelle en plus de la dimension spatiale, le modèle doit non seulement générer correctement chaque pixel, mais également prédire comment ce dernier évoluera pour produire une vidéo cohérente et fluide.

Pour Lumiere, Google Research, qui avait participé au développement du modèle de génération de vidéos W.A.L.T présenté le mois dernier, a opté pour une approche novatrice afin de surmonter les défis spécifiques liés à l’entraînement des modèles text-to-video.

Le modèle LUMIERE se compose d’un modèle de base et d’un modèle de super-résolution spatiale. Le modèle de base génère des clips vidéo à basse résolution en traitant le signal vidéo dans plusieurs échelles spatio-temporelles, en s’appuyant sur un modèle de text-to-image pré-entraîné. Le modèle de super-résolution spatiale augmente la résolution spatiale des clips vidéo en utilisant une technique de multidiffusion pour assurer la continuité globale du résultat.

Les chercheurs expliquent :

“Nous introduisons une architecture U-Net spatio-temporelle qui génère toute la durée temporelle de la vidéo en une seule fois, par un seul passage dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d’une super-résolution temporelle, une approche qui rend intrinsèquement difficile la réalisation d’une cohérence temporelle globale”.

Crédit Google Research

Applications

Le modèle peut être facilement adapté à une variété de tâches de création et d’édition de contenu vidéo, telles que la génération de vidéos stylisées, la génération d’images-vers-vidéos, l’inpainting et l’outpainting vidéo, et la création de cinémagraphes, comme on peut le constater dans la vidéo ci-dessous.

Pour rappel, l’inpainting permet de remplir ou restaurer des parties manquantes ou endommagées d’une vidéo de manière réaliste. On peut l’utiliser pour remplacer des objets indésirables, réparer des artefacts (anomalies ou altérations non désirées) ou des zones corrompues dans une vidéo, ou même pour créer des effets spéciaux.

L’outpainting vidéo, en revanche, se réfère à l’extension ou à l’ajout de contenu au-delà des limites existantes de la vidéo. Il permet d’ajouter des éléments pour agrandir la scène, créer des transitions fluides entre les clips vidéo ou ajouter des éléments décoratifs ou contextuels.

Evaluations

Le modèle Lumiere a été évalué sur 113 descriptions textuelles ainsi que sur le jeu de données UCF101. Il a obtenu des résultats compétitifs en termes de Frechet Video Distance et d’Inception Score, et a été préféré par les utilisateurs pour sa qualité visuelle et sa cohérence de mouvement par rapport aux méthodes concurrentes.

Si le modèle a démontré de solides performances, les chercheurs rappellent :

“Notre objectif principal dans ce travail est de permettre aux utilisateurs novices de générer du contenu visuel de manière créative et flexible. Cependant, il existe un risque d’utilisation abusive pour la création de contenu faux ou préjudiciable avec notre technologie, et nous pensons qu’il est crucial de développer et d’appliquer des outils pour détecter les biais et les cas d’utilisation malveillants afin de garantir une utilisation sûre et équitable”.

Références de l’article :

Article “Lumiere: A Space-Time Diffusion Model for Video Generation”

arXiv, soumis le 23/01/2024, https://doi.org/10.48550/arXiv.2401.12945

Auteurs : Omer Bar-Tal 1 2, Hila Chefer 1 3, Omer Tov 1, Charles Herrmann 1, Roni Paiss 1, Shiran Zada 1, Ariel Ephrat 1, Junhwa Hur 1, Yuanzhen Li 1, Tomer Michaeli 1 4, Oliver Wang 1 Deqing Sun 1, Tali Dekel 1 2, Inbar Mosseri 1

1Google Research 2Weizmann Institute 3Tel-Aviv University 4Technion

Lumiere-nouvelle-IA-generatrice-videos-Google-Research

Intelligence Artificielle Générale : Google DeepMind propose un cadre pour classer les capacités et le comportement des IAG

22 janvier 2024 à 13:30

L’AGI, ou Intelligence Artificielle Générale (IAG), fait référence à une forme avancée d’IA qui possèderait la capacité de comprendre, apprendre et exécuter n’importe quelle tâche intellectuelle humaine. Cependant, il n’existe pas de définition consensuelle de l’IAG, et les experts du domaine ont des visions différentes et parfois contradictoires. Dans un article publié sur arXiv, des chercheurs de DeepMind proposent un cadre pour classer les niveaux de performance, de généralité et d’autonomie des modèles d’IAG et de leurs précurseurs.

Contrairement à l’intelligence artificielle spécialisée, qui est conçue pour effectuer une tâche spécifique, l’IAG serait capable de s’adapter et d’exceller dans un large éventail de domaines, de manière similaire, voire supérieure, à l’intelligence humaine. Objectif de recherches au sein d’entreprises comme OpenAI, DeepMind et Meta, présentée comme une opportunité pour l’humanité, elle soulève également des inquiétudes quant à ses risques potentiels pour la société, notamment celui de perte de contrôle.

Pour les chercheurs de DeepMind, l’objectif fondamental était de créer un cadre conceptuel robuste et partagé autour de l’IAG, afin de favoriser la transparence, la collaboration et la responsabilité dans la recherche et son développement.

Ce cadre vise à définir et mesurer les capacités et le comportement des systèmes d’IA en fonction de leur performance et de leur généralité. Ils les ont classé du “niveau 0, sans AGI” au “niveau 5, surhumain”, chaque niveau étant associé à un ensemble de mesures/benchmarks, ainsi qu’aux risques identifiés introduits et aux changements résultants dans le paradigme d’interaction humain-IA.

Définitions existantes de l’IAG

Pour développer leur cadre, les auteurs analysent des définitions existantes de l’IAG, et proposent 9 études de cas.

  • Etude de cas 1 : Le test de Turing : une tentative bien connue d’opérationnaliser un concept similaire à l’IAG. Le “jeu d’imitation” de Turing cherche à déterminer si les machines peuvent penser en demandant à un humain de distinguer si un texte est produit par un autre humain ou par une machine. Cependant, le test est critiqué pour sa facilité à tromper les gens plutôt que de mesurer réellement l’intelligence de la machine. Étant donné que les grands modèles de langage modernes réussissent certains aspects du Test de Turing, pour les chercheurs, ce critère est insuffisant pour opérationnaliser l’IAG, et ils proposent de définir l’IAG en termes de capacités plutôt que de processus.
  • Etude de cas 2 : IA forte – Systèmes possédant la conscience. Le philosophe John Searle suggère que, selon l’IAF, un ordinateur correctement programmé pourrait réellement posséder une conscience. Cependant, il n’y a pas de consensus scientifique sur la détermination de tels attributs. L’IAF, bien que potentiellement un chemin vers l’IAG, présente des défis pratiques en raison de l’absence de méthodes consensuelles pour établir si les machines possèdent des attributs tels que la conscience.
  • L’étude de cas 3 examine les analogies avec le cerveau humain, soulignant que l’origine du terme “intelligence artificielle générale” remonte à un article de 1997 sur les technologies militaires. Cette définition initiale met l’accent sur les processus basés sur le cerveau humain, bien que les architectures modernes de réseaux neuronaux ne nécessitent pas strictement ces processus.
  • L’étude de cas 4 porte sur la performance au niveau humain sur les tâches cognitives : en 2001, l’IAG a été décrite comme une machine capable de réaliser des tâches cognitives typiques des humains. Cependant, des ambiguïtés subsistent quant aux tâches spécifiques et aux personnes visées par cette définition.
  • Etude de cas 5 : la capacité d’apprendre des tâches. Shanahan considère l’IAG comme une intelligence artificielle capable d’apprendre un large éventail de tâches, mettant l’accent sur la valeur d’inclure des tâches métacognitives (apprentissage) parmi les exigences pour atteindre l’IAG.
  • Etude de cas 6 : le travail économiquement valable : les IAG sont envisagées comme des systèmes hautement autonomes surpassant les humains dans la plupart des travaux économiquement précieux. Cette définition se concentre sur la performance indépendamment des mécanismes sous-jacents, mais il ne capture pas tous les critères qui peuvent faire partie de “l’intelligence générale”.
  • L’étude de cas 7, Marcus, décrit l’IAG comme toute intelligence flexible et générale, comparable à l’intelligence humaine. Il propose des tâches concrètes pour opérationnaliser cette définition.
  • L’étude de cas 8 introduit le concept d’Intelligence Artificielle Capable (IAC), soulignant la capacité de réaliser des tâches complexes et multi-étapes dans le monde réel, avec un accent économique spécifique.
  • Etude de cas 9 : SOTA LLMs comme généralistes : les modèles linguistiques de pointe (LLM) sont déjà des IAG en raison de leur capacité à traiter et comprendre un large éventail de sujets et de tâches, à partir d’exemples zéro-shot ou peu-shot. Ce cadre se concentre sur la généralité, mais néglige la performance et la fiabilité.

Les 6 principes nécessaires à la définition de l’IAG

Ces neuf analyses de définitions existantes de l’IAG, (ou de concepts associés à l’IAG), ont permis aux chercheurs d’identifier des propriétés pouvant contribuer à une définition claire et opérationnelle de l’IAG. Pour eux, une ontologie utile pour l’IAG doit, entre autres :

  • Se concentrer sur les capacités plutôt que sur les mécanismes ;
  • Évaluer séparément la généralité et la performance ;
  • Se focaliser sur les tâches cognitives et métacognitives (plutôt que physiques) ;
  • Se concentrer sur le potentiel plutôt que sur la mise en œuvre ;
  • Se focaliser sur la validité écologique pour les tâches de référence
  • Définir des étapes le long du chemin vers l’IAG, plutôt que de se focaliser sur le point final.

Avec ces principes à l’esprit, les auteurs proposent une matrice de cinq niveaux de performance (de “émergent” à “surhumain”) et deux niveaux de généralité (de “étroit” à “général”). Ils donnent des exemples de systèmes existants qui correspondent à chaque cellule de la matrice, dans le tableau ci-dessous :

© Google DeepMind

Ils discutent ensuite des exigences difficiles pour les futurs benchmarks qui quantifient le comportement et les capacités des modèles d’IAG par rapport à ces niveaux et de la façon dont ces niveaux d’IAG interagissent avec des considérations de déploiement telles que l’autonomie et le risque. Pour finir, ils soulignent l’importance de choisir soigneusement les paradigmes d’interaction homme-IA pour un déploiement responsable et sûr des systèmes d’IA hautement capables.

Références de l’article : “Levels of AGI: Operationalizing Progress on the Path to AGI” arXiv:2311.02462v2 [cs.AI] 5 Jan 2024

Auteurs : Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg, Google DeepMind

Intelligence Artificielle Générale Google DeepMind propose un cadre pour classer les capacités et le comportement des IAG
  • ✇ActuIA
  • AlphaGeometry, le système d’IA de Google DeepMind capable de résoudre des problèmes de géométrie complexes
    DeepMind, le laboratoire d’IA de Google, a présenté la semaine dernière AlphaGeometry, un système d’IA développé en collaboration avec le département d’informatique de l’Université de New York. En résolvant des problèmes de géométrie complexes à un niveau comparable à celui d’un médaillé d’or olympique humain, AlphaGeometry représente une étape importante vers le développement de systèmes d’IA plus avancés et plus généraux. En 2019, une équipe de Google Research avait développé en 2019, DeepHol,

AlphaGeometry, le système d’IA de Google DeepMind capable de résoudre des problèmes de géométrie complexes

22 janvier 2024 à 10:00

DeepMind, le laboratoire d’IA de Google, a présenté la semaine dernière AlphaGeometry, un système d’IA développé en collaboration avec le département d’informatique de l’Université de New York. En résolvant des problèmes de géométrie complexes à un niveau comparable à celui d’un médaillé d’or olympique humain, AlphaGeometry représente une étape importante vers le développement de systèmes d’IA plus avancés et plus généraux.

En 2019, une équipe de Google Research avait développé en 2019, DeepHol, un prouveur de théorèmes neuronal basé sur le logiciel HOL Light Theorem Prover, une grande partie des théorèmes étudiés concernaient l’algèbre linéaire. Le prouveur de théorèmes neuronal AlphaGeometry s’adresse à la géométrie plane euclidienne.

AlphaGeometry adopte une approche neuro-symbolique, combinant un modèle de langage neuronal et un moteur de déduction symbolique. Cette synergie permet à l’IA de générer des idées rapides et intuitives tout en prenant des décisions délibérées et rationnelles. Les modèles de langage excellent dans l’identification de modèles généraux et de relations dans les données, tandis que les moteurs de déduction symbolique utilisent une logique formelle pour parvenir à des conclusions. Ensemble, ils forment un système capable de résoudre des problèmes de géométrie complexes.

Lors d’un test comparatif portant sur 30 problèmes de géométrie de l’Olympiade internationale de mathématiques (OIM), une compétition mondiale de mathématiques destinée aux élèves des lycées et collèges, AlphaGeometry a résolu 25 problèmes dans les délais impartis, se rapprochant ainsi du score des médaillés d’or humains qui ont résolu en moyenne 25,9 problèmes. En comparaison, le système de pointe précédent, connu sous le nom de “méthode de Wu”, n’avait résolu que 10 de ces problèmes.

L’approche neuro-symbolique

Les problèmes de géométrie des Olympiades sont basés sur des diagrammes qui nécessitent l’ajout de nouvelles constructions géométriques avant de pouvoir être résolus, tels que des points, des lignes ou des cercles.

Le modèle de langage neuronal, entraîné à partir de zéro sur une vaste base de données synthétiques, guide le moteur de déduction vers la solution, comme on peut le voir dans les figures ci-dessous.

Crédit DeepMind AlphaGeometry résolvant un problème simple : étant donné le diagramme du problème et ses prémisses du théorème (à gauche), AlphaGeometry (au milieu) utilise d’abord son moteur symbolique pour déduire de nouvelles instructions sur le diagramme jusqu’à ce que la solution soit trouvée ou que de nouvelles instructions soient épuisées. Si aucune solution n’est trouvée, le modèle de langage d’AlphaGeometry ajoute une construction potentiellement utile (bleue), ouvrant de nouvelles voies de déduction pour le moteur symbolique. Cette boucle se poursuit jusqu’à ce qu’une solution soit trouvée (à droite). Dans cet exemple, une seule construction est requise.
Crédit DeepMind AlphaGeometry résolvant un problème d’Olympiade : Problème 3 de l’Olympiade internationale de mathématiques 2015 (à gauche) et une version condensée de la solution d’AlphaGeometry (à droite). Les éléments bleus sont des constructions ajoutées. La solution d’AlphaGeometry comporte 109 étapes logiques.

Génération de données synthétiques à grande échelle

L’un des défis majeurs pour les chercheurs était le manque de données d’entraînement. Ils ont surmonté cette limitation en développant une méthode innovante permettant de générer un milliard de diagrammes aléatoires d’objets géométriques et dériver toutes les relations entre les points et les lignes de chaque diagramme. Un ensemble d’apprentissage de 100 millions d’exemples uniques de difficulté variable a été créé, permettant au modèle de langage de s’entraîner sans aucune démonstration humaine pour prédire les constructions utiles.

Crédit DeepMind Représentations visuelles des données synthétiques générées par AlphaGeometry

L’objectif à long terme de l’équipe de recherche est de construire des systèmes d’IA capables de se généraliser dans tous les domaines mathématiques “en développant la résolution de problèmes et le raisonnement sophistiqués dont dépendront les systèmes d’IA généraux, tout en repoussant les frontières de la connaissance humaine”.

En mettant en open source le code et le modèle d’AlphaGeometry, l’équipe espère encourager le développement d’autres outils et approches pour ouvrir de nouvelles possibilités dans les domaines des mathématiques, des sciences et de l’IA.

Références de l’article :

Blog DeepMind

Article Solving olympiad geometry without human demonstrations” Nature https://doi.org/10.1038/s41586-023-06747-5

Auteurs et affiliations :

  • Trieu H. Trinh, Yuhuai Wu, Quoc V. Le et Thang Luong, Google Research
  • He He, professeur adjoint au département d’informatique de l’Université de New York

GitHub – google-deepmind/alphageometry

AlphaGeometry, le système d'IA de Google DeepMind capable de résoudre des problèmes de géométrie complexes
  • ✇ActuIA
  • Comment la revue Science veut s’assurer de l’intégrité des images dans ses publications
    La manipulation d’images dans les articles de recherche est devenue un sujet de préoccupation croissante pour la communauté scientifique. Qu’elles soient accidentelles ou intentionnelles, ces modifications remettent en cause la crédibilité de la recherche et des revues scientifiques. Pour y remédier et restaurer la confiance du public, Science a déclaré dans son éditorial de janvier qu’il utiliserait Proofig, un outil basé sur l’IA qui analyse les images, pour détecter les altérations dans ses s

Comment la revue Science veut s’assurer de l’intégrité des images dans ses publications

19 janvier 2024 à 13:30

La manipulation d’images dans les articles de recherche est devenue un sujet de préoccupation croissante pour la communauté scientifique. Qu’elles soient accidentelles ou intentionnelles, ces modifications remettent en cause la crédibilité de la recherche et des revues scientifiques. Pour y remédier et restaurer la confiance du public, Science a déclaré dans son éditorial de janvier qu’il utiliserait Proofig, un outil basé sur l’IA qui analyse les images, pour détecter les altérations dans ses six revues.

Il existe différents types de manipulation d’images, allant des erreurs involontaires aux fraudes délibérées. Par exemple, certains auteurs peuvent dupliquer, recadrer, faire pivoter, redimensionner ou fusionner des images provenant de techniques expérimentales telles que la microscopie, la cytométrie en flux ou les Western blots (transferts de protéines), des altérations qui peuvent fausser les résultats ou induire les lecteurs en erreur. Elles sont les principales causes de rétractations d’articles, des opérations très coûteuses pour les revues scientifiques mais également pour leur réputation.

Des chercheurs comme Elisabeth Bik, qui a révélé l’existence d’une “fabrique” d’articles falsifiés en Chine, ce qu’elle explique par le fait qu’un doctorant chinois doit avoir publié au moins un article pour obtenir son diplôme, travaillent à détecter ces altérations avec l’aide d’outils d’intégrité d’images comme Imagetwin ou Proofig. Elle collabore d’ailleurs avec le site PubPeer où il est possible de partager les failles détectées dans les articles scientifiques.

H.Holden Thorp rappelle dans son éditorial que “des incidents très médiatisés, comme celui impliquant le laboratoire de l’ancien président de l’Université Stanford, Marc Tessier-Lavigne, ont érodé la confiance du public dans la science et nui à la carrière des chercheurs qui ont manqué des images trafiquées provenant de leurs propres laboratoires”.

En juillet dernier, Marc Tessier-Lavigne a en effet été contraint de démissionner de son poste de président de l’Université Stanford après qu’Elisabeth Bik ait révélé en 2022 qu’il était soit auteur principal, soit coauteur de quatre articles contenant des résultats manipulés.

Vérification de l’intégrité des images avec Proofig

Pour éviter les rétractations d’articles, Science, qui dit utiliser le logiciel de détection de plagiat iThenticate depuis sept ans, renforce son processus de vérification avec Proofig, qui se concentre sur l’analyse d’images plutôt que sur le texte. Auparavant, ce sont des examinateurs humains qui étaient chargés d’une partie des vérifications d’images, l’outil d’IA sera étendu cette année à tous les articles présentant des images “pertinentes“, après des mois de tests concluants.

Proofig sera appliqué après la révision des articles par les auteurs. L’outil analyse les images, identifie les duplications et repère d’autres anomalies, telles que la rotation, la distorsion d’échelle et l’épissage. Les résultats sont ensuite examinés par le rédacteur en chef, qui détermine si les anomalies détectées par l’IA sont problématiques ou non. Il peut parfois s’agir de simples erreurs, H. Thorp explique également que “dans certains cas, les figures peuvent avoir des rotations ou des duplications intentionnelles qui sont expliquées dans l’article”, mais un auteur peut choisir de fusionner ou dupliquer des images pour falsifier les résultats, ce qui est nettement plus grave.

Les auteurs sont contactés pour des explications et des corrections. Lors de la phase pilote, la plupart des problèmes ont été résolus de manière satisfaisante.

L’outil a permis de détecter des articles qui ne devraient pas être publiés. H. Thorp affirme que “À l’avenir, si la réponse des auteurs n’est pas satisfaisante ou soulève des préoccupations supplémentaires, nous approfondirons l’enquête et prendrons des mesures qui pourraient inclure le rejet de l’article”. Il ajoute que “Si des problèmes d’intégrité d’image sont soulevés à propos d’un article déjà publié par une revue scientifique, nous utiliserons Proofig pour examiner attentivement les images suspectes, ce qui éclairera les actions ultérieures (par exemple, la correction ou la rétractation)”.

Comment la revue Science veut s'assurer de l'intégrité des images dans ses publications
  • ✇ActuIA
  • L’utilisation de l’IA permet d’augmenter le nombre de dépistages et de suivis de la rétinopathie diabétique
    La rétinopathie diabétique (DED) est une atteinte de la rétine, fine membrane essentielle à la vue qui recouvre la partie arrière de l’œil, susceptible d’entraîner une baisse de la vision, voire une cécité. Il est donc très important de la diagnostiquer précocement et, dans ce but, les endocrinologues recommandent à leurs patients diabétiques un suivi ophtalmologique. Une étude menée au Johns Hopkins Children’s Center démontre que les examens de la vue basés sur l’IA augmentent le dépistage et l

L’utilisation de l’IA permet d’augmenter le nombre de dépistages et de suivis de la rétinopathie diabétique

Par : Thomas Calvi
19 janvier 2024 à 11:00

La rétinopathie diabétique (DED) est une atteinte de la rétine, fine membrane essentielle à la vue qui recouvre la partie arrière de l’œil, susceptible d’entraîner une baisse de la vision, voire une cécité. Il est donc très important de la diagnostiquer précocement et, dans ce but, les endocrinologues recommandent à leurs patients diabétiques un suivi ophtalmologique. Une étude menée au Johns Hopkins Children’s Center démontre que les examens de la vue basés sur l’IA augmentent le dépistage et le suivi de la DED.

Des études ont montré que seulement 35 à 72% des jeunes diabétiques subissent les dépistages recommandés, avec des taux d’écart de soins encore plus élevés parmi les jeunes issus de minorités raciales et de communautés défavorisées.

Selon les prévisions de l’OMS et de l’International Diabetes Federation (IDF), le diabète affectera 240 millions de personnes dans le monde en 2025. Aujourd’hui, il en touche 34 millions aux Etats-Unis, qui, pour la plupart, ne consultent pas pour un examen de la vue.

Selon les chercheurs, bien que la prévalence de la DED soit plus faible chez les jeunes diabétiques, elle touche environ 4 à 9% des jeunes atteints de diabète de type 1 et 4 à 15% de ceux atteints de diabète de type 2.

Les chercheurs, dirigés par Risa M. Wolf, M.D., de la Johns Hopkins School of Medicine à Baltimore, ont mené un essai randomisé auprès de jeunes patients du Johns Hopkins Pediatric Diabetes Center, atteints de diabète de type 1 et de type 2 : ACCESS (AI for Childrens’ diabetiC Eye examS Study). Ils ont recruté, avec l’accord de leurs parents, 164 participants âgés de 8 à 21 ans (moyenne 15 ans 1/2, 58% de filles). La population était diversifiée sur le plan racial, avec 35% de participants noirs et 6% d’hispaniques. Environ 47% des participants étaient couverts par Medicaid, indiquant une représentation significative de milieux socio-économiques modestes. La majorité (73%) avait un diabète de type 1.

Les participants ont été répartis aléatoirement en 2 groupes :

  • Un groupe témoin de 83 patients qui ont été orientés vers un optométriste ou un ophtalmologiste pour un examen de la vue, à qui l’on a expliqué comment obtenir le rendez-vous ;
  • Pour les 81 patients restant, l’examen de la vue a été réalisé lors de la visite chez l’endocrinologue avec un outil d’IA autonome, IDx-DR, approuvé en 2018 par la FDA pour la détection de la rétinopathie diabétique chez les plus de 21 ans.

Le système guide l’opérateur lors de la prise de deux images de fond d’œil en couleur, une centrée sur la fovéa et l’autre sur le nerf optique, en utilisant un algorithme de qualité d’image, l’incitant à en reprendre lorsque les images sont de qualité insuffisante. Le processus dure environ 10 minutes, après quoi l’IA signale l’un des résultats suivants dans les 60 secondes : “DED présent, référez-vous à un spécialiste”, “DED non présent, testez à nouveau dans 12 mois” ou “qualité d’image insuffisante”.

Les résultats de 25 des 81 participants de ce dernier groupe, soit 31%, ont indiqué la présence d’une rétinopathie. Seize d’entre eux, soit 64%, ont ensuite pris rendez-vous avec un professionnel de la vue.

Dans le 1er groupe à qui on avait demandé d’aller consulter un spécialiste de la vue, seuls 22% l’avaient fait six mois après.

Limitations

Les auteurs rappellent que l’IA autonome utilisée dans leur étude n’est pas approuvée par la Food and Drug Administration des États-Unis pour les moins de 21 ans. L’un des co-auteurs de l’étude, Michael D. Abramoff, est le fondateur de Digital Diagnostics, qui commercialise le dispositif médical IDx-DR.

Résultats

L’étude montre que les jeunes patients ayant subi un dépistage positif de la DED avec un outil d’IA autonome ont été plus nombreux à consulter un ophtalmologue. L’IA peut non seulement optimiser le diagnostic de la rétinopathie diabétique, en prévenir la progression mais également améliorer l’équité en matière de santé.

Références de l’article :

Autonomous artificial intelligence increases screening and follow-up of diabetic retinopathy in youth: the ACCESS randomized controlled trial” Nat Commun, 11janvier 2024. https://doi.org/10.1038/s41467-023-44676-z

Auteurs :

Risa M. Wolf, Alvin Liu, Anum Zehra, Lee Bromberger, Dhruva Patel, Ajaykarthik Ananthakrishnan, Elizabeth Brown, Laura Prichett, Harold Lehmann : Johns Hopkins School of Medicine, Baltimore

Roomasa Channa, de l’Université du Wisconsin

Michael D. Abramoff, de l’Université de l’Iowa.

L'utilisation de l'IA permet d'augmenter le nombre de dépistages et de suivis de la rétinopathie diabétique
  • ✇ActuIA
  • GILL, le LLM multimodal de l’Université Carnegie Mellon
    Des chercheurs du département d’apprentissage automatique (MLD) et de l’Institut des technologies linguistiques (LTI) de l’Université Carnegie Mellon ont  développé en un modèle de langage multimodal à grande échelle (MLLM) nommé Generating Images With Large Language Models (GILL). GILL est l’un des premiers modèles qui accepte à la fois des images et du texte en entrée, et peut superposer du texte et des images dans ses réponses. Les chercheurs ont adapté un modèle de langage autoregressif (LLM

GILL, le LLM multimodal de l’Université Carnegie Mellon

17 janvier 2024 à 12:00

Des chercheurs du département d’apprentissage automatique (MLD) et de l’Institut des technologies linguistiques (LTI) de l’Université Carnegie Mellon ont  développé en un modèle de langage multimodal à grande échelle (MLLM) nommé Generating Images With Large Language Models (GILL). GILL est l’un des premiers modèles qui accepte à la fois des images et du texte en entrée, et peut superposer du texte et des images dans ses réponses.

Les chercheurs ont adapté un modèle de langage autoregressif (LLM) pré-entraîné sur du texte afin qu’il traite simultanément des entrées d’images et de texte, tout en produisant des sorties d’images et de texte. Dans cette approche, la majorité des poids du modèle, y compris ceux du générateur d’images, Stable Diffusion, sont maintenus figés. En revanche, un nombre restreint de paramètres est finement ajusté en utilisant des données de légendes d’images pour obtenir une diversité étendue de capacités.

La méthode s’articule autour de plusieurs étapes. Tout d’abord, le modèle doit apprendre à traiter le contenu image-et-texte, une étape essentielle dans son adaptation à une tâche multimodale. Ensuite, le modèle doit être capable de générer des images, qu’elles soient récupérées à partir d’une source existante ou nouvellement créées, et il doit prendre des décisions pour déterminer s’il doit produire du texte ou des images à chaque étape du processus.

Leurs résultats montrent qu’il est possible de mapper efficacement l’espace d’incorporation de sortie d’un modèle de langage pré-entraîné gelé spécifique au texte sur celui d’un modèle de génération text-to-image figé, bien que les deux modèles utilisent des encodeurs de texte entièrement différents.

Le modèle multimodal GILL peut ainsi traiter des entrées d’images et de texte entrelacées arbitrairement pour générer du texte, récupérer des images et générer de nouvelles images.

Aperçu de l’architecture du modèle GILL. Il est entraîné avec une perte de légende pour apprendre à traiter les images (à gauche), et avec des pertes pour la récupération d’image et la génération d’image pour apprendre à produire des images (à droite).

Les chercheurs ont entraîné l’encodeur d’image ViT-L, dérivé de CLIP, à aligner ses embeddings avec ceux générés par le modèle texte-vers-image, et ce dernier à identifier les requêtes demandant une image, permettant ainsi au système de produire ou de récupérer des images.

Ils ont également construit un classificateur linéaire pour permettre au modèle GILL de déterminer quand une image devrait être récupérée ou générée. Pour l’entraîner, ils ont collecté des annotations humaines sur PartiPrompts P2, une collection de 1632 invites utilisée pour évaluer les modèles de génération d’images. Pour chacune d’entre elles, ils ont généré une image et récupéré l’image la plus similaire de CC3M, un ensemble de données composé de ~3,3 millions d’images annotées avec des légendes.

Cinq annotateurs humains ont ensuite sélectionné parmi ces 2 images, celle qui correspondait le mieux à l’invite.

Lors de l’inférence, le modèle prend en compte les entrées d’image et de texte entrelacées arbitrairement et produit du texte entrelacé avec des plongements d’image. Après avoir décidé de récupérer ou de générer pour un ensemble particulier de jetons, il renvoie les sorties d’image appropriées (récupérées ou générées).

GILL peut être invité à générer du texte de type dialogue, comme ci-dessous :

Limitations

Les chercheurs soulignent que malgré ses capacités intéressantes, GILL est un prototype de recherche précoce et présente plusieurs limites, notamment celles des LLM. Ils concluent toutefois :

“Notre approche est modulaire et peut bénéficier de modèles de langage multimodaux ou visuels plus puissants qui seront publiés à l’avenir. L’extension de la dorsale du modèle de langage multimodal, de la dorsale de génération d’images ou du modèle de traitement visuel constitue des orientations prometteuses qui devraient probablement renforcer davantage les capacités vision-langage”.

Références de l’article : Generating Images with Large Language Models class=”arxivid”>arXiv :2305.17216v3

Auteurs : Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov, Université Carnegie Mellon

GILL, le LLM multimodal de l'Université Carnegie Mellon
❌
❌