Un nouveau modèle d'IA lit et génère du code génétique dans tous les domaines de la vie

Bill Shaw
14 mars 2026

[Photo by garykbrixi (courtesy of Arc Institute)]

Des scientifiques ont mis au point un modèle d'IA capable de lire, d'analyser et de générer du code génétique dans tous les domaines connus de la vie. Ce développement a de vastes implications pour la compréhension des maladies humaines, la conception de nouveaux traitements et l'avancement des connaissances biologiques à une échelle jusqu'à présent impossible.

Le modèle, appelé Evo 2, a été publié dans la revue Nature le 4 mars par une équipe de chercheurs de l'Institut Arc, une organisation de recherche biomédicale à but non lucratif basée à Palo Alto, en Californie. Contrairement aux modèles d'IA couramment utilisés, tels que ChatGPT et Claude d’Anthropic, qui sont construits à partir de textes écrits dans des langues humaines, Evo 2 a été entièrement entraîné à partir de séquences d'ADN, soit environ 9000 milliards de paires de bases provenant de bactéries, de plantes, d'animaux et de tous les autres domaines de la vie.

Patrick Hsu, cofondateur et chercheur principal de l'Institut Arc et coauteur principal de l'article, a déclaré à phys.org :

Notre développement d'Evo 1 et d'Evo 2 représente un moment clé dans le domaine émergent de la biologie générative, car les modèles ont permis aux machines de lire, d'écrire et de penser dans le langage des nucléotides.

Les applications potentielles d'un tel modèle sont révolutionnaires. Un outil capable de prédire quelles variations génétiques provoquent des maladies, de générer de nouvelles séquences d'ADN plausibles et d'identifier les propriétés fonctionnelles des gènes dans tous les domaines de la biologie pourrait accélérer considérablement le développement de nouveaux médicaments, de thérapies géniques et d'outils de diagnostic. Elle pourrait transformer la compréhension et le traitement du cancer, des troubles génétiques, des maladies auto-immunes et des maladies infectieuses. Dans des conditions d'organisation sociale rationnelle et scientifiquement planifiée, de telles capacités pourraient être mises à la disposition de l'ensemble de l'humanité.

Dans le cadre du capitalisme, cependant, les bénéfices de ces avancées sont inévitablement canalisés vers le profit. Les géants pharmaceutiques et les entreprises de biotechnologie qui développent déjà des applications sur la base de modèles biologiques d’IA libres déposeront des brevets sur les traitements en aval et fixeront leur prix pour maximiser les bénéfices des actionnaires, et non pour améliorer la santé publique. La classe ouvrière, qui produit la richesse sociale qui rend ces recherches possibles, se verra refuser en grande partie l'accès aux traitements vitaux qui en découleront.

Construire le modèle

Pour construire Evo 2, les scientifiques ont compilé des séquences d'ADN provenant de près de 10 bases de données publiques sur le génome en un seul ensemble de données gigantesque appelé OpenGenome2. Avec ses 5,5 téraoctets – dépassant de loin la capacité de stockage d'un ordinateur portable ou d'un poste de travail typique – l'ensemble de données reflète l'ampleur considérable de l'entreprise. Ces séquences ont été fournies par des centaines de scientifiques du monde entier et mises gratuitement à la disposition du public, ce qui témoigne du caractère collaboratif et non propriétaire du travail scientifique, qui va à l’encontre des impératifs de la concurrence capitaliste.

Il existe deux versions principales du modèle : Evo 2 7B, avec 7 milliards de paramètres entraînés sur 2300 milliards de paires de bases, et Evo 2 40B, avec 40 milliards de paramètres entraînés sur l'ensemble des données. Le modèle le plus grand est plus puissant mais nécessite des ressources informatiques beaucoup plus importantes.

La création d'Evo 2 a été rendue possible par StripedHyena 2, une nouvelle architecture informatique qui a permis de s'entraîner sur 30 fois plus de données que le prédécesseur d'Evo 2, Evo 1, tout en traitant des séquences allant jusqu'à 1 million de nucléotides à la fois, ce qui est bien plus long que n'importe quel modèle d'IA biologique antérieur.

Après avoir construit le modèle, les scientifiques ont évalué sa capacité à effectuer une série de tâches : prédire les effets des mutations génétiques, identifier les variations de l'ADN humain à l'origine de maladies, détecter les propriétés fonctionnelles de différentes régions du génome et générer des séquences d'ADN entièrement nouvelles.

Evo 2 a réussi à prédire que les mutations dans des zones critiques de l'ADN seraient très dommageables : un fait biologique bien connu, mais pour lequel le modèle n'a jamais été explicitement programmé. Cette capacité est apparue entièrement à partir de modèles dans les données brutes des séquences.

Le modèle a également prédit avec précision si les variantes génétiques humaines – terme que les scientifiques préfèrent désormais à celui de «mutation», car ce ne sont pas toutes les variations qui provoquent des maladies – entraîneraient une maladie. Pour les insertions et les suppressions dans les séquences d'ADN, Evo 2 a surpassé tous les outils existants. Pour les changements plus simples, d'une seule lettre, dans le code génétique, ses performances sont comparables à celles des meilleurs outils qui n'ont pas été entraînés sur des exemples étiquetés, bien qu'elles soient inférieures à celles des modèles spécialisés entraînés sur des ensembles de données spécifiquement sélectionnées.

La distinction est importante : Evo 2 est un modèle «non supervisé», ce qui signifie qu'il a appris uniquement à partir de séquences d'ADN brutes, sans qu'on lui dise ce qu'il devait chercher. Les modèles formés à partir de données étiquetées par des scientifiques, appelés modèles «supervisés», présentent un avantage intrinsèque pour des tâches spécifiques. Le fait qu'Evo 2 puisse égaler ou dépasser ces modèles dans de nombreuses tâches, malgré l'apprentissage à partir de données brutes uniquement, est une réussite significative.

Evo 2 a également identifié avec précision une série de caractéristiques au sein des génomes. Chez les bactéries, il a correctement identifié les éléments génétiques capables de se déplacer d'un endroit à l'autre du génome. Chez l'homme, il a identifié avec précision les limites entre les introns et les exons : les segments d'un gène qui sont coupés ou conservés lorsque l'ADN est transcrit en ARN messager (ARNm) qui sert de modèle pour la construction des protéines. Toutes ces limites ne sont pas connues dans le génome humain, de sorte qu'un outil automatisé comme Evo 2 peut faire progresser considérablement les connaissances biologiques en peu de temps.

Sa capacité à reconnaître ces caractéristiques est apparue spontanément à partir de modèles dans les données de séquence, ce qui prouve que le modèle a développé indépendamment quelque chose qui s'apparente à une compréhension interne de la manière dont l'ADN code pour l'ARN et les protéines.

Générer du nouveau code génétique

Evo 2 étant également un modèle génératif, il peut produire de nouvelles séquences d'ADN en utilisant une séquence plus courte comme point de départ, de la même manière que ChatGPT génère du texte en réponse à un message écrit.

Les scientifiques ont testé cette capacité en fournissant à Evo 2 la première partie d'un gène et en lui demandant de compléter le reste. Lors des tests effectués sur six espèces différentes, le modèle a généré avec précision entre 70 et près de 100 % du gène restant.

Dans un test plus ambitieux, ils ont utilisé Evo 2 pour générer des séquences entières d'ADN codant pour des structures cellulaires complexes appelées mitochondries, les organites responsables de la production d'énergie dans les cellules. Chez l'homme, les gènes codant pour les composants des mitochondries sont dispersés sur l'ensemble des 23 chromosomes ainsi que dans l'ADN de la mitochondrie elle-même. Avec un minimum d'instructions, Evo 2 a généré les mêmes types et nombres de gènes que ceux codant pour les mitochondries réelles, avec une grande similitude par rapport aux séquences réelles.

Les scientifiques ont également utilisé Evo 2 pour générer des séquences d'ADN présentant des niveaux élevés d'«accessibilité à la chromatine», une propriété qui détermine si un segment d'ADN est physiquement accessible à la machinerie cellulaire qui active les gènes. Travaillant de concert avec deux autres modèles spécialisés, Evo 2 a été en mesure de produire de nouvelles séquences présentant les propriétés souhaitées, alors que des approches plus simples avaient échoué.

Il est important de noter que, bien que ces résultats soient très significatifs, les séquences d'ADN générées par Evo 2 doivent encore être testées dans le monde réel. Les auteurs reconnaissent que leurs méthodes d'évaluation ne garantissent pas que les génomes générés seront fonctionnels ou capables d'être répliqués pendant la division cellulaire.

Science ouverte et système de profit

Les scientifiques ont mis toutes les versions d'Evo 2 et l'ensemble de données OpenGenome2 en libre accès sur le dépôt de modèles HuggingFace, conformément à l'éthique des logiciels libres qui imprègne le meilleur de la recherche scientifique moderne.

Hsu note :

Evo 2 a une compréhension généraliste de l'arbre de la vie qui est utile pour une multitude de tâches, de la prédiction des mutations pathogènes à la conception d'un code potentiel pour la vie artificielle. Nous sommes impatients de voir ce que la communauté des chercheurs construira à partir de ces modèles de base.

Le caractère collaboratif du travail qui a donné naissance à Evo 2 est frappant. Les séquences d'ADN sur lesquelles il repose ont été fournies gratuitement par des scientifiques du monde entier et compilées à partir de bases de données publiques couvrant tous les domaines de la vie. L'architecture de l'intelligence artificielle qui a rendu ce modèle possible était accessible au public. Enfin, le modèle final et son ensemble de données ont été remis à la communauté des chercheurs.

Pourtant, ce travail collaboratif ne s'est pas déroulé en dehors du système de profit. Le plus grand modèle d'Evo 2 a été entraîné sur 2048 GPU NVIDIA H100 en utilisant la plateforme DGX Cloud de NVIDIA sur Amazon Web Services : des ressources fournies dans le cadre d'un partenariat officiel entre l'Institut Arc et NVIDIA, dont les employés figurent parmi les coauteurs de l'article.

L'Institut Arc lui-même a été fondé avec 650 millions de dollars provenant de milliardaires de la Silicon Valley, dont Patrick Collison, PDG de la société de paiement Stripe (65 milliards de dollars), qui est à la fois cofondateur de l'Institut et coauteur de l'article sur Evo 2. Greg Brockman, cofondateur et président d'OpenAI, a contribué à l'architecture sous-jacente du projet pendant un congé sabbatique. Collison et Brockman ont tous deux des liens avec l'administration Trump et le gouvernement israélien, principaux responsables du génocide en cours à Gaza et de la guerre impérialiste contre l'Iran.

La contradiction est évidente : le modèle d'IA biologique le plus avancé qui existe a été produit grâce à un travail scientifique collaboratif et non propriétaire, mais il a été incubé au sein de structures corporatives et philanthropiques qui sont elles-mêmes des produits de l'accumulation capitaliste de la richesse. Les entreprises pharmaceutiques et biotechnologiques qui utiliseront Evo 2 pour des applications commerciales n'ont aucune obligation de rendre les traitements résultants abordables ou universellement accessibles et ne le feront pas.

Des outils comme Evo 2 peuvent révolutionner la médecine, en accélérant la découverte de traitements contre le cancer, les maladies génétiques et les affections actuellement incurables. Ils pourraient prolonger l'espérance de vie en bonne santé au niveau mondial, transformer les diagnostics et faire de la médecine génomique personnalisée une réalité pour des milliards de personnes. Mais dans le cadre du capitalisme, ces avancées sont destinées à enrichir une poignée de privilégiés. D'ores et déjà, les couches les plus aisées de la société ont accès à une médecine personnalisée et à des services de santé sur mesure que la grande majorité de la population ne peut s'offrir. Les percées de l'IA dans la médecine génomique creuseront ce fossé, à moins que la classe ouvrière n'intervienne pour réorganiser la société sur une base socialiste.

Pour libérer tout le potentiel révolutionnaire de l'IA – en médecine, en science, en éducation et dans tous les autres domaines – il faut arracher le contrôle de ces technologies à l'oligarchie financière et les placer sous le contrôle démocratique de la classe ouvrière. Le Comité international de la Quatrième Internationale (CIQI) a démontré dans la pratique comment l'IA peut être mise au service de la classe ouvrière, en lançant Socialism AI en décembre 2025 : le premier chatbot d'IA marxiste révolutionnaire au monde, construit à partir des archives du WSWS de plus de 125 000 articles et des œuvres fondamentales de Marx, Engels, Lénine et Trotsky, et conçu pour faire progresser l'éducation politique et l'organisation des travailleurs et de la jeunesse à l'échelle internationale.

Le développement d'Evo 2 est une démonstration puissante que les avancées scientifiques les plus importantes émergent de la collaboration, de l'ouverture et du libre échange des connaissances : des principes qui sont fondamentalement incompatibles avec la course capitaliste au profit privé. La libération de la science et de la technologie au profit de l'ensemble de l'humanité passe par la réorganisation socialiste de la société par la classe ouvrière internationale.

(Article paru en anglais le 11 mars 2026)

Nous contacter