banner

Nouvelles

Nov 03, 2023

Une méthode d'apprentissage automatique développée par des chercheurs de la CMU met en lumière les aspects fondamentaux de l'évolution

Une équipe de chercheurs du département de biologie computationnelle(opens in new window) (CBD) de l'Université Carnegie Mellon a mis au point de nouvelles méthodes pour identifier les parties du génome essentielles à la compréhension de l'évolution de certains traits des espèces.

Les travaux, publiés dans Science(s'ouvre dans une nouvelle fenêtre) et dirigés par le professeur adjoint de la School of Computer Science Andreas Pfenning(s'ouvre dans une nouvelle fenêtre), contribuent au projet Zoonomia(s'ouvre dans une nouvelle fenêtre), un effort pour séquencer les génomes entiers de 240 mammifères afin de faire la lumière sur les aspects fondamentaux des gènes et des traits ayant des implications importantes pour la protection de la santé humaine et la conservation de la biodiversité. Pour donner un sens à ces nouveaux ensembles de données volumineux, il faut les dernières technologies d'intelligence artificielle (IA) et d'apprentissage automatique (ML).

Certaines parties du génome appelées ADN codant fournissent des instructions pour produire des protéines, indispensables régulateurs du fonctionnement cellulaire. Au fil du temps, de légères différences apparaissent dans les instructions que l'ADN codant fournit pour la production de protéines, devenant l'une des forces motrices de l'évolution.

Pourtant, ces morceaux d'ADN producteurs de protéines représentent un maigre 1% des trois milliards de paires de nucléotides qui composent le génome humain. D'autres régions d'ADN non codantes, connues sous le nom d'enhancers, déterminent quand et où des gènes spécifiques sont actifs. L'équipe de la CMU a créé une approche ML appelée TACIT (Tissus-Aware Conservation Inference Toolkit) pour en savoir plus sur le fonctionnement de ces zones. Alors qu'un modèle d'évolution traditionnel pourrait démontrer des changements dans la taille du cerveau d'une espèce par un ensemble de mutations dans un groupe de gènes, les activateurs peuvent simplement activer ou désactiver des gènes et obtenir le même résultat.

La plupart des recherches sur l'évolution des mammifères se concentrent sur les parties du génome qui ont relativement peu changé au cours de millions d'années. Ces régions conservées, en particulier les gènes, donnent un aperçu des éléments fondamentaux de l'ADN des mammifères qui mettent en évidence des traits uniques chez les espèces individuelles.

Le défi pour Pfenning et son équipe est que, au fil du temps, les régions d'amplification de l'ADN peuvent changer de séquence mais pas de fonction. Par exemple, un activateur d'îlots bien étudié(opens in new window) régule les niveaux de gènes selon des schémas similaires chez les humains, les souris, les poissons zèbres et les éponges, malgré plus de 700 millions d'années d'évolution. Cela les rend beaucoup plus difficiles à identifier et à suivre à l'aide des méthodes traditionnelles d'examen des nucléotides individuels.

TACIT affronte ce problème en prédisant avec précision si un activateur sera actif dans un type de cellule ou un tissu particulier. Il permet aux scientifiques d'identifier ces régions amplificatrices importantes dans un génome nouvellement séquencé sans mener une nouvelle expérience en laboratoire, offrant des applications potentielles en biologie de la conservation. La boîte à outils peut faire des prédictions sur le fonctionnement des amplificateurs chez les espèces en voie de disparition ou menacées, où les expériences de laboratoire contrôlées sont impossibles.

« TACIT offre une opportunité sans précédent de prédire la fonction de parties du génome en dehors des gènes chez les espèces pour lesquelles nous ne pouvons pas obtenir d'échantillons de tissus primaires, comme le grand dauphin et le rhinocéros noir en danger critique d'extinction », a déclaré Irene Kaplow, auteur principal de l'article et associé postdoctoral et boursier Lane au CBD. "Au fur et à mesure que les méthodes ML et les méthodes d'identification des activateurs de types de cellules spécifiques s'améliorent, je prévois que nous serons en mesure d'élargir les fonctions de TACIT pour fournir de nouveaux types d'informations sur l'évolution des mammifères."

Après avoir prédit la fonction des séquences génomiques sur les 240 mammifères, l'équipe de recherche a appliqué TACIT pour identifier les parties du génome qui ont évolué chez les mammifères pour des cerveaux plus gros et a constaté que celles-ci avaient tendance à être proches des gènes dont les mutations ont été impliquées dans les troubles de la taille du cerveau humain. Ils ont également identifié un activateur associé au comportement social chez les mammifères qui est spécifique à un sous-type particulier de neurone, l'interneurone inhibiteur positif à la parvalbumine.

"Nous pensons que ce n'est que la pointe de l'iceberg", a déclaré Pfenning, auteur principal de l'étude. "Nous avons trouvé des relations intéressantes en appliquant TACIT à un petit nombre de tissus et à un petit nombre de traits, mais il reste encore beaucoup à découvrir."

En plus de Pfenning et Kaplow, les auteurs principaux de l'article incluent Alyssa Lawler, un ancien docteur en sciences biologiques. étudiant maintenant au Broad Institute; et Daniel Schaffer, un récent diplômé du programme de premier cycle de CBD. La co-première paternité de Schaffer sur cette publication est une démonstration significative du programme innovant du programme de premier cycle, qui se concentre sur les techniques informatiques de pointe et met l'accent sur les opportunités de recherche scientifique pratique.

Pour plus d'informations sur le projet Zoonomia, visitez son site Web(s'ouvre dans une nouvelle fenêtre).

Par : Nom Aaron Aupperlee
PARTAGER