Là où la machinerie de synthèse des protéines s'amarre

Les chercheurs de l'ETH peuvent prédire, pour plusieurs milliards de séquences différentes d'éléments constitutifs de l'ARN, dans quelle mesure la machinerie cellulaire de synthèse des protéines s'y arrime. Cet arrimage a une influence essentielle sur la quantité de protéine produite. Pour développer le modèle de prédiction, les scientifiques utilisent une combinaison d'expériences de biologie synthétique et d'algorithmes d'apprentissage automatique.

Ribosome
Les ribosomes sont les machines à synthétiser les protéines des cellules. Ils lisent les informations génétiques de l'ARN messager (en violet) et fabriquent des protéines (en jaune) sur cette base. (Graphique : Science Photo Library)

Le patrimoine génétique des bactéries, des plantes et même des humains est aujourd'hui très facile à déchiffrer, et pourtant il recèle de nombreuses questions ouvertes. Il y a par exemple les inscriptions ARN des gènes et les sites sur lesquels la machinerie cellulaire de synthèse des protéines (les ribosomes) se fixe pour lire l'information génétique. Une compréhension globale de ces sites d'ancrage faisait défaut jusqu'à présent.

Une équipe multidisciplinaire de chercheurs du Département des systèmes biologiques (D-BSSE) de l'ETH Zurich à Bâle a maintenant développé une approche qui permet pour la première fois d'obtenir des informations détaillées sur un nombre incroyablement élevé de ces sites d'arrimage dans les bactéries. Cette approche combine des méthodes expérimentales de biologie synthétique avec l'apprentissage automatique.

Contrôle fin de la production de protéines

Les sites d'arrimage sont de courtes séquences d'éléments constitutifs d'ARN situés avant chaque gène. Par le passé, les biotechnologues ont également développé des sites d'arrimage artificiels. Les ribosomes se fixent extrêmement bien à certains d'entre eux, moins bien à d'autres. Plus les ribosomes sont capables de s'arrimer à une variante donnée, plus ils lisent l'information du gène et plus ils fabriquent la protéine correspondante.

Lorsque les biotechnologues utilisent des bactéries pour fabriquer des médicaments, par exemple, ils peuvent influencer la quantité produite en choisissant les sites d'arrimage des ribosomes. "Un tel contrôle est particulièrement intéressant et important lorsqu'on introduit des réseaux de gènes complexes dans des cellules qui doivent produire plusieurs protéines en même temps. Il s'agit alors d'ajuster leur quantité de manière optimale", explique Markus Jeschek. Il est Senior Scientist et chef de groupe au D-BSSE.

Une expérience avec 300'000 séquences

En collaboration avec les professeurs de l'ETH Yaakov Benenson et Karsten Borgwardt ainsi que des membres de leurs groupes respectifs, il a maintenant développé une méthode permettant de déterminer, pour plus de 300 000 séquences d'ARN synthétisées, la qualité de l'arrimage des ribosomes à celles-ci. Jusqu'à présent, cela n'était possible que pour quelques centaines de séquences par expérience.

L'approche des chercheurs de l'ETH utilise le "deep sequencing", la technique la plus moderne pour déterminer les séquences d'ADN et d'ARN. En laboratoire, les scientifiques ont fabriqué en une seule étape plus de 300'000 sites d'ancrage ribosomiques différents et les ont fusionnés chacun avec un gène codant pour une enzyme qui modifie un morceau d'ADN. Ils ont introduit les constructions génétiques correspondantes dans des bactéries afin de voir dans quelle mesure les ribosomes s'attachent à l'ARN dans un cas particulier. Plus le point d'ancrage fonctionne bien, plus l'enzyme produite dans la cellule est importante et plus le morceau d'ADN est susceptible d'être modifié. A l'issue de l'expérience, les chercheurs peuvent lire cette modification par séquençage, en même temps que la séquence d'ARN du site d'arrimage.

Approche universelle

Comme 300'000 ne représentent qu'une petite partie des nombreux milliards de sites de liaison des ribosomes théoriquement imaginables, les scientifiques ont examiné leurs données à l'aide d'algorithmes d'apprentissage automatique. "Ces algorithmes reconnaissent des relations statistiques complexes dans de grandes bases de données. Grâce à eux, nous pouvons prédire dans quelle mesure les ribosomes se lient à une séquence d'ARN donnée", explique Karsten Borgwardt, professeur de data mining. Les chercheurs de l'ETH ont mis ces modèles de prédiction à disposition gratuitement sous forme de logiciel, afin que d'autres scientifiques puissent également les utiliser. Bientôt, ils publieront également un service en ligne facile à utiliser.

L'approche choisie par les scientifiques est universelle, comme le soulignent Benenson et Jeschek. C'est pourquoi les chercheurs prévoient de l'utiliser également dans d'autres organismes, jusqu'aux cellules humaines. "L'influence de l'information génétique sur la quantité d'une protéine produite dans une cellule est également intéressante chez l'homme", explique Benenson. "Précisément aussi dans le contexte des maladies d'origine génétique".

Référence bibliographique

Höllerer S, Papaxanthos L, Gumpinger AC, Fischer K, Beisel C, Borgwardt K, Benenson Y, Jeschek M : Large-scale-based DNA-phhenotypic recording and deep learning enable highly accurate sequence-function mapping. Nature Communications 2020, doi : page externe10.1038/s41467-020-17222-4

JavaScript a été désactivé sur votre navigateur.