Protéomique

branche de la biologie, discipline académique
Sous-classe de	techniques de biologie moléculaire, technique analytique
Partie de	proteomics and metabolomics
Objet de la discipline	protéome

La protéomique désigne la science qui étudie les protéomes, c'est-à-dire l'ensemble des protéines d'une cellule, d'un organite, d'un tissu, d'un organe ou d'un organisme à un moment donné et sous des conditions données.

Dans la pratique, la protéomique s'attache à identifier de manière globale les protéines extraites d'une culture cellulaire, d'un tissu ou d'un fluide biologique, leur localisation dans les compartiments cellulaires, leurs éventuelles modifications post-traductionnelles ainsi que leur quantité.

Elle permet de quantifier les variations de leur taux d'expression en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l'espèce d'origine. Elle étudie aussi les interactions que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, ou d'autres substances.

La protéomique fonctionnelle étudie les fonctions de chaque protéine.

La protéomique étudie enfin la structure primaire, secondaire et tertiaire des protéines.

Histoire

Le terme de protéomique est récent. Il a été utilisé pour la première fois dans une publication scientifique en 1997 par P. James ^[1]. dans son article Identification des protéines dans l'ère post-génomique : l'ascension rapide de la protéomique. Il dérive de protéome, terme inventé en 1995, par analogie avec génomique qui dérive lui-même du terme génome, l'ensemble des gènes d'un organisme. L'analyse protéomique est une étude dynamique. Un seul génome peut conduire à différents protéomes en fonction des étapes du cycle cellulaire, de la différenciation, de la réponse à différents signaux biologiques ou physiques, de l'état physiopathologique... Le protéome reflète les répercussions de ces événements cellulaires au niveau tant traductionnel que post-traductionnel. De ce point de vue, seule une analyse protéique directe peut donner une image globale des systèmes biomoléculaires dans leur complexité.

Les scientifiques se sont intéressés aux protéines bien avant la naissance de la protéomique. Dès 1833, Anselme Payen et Jean-François Persoz isolèrent d'un extrait de malt une enzyme capable de catalyser la dégradation de l'amidon en sucre. En 1965, André Lwoff, François Jacob et Jacques Monod reçurent le prix Nobel de physiologie ou médecine « pour leurs recherches sur la manière dont la production des enzymes est réglée au niveau des gènes »^[2], publiées en 1961.

De nombreuses techniques, encore largement utilisées, ont été développées.

La technique d'électrophorèse a été développée en 1892 par S.E. Linder et H. Picton. Le principe de la chromatographie date de 1861 par Friedrich Goppelsröder.

// mettre une fresque reprenant la chronologie de l'étude des protéines

Depuis une dizaine d'années, la protéomique est devenue une science à part entière, avec ses techniques propres et ses méthodes. La protéomique est récompensée en 2002 par l'obtention d'un Prix Nobel de chimie^[3].

Elle a emprunté de nombreuses technologies, auparavant utilisées dans d'autres disciplines, et les a appliquées à l'étude des protéines. On peut citer par exemple l'utilisation de la spectrométrie de masse, provenant de la physique et de l'analyse chimique, dans l'identification des protéines, dans la quantification de l'expression des protéines, dans la localisation de peptides dans un tissu, dans la recherche de biomarqueurs spécifiques de pathologies.

Pourquoi le protéome ?

Les grosses protéines ont souvent une structure spatiale complexe, où des sous-unités compactes sont reliées entre elles par des chaînes flexibles qui jouent un rôle dans les interactions entre protéines ou avec d'autres substances. L'analyse de la structure des protéines aux rayons X montre qu'elles sont bâties autour d'un réseau cristallin rigide, qui empêche ou réduit la flexibilité des sous-unités.

La somme d'informations issue de l'analyse génomique ne répond pas à toutes les questions que vise l'analyse protéomique (difficile et coûteuse).
Des événements clés vont conduire du stock d’informations que constitue le génome à la production des molécules qui vont déterminer et réguler la vie cellulaire, les protéines. En théorie, la séquence de chaque gène sera transcrite (ou non) en un ARN messager (ARN-m), lui-même traduit en protéine. En fait, les gènes des cellules eucaryotes sont souvent morcelés et contiennent des régions (introns) absentes de l’ARN-m. Une transcription partielle sera permise par l’épissage d’un ARN précurseur, copie du gène, pouvant donner naissance à différents ARN-m, chacun de ceux-ci pouvant aboutir à plusieurs protéines. On peut donc avancer une série de raisons plaidant en faveur du développement de l'analyse protéomique :

- L'identification et l'estimation des taux de protéines sont cruciales pour obtenir une image complète de nombreux processus biologiques.
- Or, l'abondance des protéines à l'intérieur de la cellule n'est pas seulement régulée à un niveau transcriptionnel, mais aussi aux niveaux traductionnels et post-traductionnels, de telle sorte qu'aucune relation simple ne peut être établie entre taux d'ARN-m et de protéines. Le fait qu’un gène unique, et même un ARN-m unique, puisse conduire à plusieurs protéines distinctes par leur(s) fonction(s) rend hasardeuse cette corrélation.
- Enfin, certaines protéines ont une durée de vie longue, c’est-à-dire que même synthétisées à faible vitesse elles peuvent s’accumuler dans la cellule en demeurant fonctionnelles, alors que d’autres - à durée de vie brève - sont rapidement éliminées. Donc, même si leur synthèse est rapide et elles se retrouveront à un faible taux.

Une protéine selon son état cellulaire (différenciation, prolifération, apoptose) se retrouvera dans un compartiment donné (cytoplasme, noyau, mitochondrie) ou sera sécrétée par la cellule. Sans l’analyse du protéome, une modification de localisation de la protéine nécessaire à son activité biologique passera inaperçue.

La plupart des protéines ne deviennent biologiquement actives qu'après des étapes de maturation co- et post-traductionnelles (telles que glycosylation, phosphorylation, déamination...). Elles sont également les indicateurs de l’état de la machinerie cellulaire.

Finalement, les enjeux et résultats de projets de séquençage (du génome humain notamment) justifient une étude approfondie du protéome. La découverte « surprenante » que ce génome contenait bien moins de gènes que prédits démontre l'importance des protéines comme acteurs centraux des processus biologiques.

Différentes approches de la protéomique

Analyseur

Les méthodologies mises en œuvre pour l’analyse du protéome peuvent schématiquement être séparées en deux grands groupes : dans le premier peuvent être regroupées les méthodes expérimentales réalisées dans le « laboratoire réel » (wet laboratory), reposant principalement sur les techniques de séparation et d’analyse des protéines. Un second groupe de méthodes, mises en œuvre dans le « laboratoire virtuel » (dry laboratory), fait appel à l’analyse d’images et à la bio-informatique. Laboratoires réel et virtuel sont mis à contribution lors des principales étapes de l’analyse.

Dans la pratique, les protéines sont d’abord extraites d’une population cellulaire ou d’un tissu, puis séparées avant d’être identifiées.

Extraction

La première étape consiste généralement à extraire les protéines d'un échantillon biologique. Cette étape est cruciale : une mauvaise extraction peut produire la dégradation des protéines et compliquer, voire rendre impossible, l'identification des protéines. Les protéines membranaires, comportant de nombreux acides aminées hydrophobes et donc peu soluble, restent difficiles à étudier.

Certaines techniques ne nécessitent pas d'extraire les protéines du tissu étudié. Dans l'immunolocalisation, le tissu est fixé puis découpé en fines lamelles de quelques microns d'épaisseur. Les protéines sont ensuite détectées in situ par des anticorps marqués. Dans l'imagerie par spectrométrie de masse, des coupes de tissus sont analysées directement par un spectromètre de masse de type MALDI-TOF.

Pour simplifier l'analyse, l'extraction est souvent réalisée en éliminant les modifications post-traductionnelles. Seule la structure primaire des protéines, c'est-à-dire leurs séquences, est conservée. Mais si le sujet de l'analyse est l'étude de ces modifications post-traductionnelles, il convient de prendre les précautions nécessaires pour les garder.

Séparation

La seconde étape permet de séparer les protéines en fonction de leurs caractéristiques physiques ou chimiques ou en fonction de leurs affinités pour un ligand.

L'électrophorèse sépare les protéines dans un gel polyacrylamide en fonction de leur poids moléculaire lorsqu'elles sont soumises à un champ électrique. La méthode d'électrophorèse de référence pour la protéomique est l’électrophorèse bidimensionnelle.

La chromatographie utilise la différence d'affinité des protéines entre une phase mobile et une phase stationnaire.

Principe de la séparation des protéines par électrophorèse bidimensionnelle

L'électrophorèse bidimensionnelle permet à partir de mélanges protéiques complexes de séparer et visualiser des centaines voire des milliers de protéines sous forme de taches ou « spots ». La résolution obtenue est suffisante pour mettre en évidence la présence d'isoformes.

Son principe consiste à effectuer dans un premier temps une séparation des protéines en fonction de leur charge (focalisation isoélectrique), suivie d'une séparation orthogonale, en fonction de leur poids moléculaire. La résolution de la première dimension est de l'ordre de 0,01 unité pH.

Les gels obtenus sont ensuite colorés, puis numérisés. Le résultat est une semi-quantification.

Recherche des protéines d’intérêt par analyse d’image

Il existe aujourd’hui deux grandes approches partant de l’analyse d’images des gels 2-DE permettant d’aborder la protéomique quantitative. L’une de ces méthodes utilise une comparaison statistique entre plusieurs gels et l’autre utilise un procédé chimique de dérivation des protéines par des sondes fluorescentes permettant l’analyse combinée de plusieurs échantillons sur un gel unique. Pour ce faire on utilise dans les deux cas des logiciels d'imagerie. En effet, il est impossible d’appréhender individuellement le nombre considérable de spots (parfois jusqu’à 2000) résolues sur un gel 2D (Fig. 5). Ces multiples spots correspondent aux isoformes des protéines séparées en deux dimensions. La position sur le gel des spots polypeptidiques est reproductible dans les systèmes de séparation en gradient d’Immobilines. Un changement de position est par conséquent un indicateur d’une modification post-traductionnelle affectant sa charge et/ou sa taille.

L’analyse d’images repose sur la numérisation de l’image du gel 2-DE après coloration. Au cours de cette étape le logiciel découpe l’image en pixels (contraction de picture element) pour la transmission et le stockage des données. Chaque pixel de l’image est enregistrée à une position en x et en y associée à une valeur de densité optique (DO) proportionnelle à l’intensité du signal enregistré par la caméra ou le scanner. Pour que la DO soit un bon paramètre de mesure et un reflet de l’expression de la protéine, la coloration appliquée doit présenter une gamme dynamique importante et si possible linéaire. Dans un gel, en termes de DO le rapport d’intensité entre le plus petit spot détectable et le spot le plus gros est de l’ordre de 104 alors que la dynamique d’expression des protéines dans la cellule est comprise entre 105 et 106. On constate donc un déficit important de la gamme analytique qui doit être pris en compte au cours de l’analyse.

La coloration des protéines en gel 2-DE reposent principalement sur l’emploi de colorants organiques tel que le bleu de Coomassie, de métaux tels que le nitrate d’argent, ou encore par sur des sondes fluorescentes. La gamme de détection varie d’un facteur d’environ 10000 entre les méthodes utilisant le bleu de Coomassie (détection de spots contenant une quantité de protéine de l’ordre du µg) et celles utilisant le nitrate d’argent qui permettent d’atteindre 0,1 ng. Les colorants fluorescents sont moins sensibles que le nitrate d’argent, cependant ont une plus grande reproductibilité et gamme dynamique.

Les logiciels d’analyses d’images actuels incorporent des éléments de visualisation 3D des spots du gel, permettant des changements d’angles en x, y, et z qui sont extrêmement utiles pour séparer des spots proches. La quantification est ainsi améliorée. L’utilisation de tels outils permet d’élargir considérablement le goulot d’étranglement lié à l’analyse des gels. Cependant, une analyse différentielle fiable nécessite d’établir une comparaison entre des séries d’au moins trois à quatre gels. Des tests statistiques comme l’analyse heuristique ou l’analyse par correspondance permettent objectivement de déterminer la dispersion entre les gels de différentes séries expérimentales.

La multiplication des gels 2D nécessaire à l’obtention d’une quantification différentielle statistiquement fiable est cependant un handicap aux analyses à haut débit pour lesquelles la technique du gel unique est intéressante. L’analyse différentielle sur un gel unique: (technologie DIGE pour differential in gel-electrophoresis) a été introduite sur le marché par GE (anciennement) Amersham Biosciences. Le principe repose sur le marquage covalent à l’aide de cyanines fluorescentes (p. ex. Cy2, Cy3 et Cy5) des protéines contenues dans deux extraits à analyser. Trois structures sont disponibles avec des spectres de fluorescences différents. Elles possèdent en outre un groupement N-hydroxy-succinimidyl ester qui permet par une réaction de substitution nucléophile avec le groupe amine en epsilon des lysines des protéines de former une amide. L’analyse d’images d’un gel DIGE est plus aisée puisque les deux échantillons ont migré sur le même gel. Les images acquises aux deux longueurs d’onde sont superposées et comparées quantitativement à l’aide de logiciels adaptés avec l’ajout d’une référence interne. L’étude comparative en deux couleurs aboutit à la mise en évidence des protéines qui différent ou qui sont identiques dans les deux échantillons. La possibilité offerte d’avoir un étalon interne augmente la fiabilité des mesures quantitatives. Quelle que soit la méthode d’analyse utilisée, les spots d’intérêt une fois détectés sont excisés du gel afin d’être identifiés par des méthodes spectrométriques (spectrométrie de masse en mode MALDI-TOF ou en mode tandem MS/MS). En plus de l’analyse différentielle, l’analyse d’images permet de construire et d’annoter des cartes de référence servant de base à des banques de données consultables sur le WEB.

Identifier, caractériser et quantifier les protéines

La masse réelle des protéines est souvent mesurée par spectrométrie de masse, avec une précision allant de 0,1 dalton à 10 daltons ; La digestion d'une protéine par une enzyme telle que la trypsine produit des fragments de taille spécifique. La masse des fragments est ensuite mesurée par spectrométrie de masse (technique du fingerprinting).
Par la technique de spectrométrie de masse en tandem et le séquençage d'Edman, il est possible de séquencer les peptides. Mais ces méthodes considèrent les protéines comme des structures figées, alors qu'elles sont mouvantes, et qu'elles peuvent parfois brièvement s'associer à des substances réactives en s'y liant, avant de s'en séparer.
Une nouvelle méthode renseigne mieux sur la structure spatiale de protéines, en les étudiant en solution et en combinant des procédés connus, dont l'analyse aux rayons X ou RMN classique, avec une spectroscopie RMN associée à un nouveau logiciel d'analyse qui donne accès à des détails atomiques fins de la structure spatiale. Dans la protéine-même, on introduit des groupes nitroxyl possédant un électron non apparié. Ces derniers servent à mesurer les écarts entre les sous-unités puis à en déduire la structure tridimensionnelle de la protéine ou de plusieurs protéines associées (complexes de protéines, même de grandes tailles). Ceci permet de mieux étudier la liaisons des protéines avec leurs partenaires, et d'en déduire certains mécanismes complexes de régulation biologique^[4]^,^[5].

Identification par spectrométrie de masse (SM)

L'identification par SM repose sur une mesure précise de la masse de peptides ionisés. D’une façon très générale les protéines sont digérés par une endopeptidase (le plus souvent la trypsine) et, ensuite analysées par SM.

Une des approches utilisée est l’établissement de cartes peptidiques massiques (en anglais, peptide mass fingerprinting, en français empreinte de masse peptidique (en) ou empreinte peptidique massique^[6]). La masse des peptides obtenus après digestion protéasique est comparée aux cartes de masses théoriques des protéines répertoriées dans les banques de données. Différents algorithmes ont été développés pour faciliter cette recherche. Les logiciels d’analyse de données de SM vont rechercher une série de protéines (selon des critères définis par l’expérimentateur) dans une base de données de séquences et générer pour chacune un spectre théorique pour voir lequel se rapproche le plus du spectre expérimental.
Selon des logiques différentes pour chaque algorithme, ils établiront un score pour chaque séquence analysée « in silico » qui conduira à un classement des protéines candidates. Cette approche souffre pourtant de limites objectives et dans le cas d’identifications difficiles différents logiciels fourniront des listes de protéines candidates différentes. Par exemple, un logiciel prenant en compte le nombre de masses communes entre le spectre théorique de la protéine candidate et le spectre expérimental favorisera les protéines de haute masse moléculaire pour lesquelles un plus grand nombre de peptides virtuels peuvent être déduits de la séquence.

Le problème est contourné en séquencant partiellement les protéines par spectrométrie de masse tandem (MS/MS). Certains fragments peptidiques analysés lors d'une première SM sont alors choisis et fragmentés. Les pics de masse obtenus constituent une représentation de la séquence protéique, dans laquelle deux pics adjacents diffèrent par la masse d’un acide aminé perdu lors de la fragmentation du peptide analysé. Une analogie à la courte séquence protéique peut alors être cherchée dans les banques de données. Si ces séquences sont communes à un groupe de protéines, le point isoélectrique et la masse apparente déterminés lors de la séparation par électrophorèse permettent de trancher. Recouper des informations (courtes séquences de quelques acides aminés, localisation d’une fenêtre comprenant le spot en électrophorèse 2D, espèce animale et type cellulaire dont provient l’échantillon) augmente la fiabilité de l'identification d'un polypeptide.

Au lieu de simplement déterminer une séquence peptidique à partir du spectre de masse d’un peptide et de l’utiliser pour miner une base de données de protéines ou d’ADN, le spectre MS/MS peut être comparé à une série de spectres MS/MS virtuels dérivés des séquences protéiques des bases de données. Sur le même principe, on peut d'abord séparer les peptides issus de la digestion trypsique par une nanométhode de chromatographie liquide (nanoLC) et réaliser une MS/MS sur ces différents peptides. La multiplication des informations sur différents segments de la protéine permettra alors non seulement de conforter l’identification, mais également d’obtenir des informations structurales en particulier sur les modifications post-traductionnelles, telles que l’addition de groupements phosphates (phosphorylation) ou de chaînes d’oligosaccharides (glycosylation). D’un point de vue fonctionnel, ces informations sont fondamentales. Les phosphorylations sont à la base de la conduction de signaux dans la cellule, de l’extérieur de celle-ci par ses récepteurs membranaires jusqu’au noyau où sont centralisées les informations régulant la vie cellulaire. Quant aux chaînes oligosaccharidiques, elles jouent un rôle crucial dans la modulation des propriétés chimiques de certaines protéines (glycoprotéines) et gouvernent parfois leur activité biologique. Pour identifier ces groupements, la SM utilisera les fragments résultant de leur séparation de la chaîne peptidique ou de leur propre fragmentation.

Interrogation des bases de données

C'est la dernière étape pour le protéomicien, permise par les progrès de la bio-informatique. Les différentes informations récoltées sur les protéines (masse apparente, masse réelle, point isoélectrique, taille des fragments après digestion enzymatique, séquence partielle) sont comparées aux bases de données génomiques ou protéomiques en ligne. Les logiciels fournissent alors une liste de protéines et leurs probabilités associées.

Cas d'organismes dont le génome n'a pas encore été séquencé ;
Seuls certains organismes, dits « organismes modèles », ont un génome complètement séquencé et disponible en ligne. Les autres organismes sont étudiés par homologie avec les organismes connus.

Quantification de l'expression des protéines

Elle permet de quantifier les variations de leurs taux d'expression en fonction du temps, de leurs environnements, de leurs états de développement, de leurs états physiologiques et pathologiques, de l'espèce d'origine.

Les techniques les plus couramment utilisées sont :

Interactions protéiques

Elle étudie aussi les interactions que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, avec des substances.

Une autre manière de considérer les interactions protéiques est de faire du double hybride. En criblant une banque d'ADNc avec sa protéine en tant qu'appât on peut déceler tous les interractants dans un organisme ou un tissu spécifique (animal ou végétal). Correctement utilisée, cette technique est très efficace. La qualité des résultats dépend souvent de la qualité de la banque et de l'efficacité de la transformation de la levure ou de la bactérie.

Protéomique fonctionnelle

La protéomique fonctionnelle étudie les fonctions de chaque protéine.

Protéomique structurale

La protéomique étudie enfin les structures primaires, secondaires et tertiaires des protéines.

Enjeux de la protéomique

Recherche de biomarqueurs

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

De nouveaux outils thérapeutiques

Les études comparées des kinomes de cellules cancéreuses permettent d'étudier des mécanismes de résistance et d'identifier de nouvelles cibles thérapeutiques.

Identification de protéines anciennes

La paléoprotéomique permet de préciser l'identification d'espèces anciennes et de compléter les informations de nature Phylogénie. Elle repose sur le fait que les protéines ont la capacité d'être conservées dans certains contextes sur des échelles de temps bien supérieures à l'ADN ancien, jusqu'au moins plusieurs centaines de milliers, voire millions d'années.

Notes et références

↑ P. James, « Protein identification in the post-genome era: the rapid rise of proteomics. », Quarterly reviews of biophysics, vol. 30, n^o 4,‎ 1997, p. 279–331
↑ Le prix Nobel de physiologie ou médecine en 1965.
↑ « Prix Nobel de chimie 2002 : la protéomique récompensée », un article CultureSciences-Chimie - Ecole Normale Supérieure/DGESCO
↑ Simon B, Madl T, Mackereth CD, Nilges M and Sattler M. (2010) ; An efficient protocol for NMR-based structure determination of protein complexes in solution ; Angew. Chem. Int. Ed. Engl. in press, online DOI:10.1002/anie.200906147 résumé en anglais
↑ Communiqué de la Technische Universität München, du 2010/09/19, repris par le BE Allemagne numéro 472 (24/02/2010) - Ambassade de France en Allemagne / ADIT
↑ Gouvernement du Canada, « Peptide Mass Fingerprinting », sur TERMIUM Plus (page consultée le 23 juin 2017).

Voir aussi

Bibliographie

Greg Gibson, Spencer V. Muse, Précis de génomique, Editions De Boeck Université, 2004, (ISBN 2804143341).
Reiner Westermeier, Tom Naven, Protéomics in practice, Wiley-VCH, 2002, (ISBN 3527303545).
Thierry Rabilloud, Proteome reserch : Two-dimensionnal gel electrophoresis an identification methods, Springer Verlag Berlin Heidelberg, 2000, (ISBN 3540657924)
Marc R. Wilkins, Keith L. Williams, Ron D. Appel, Denis F. Hochstrasser, Proteome research : New frontiers in functional genomics, Springer Verlag Berlin Heidelberg, 1997, (ISBN 3540627537).

Articles connexes

Liens externes

Société Française d'électrophorèse et d'analyse protéomique Congrès, bourses, electrophorum
Société de BioChromatographie et Nanoséparations Réunions scientifiques, informations. S'intéresse en particulier à la séparation des peptides et protéines par chromatographie ou par micro- et nano-méthodes
Site du master protéomique de Lille Actualité scientifique, dates de congrès, présentation du master.
The state of the art in the analysis of two-dimensional gel electrophoresis images

Ressource relative à la santé :
- Medical Subject Headings
Notice dans un dictionnaire ou une encyclopédie généraliste :
- Britannica
Notices d'autorité :
- BnF (données)
- LCCN
- Japon
- Israël
- Tchéquie

Portail de la biologie cellulaire et moléculaire

[1] P. James, « Protein identification in the post-genome era: the rapid rise of proteomics. », Quarterly reviews of biophysics, vol. 30, n^o 4,‎ 1997, p. 279–331

[2] Le prix Nobel de physiologie ou médecine en 1965.

[3] « Prix Nobel de chimie 2002 : la protéomique récompensée », un article CultureSciences-Chimie - Ecole Normale Supérieure/DGESCO

[4] Simon B, Madl T, Mackereth CD, Nilges M and Sattler M. (2010) ; An efficient protocol for NMR-based structure determination of protein complexes in solution ; Angew. Chem. Int. Ed. Engl. in press, online DOI:10.1002/anie.200906147 résumé en anglais

[5] Communiqué de la Technische Universität München, du 2010/09/19, repris par le BE Allemagne numéro 472 (24/02/2010) - Ambassade de France en Allemagne / ADIT

[6] Gouvernement du Canada, « Peptide Mass Fingerprinting », sur TERMIUM Plus (page consultée le 23 juin 2017).

[1]

[2]

[3]

[4]

[5]

[6]