BCM-514

Biochimie des protéines


     Retour à la page d'accueil           Section précédente           Section suivante     

 
Les acides aminés

1.5 Le code génétique

Les acides aminés sont assemblés en chaîne selon un ordre déterminé par une séquence d'ADN. Chaque acide aminé est représenté sur l'ADN par un triplet de bases appelé codon.

Puisqu'il existe quatre nucléotides dans l'ADN, il existe aussi une possibilité maximale de 43 codons, ou 64. Il n'y a cependant que 20 acides aminés, qui se partagent ces possibilités entre eux (et avec trois signaux d'arrêt de la traduction). La distribution des codons n'est pas égale: il n'y a par exemple qu'un seul codon codant pour le tryptophane mais six pour l'arginine.

Le code génétique. Chaque codon (ou triplet de nucléotides) se lit du centre vers l'extérieur. En plus des codons désignant les 20 acides aminés, il existe trois codons STOP, qui marquent la fin de la séquence d'une protéine: les codons amber (TAG), ochre (TAA) et opal (TGA)

1.5.1 Universalité relative du code génétique

Le code génétique est extrêmement conservé dans la nature. Des plus humbles procaryotes aux plus massifs séquoias, les acides aminés et les codons stop sont presque toujours les mêmes. Il existe cependant quelques mutations qui se sont accumulées au cours de l'évolution, principalement chez certaines mitochondries qui ont leur propre génome, et dont le code peut varier un peu face à celui utilisé par l'ADN nucléaire.

Variations sur un thème: certains codons ont changé de signification dans certaines organelles ou certains organismes au cours du temps. Les flèches indiquent des mutations cumulatives qui peuvent refléter soit une conservation évolutive, soit une évolution parallèle. Ainsi, les mitochondries des planaires cumulent les mutations Stop(TGA)W, R(AGA)S, R(AGG)S, K(AAA)N et Stop (TAA)Y. Notez que chez les plantes, noyaux et mitochondries utilisent le même code et peuvent donc s'échanger des gènes. (Adapté des travaux de Weberndorfer, Hofacker et Stadler)

 

1.5.2 Utilisation préférentielle des codons

Il est utile en biotechnologie de se rappeller que différents organismes n'utilisent pas avec le même enthousiasme tous les codons disponibles pour un même acide aminé. Certains codons sont clairement favorisés par rapport à d'autres, ce qui se reflète souvent dans l'abondance des ARNt correspondants. Ce phénomène est probablement lié à des considérations économiques pour les organismes.

En exprimant une séquence d'ADN dans un système hétérologue (H. sapiens dans E. coli, par exemple), mieux vaut donc être sûr d'utiliser une séquence qui sera facilement traduite par les ARNt de l'hôte, quitte à changer par génie génétique des codons défavorisés par des codons favorisés. Sinon, on risque de s'exposer à des tracas du genre

- traduction retardée entraînant une baisse de la stabilité de l'ARNm;
- terminaison prématurée, pouvant mener à des protéines trop courtes ou instables;
- changements de cadre de lecture ou mauvaise incorporation;
- inhibition de la synthèse protéique.

Dans la liste ci-dessous, on compare trois organismes et leur préférence en fait de codons codant pour l'arginine. Si tout était égal par ailleurs, on s'attendrait à ce que chacun des six codons Arg soit représenté avec une fréquence d'environ 16,5% et en effet, chez l'être humain, il n'existe qu'un léger biais qui défavorise le codon CGT. Par contre, chez S.cerevisiae, les codons CGG, CGC et CGA ne représentent respectivement que 2%, 4% et 5% des codons Arg du génome et la levure ne fabrique que très peu des ARNt portant les anticodons appropriés. Une séquence humaine exprimée dans la levure aurait intérêt à voir tous ses codons Arg changés pour AGA, qui est fortement favorisé par cet organisme.

codon H. sapiens S. cerevisiae E. coli
AGG 21,5 17,0 3,2
AGA 21,0 54,0 4,3
CGG 18,2 2,0 9,0
CGA 10,7 5,0 5,0
CGT 9,1 17,0 36,0
CGC 19,5 4,0 40,0

 

1.5.2.1 Utilisation des codons: comparaison entre différentes espèces
(source: http://www.kazusa.or.jp/codon/

Homo sapiens (codon, acide aminé, fréquence sur 1).

UUU F 0.46       UCU S 0.18       UAU Y 0.44       UGU C 0.45
UUC F 0.54       UCC S 0.22       UAC Y 0.56       UGC C 0.55
UUA L 0.07       UCA S 0.15       UAA stop 0.28       UGA stop 0.5
UUG L 0.13       UCG S 0.06       UAG stop 0.22       UGG W 1.0
CUU L 0.13       CCU P 0.28       CAU H 0.41       CGU R 0.08
CUC L 0.20       CCC P 0.33       CAC H 0.59       CGC R 0.19
CUA L 0.07       CCA P 0.27       CAA Q 0.26       CGA R 0.11
CUG L 0.40       CCG P 0.11       CAG Q 0.74       CGG R 0.21
     
AUU I 0.36       ACU T 0.24       AAU N 0.46       AGU S 0.15
AUC I 0.48       ACC T 0.36 AAC N 0.54 AGC S 0.24
AUA I 0.16 ACA T 0.28 AAA K 0.42 AGA R 0.21
AUG M 1.0 ACG T 0.12 AAG K 0.58 AGG R 0.20
GUU V 0.18 GCU A 0.26 GAU D 0.46 GGU G 0.16
GUC V 0.24 GCC A 0.40 GAC D 0.54 GGC G 0.34
GUA V 0.11 GCA A 0.23 GAA E 0.42 GGA G 0.25
GUG V 0.47 GCG A 0.11 GAG E 0.58 GGG G 0.25


Saccharomyces cerevisiae Triplet, acide aminé, fréquence (sur 1)

UUU F 0.59       UCU S 0.26       UAU Y 0.56       UGU C 0.63
UUC F 0.41 UCC S 0.16 UAC Y 0.44 UGC C 0.37
UUA L 0.28 UCA S 0.21 UAA stop 0.47 UGA stop 0.3
UUG L 0.29 UCG S 0.10 UAG stop 0.23 UGG W 1.0
CUU L 0.13 CCU P 0.31 CAU H 0.64 CGU R 0.15
CUC L 0.06 CCC P 0.15 CAC H 0.36 CGC R 0.06
CUA L 0.14 CCA P 0.42 CAA Q 0.69 CGA R 0.07
CUG L 0.11 CCG P 0.12 CAG Q 0.31 CGG R 0.04
AUU I 0.46 ACU T 0.35 AAU N 0.59 AGU S 0.16
AUC I 0.26 ACC T 0.21 AAC N 0.41 AGC S 0.11
AUA I 0.27 ACA T 0.30 AAA K 0.58 AGA R 0.48
AUG M 1.0 ACG T 0.14 AAG K 0.42 AGG R 0.21
GUU V 0.39 GCU A 0.38 GAU D 0.65 GGU G 0.47
GUC V 0.21 GCC A 0.22 GAC D 0.35 GGC G 0.19
GUA V 0.21 GCA A 0.29 GAA E 0.71 GGA G 0.22
GUG V 0.19 GCG A 0.11 GAG E 0.29 GGG G 0.12

Escherichia coliTriplet, acide aminé, fréquence (sur 1)

UUU F 0.57       UCU S 0.15       UAU Y 0.57       UGU C 0.44
UUC F 0.43 UCC S 0.15 UAC Y 0.43 UGC C 0.56
UUA L 0.13 UCA S 0.12 UAA stop 0.63 UGA stop 0.29
UUG L 0.13 UCG S 0.15 UAG stop 0.08 UGG W 1.0
CUU L 0.1 CCU P 0.16 CAU H 0.57 CGU R 0.38
CUC L 0.1 CCC P 0.12 CAC H 0.43 CGC R 0.40
CUA L 0.04 CCA P 0.19 CAA Q 0.35 CGA R 0.06
CUG L 0.5 CCG P 0.53 CAG Q 0.65 CGG R 0.10
AUU I 0.51 ACU T 0.17 AAU N 0.45 AGU S 0.15
AUC I 0.42 ACC T 0.43 AAC N 0.55 AGC S 0.28
AUA I 0.07 ACA T 0.13 AAA K 0.76 AGA R 0.04
AUG M 1.0 ACG T 0.27 AAG K 0.24 AGG R 0.02
GUU V 0.26 GCU A 0.16 GAU D 0.63 GGU G 0.34
GUC V 0.22 GCC A 0.27 GAC D 0.37 GGC G 0.40
GUA V 0.15 GCA A 0.21 GAA E 0.69 GGA G 0.11
GUG V 0.37 GCG A 0.36 GAG E 0.31 GGG G 0.15

Les six codons les moins utilisés chez E.coli, et leur fréquence chez d'autres organismes (nombre par millier de codons):

AGG AGA CGA CUA AUA CCC
R R R L I P
E. coli 1,4 2,1 3,1 3,2 4,1 4,3
H. sapiens 11 11,3 6,1 6,5 6,9 20,3
D. melanogaster 4,7 5,7 7,6 7,2 6,9 18,6
C. elegans 3,8 15,6 11,5 7,9 9,8 4,3
S. cerevisiae 9,3 21,3 3 13,4 17,8 6,8
P. falciparum 4,1 20,2 0,5 15,2 33,2 1
C. pasteurianus 2,4 32,8 0,8 6 52,5 8,5
P. honkoshii 30,3 20,4 1 18 44,9 10,1
T. aquaticus 13,7 1,4 1,4 3,2 2 43
A. thaliana 10,9 18,4 6 9,8 12,6 5,2
(Strategies Newsletter (2000) vol. 3 (1) p.31)

Les huit codons les moins utilisés:

E.coli Levure Drosophile Humain acide aminé

AGG

AGG

R

AGA

AGA

R

AUA

AUA

I

CUA

CUA

L

CGA

CGA

CGA

CGA

R

CGG

CGG

CGG

R

CCC

CCG

P

UCG

S

CGC

CGU

R

CCG

P

CUC

CUU

L

GCG

GCG

A

ACG

ACG

T

UUA

UUA

L

GGG

G

AGU

S

UGU

C