L'improbable contribution à la biologie de Godfrey Harold Hardy, spécialiste anglais de théorie des nombres de la première moitié du XXe siècle.
Ce texte revient sur le principe d'équilibre de Hardy-Weinberg 1 tel qu'il est énoncé dans le programme d'enseignement scientifique de terminale 2 : en l'absence de forces évolutives et pour peu que le hasard joue correctement son rôle, la structure génotypique d'une grande population de même espèce se stabilise dès la première descendance, c'est-à-dire à partir de la génération $F_1$ 3.
Godfrey Harold Hardy : mathématicien britannique, 1877 — 1947. Il s'est illustré en théorie des nombres et en analyse, entretenant une collaboration fructueuse avec ses collègues John Edensor Littlewood et Edward Maitland Wright, ainsi qu'avec le mathématicien indien Srinivasa Ramanujan. C'est de manière tout à fait anecdotique, au cours d'un repas au Trinity College de Cambridge avec son ami et partenaire de cricket le généticien Reginald Crundal Punnett, que le problème de la structure génotypique d'une population lui fut soumis. Il résolut en quelques minutes la question de sa stabilisation théorique et, se pensant insuffisamment légitime dans un domaine aux frontières du sien, hésita même à publier ce résultat ! 12
Wilhelm Weinberg : médecin allemand, 1862 — 1937. C'est parallèlement aux travaux de Hardy qu'il postula lui aussi le principe d'équilibre auquel il donne également son nom.
Ce principe tout théorique est rarement respecté dans la réalité, précisément parce que son cadre d'application est trop étroit. Mais avant d'envisager ses limites, nous réaliserons la démonstration formelle de ce principe en l'accordant avec le langage des probabilités vu au lycée 1. Nous raisonnerons avec un nombre $p$ d'allèles quelconque plutôt que de nous limiter au seul cas où $p=2$. Plus réaliste, ce choix nous permettra, en outre, de suivre plus aisément le fil de l'exposé. Interviennent en particulier la notion de probabilité conditionnelle2, le concept d'indépendance et la formule des probabilités totales. Nous verrons qu'une fois les conventions d'écriture, certes un peu fastidieuses, bien posées, la preuve coule de source. Les hypothèses mathématiques nécessaires à sa mise en œuvre s'imposeront d'elles-mêmes. Elles fixeront de facto les contours du modèle. Assez nombreuses, nous les porterons en italiques à mesure que nous les rencontrerons.
Prérequis
Un gène est une unité d'information constituée par une séquence d'ADN 34. Il est responsable d'un caractère héréditaire se traduisant par une spécificité anatomique ou physiologique chez une espèce donnée5. Un même gène admet en général plusieurs variants, mettons $p$, comme autant de déclinaisons possibles d'une matrice commune $G$. Appelons-les $G_1$, $G_2$,..., $G_p$ et signalons dès maintenant qu'on pourrait aussi les noter en lettres minuscules, la raison en sera clarifiée tout à l'heure.
Par exemple, le gène $G$ déterminant le groupe sanguin chez l'Homme est porté par le chromosome 9 et peut apparaître sous trois formes : $G_1 = A$, $G_2 = B$ ou $G_3 = O$ (ce dernier figurant provisoirement en majuscule).
- Le variant $G_1=A$ induit la synthèse d'une certaine molécule A sur la membrane des hématies (ou globules rouges), les cellules qui renferment l'hémoglobine ;
- Le variant $G_2=B$ induit la synthèse d'une certaine molécule B sur la membrane des hématies ;
- Le variant $G_3=O$ n'induit rien de son propre fait, mais n'inhibe rien non plus.
Dans son patrimoine génétique, un être humain détient deux exemplaires6 de chaque chromosome, dits homologues car portant les mêmes gènes. En particulier, il possède deux exemplaires du chromosome 9 : l'un provient de son père, l'autre de sa mère. De son père il a reçu une première version, ou premier allèle, du gène $G$ : potentiellement $A$, $B$ ou $O$. De sa mère, il a reçu une seconde version, ou second allèle, du gène $G$ : potentiellement encore $A$, $B$ ou $O$. Soit une combinatoire de $\binom{3}{2}=6$ paires d'allèles, ou génotypes, possibles : $$ \{A,A\},\{B,B\},\{O,O\},\{A,B\},\{A,O\},\{B,O\} $$ Nous avons noté les paires entre accolades comme c'est de circonstance en mathématiques. Toutefois, en biologie, elles apparaîtraient différemment, par exemple $A\parallel B$, voire $AB$ tout court en lieu de $\{A,B\}$. Nous opterons pour $A\!\parallel\! B$, car les mots « parallélisme » et « allèle » ont une racine grecque commune et car le parallélisme est une relation symétrique tandis que l'autre écriture, $AB$, laisse penser que l'ordre d'exposition compte.
Les individus $A\!\parallel\! A$, $B \!\parallel\! B$ et $O \!\parallel\! O$ sont homozygotes pour le gène $G$, à la différence des individus $A\!\parallel\! B$, $A\!\parallel\! O$ et $B\!\parallel\! O$, dits hétérozygotes. Un individu homozygote, par exemple de type $A\!\parallel\! A$, ne produira que des cellules reproductrices, les gamètes (spermatozoïdes ou ovules), possédant l'allèle $A$. Un individu hétérozygote, par exemple de type $A\!\parallel\! B$, produira à parité des gamètes portant l'allèle $A$ ou $B$ : on stipule à cet endroit une hypothèse d'équiprobabilité dite loi de ségrégation (ou de disjonction) de Mendel, loi que nous évoquerons encore un peu plus loin.
Un individu possédant au moins un allèle $A$ (respectivement $B$) produit à la surface de ses globules rouges des molécules A (respectivement B), susceptibles, en cas de transfusion, de déclencher une réaction immunitaire chez un individu ne possédant pas l’allèle $A$ (respectivement $B$). Par contre, la molécule O n’induit pas de réaction immunitaire chez les individus ne possédant pas cet allèle. Ainsi, du point de vue des conséquences médicales (en cas de transfusion) qu’ils produisent, il est possible de distinguer 4 traits de caractères, déterminés par 6 génotypes différents : le trait A issu de $A \!\parallel\! A$ ou de $A\!\parallel\! o$, le trait B issu de $B\!\parallel\! B$ ou de $B\!\parallel\! o$, le trait o issu de $o\!\parallel\! o$ uniquement et le trait AB issu de $A\!\parallel\! B$ uniquement. Ces traits sont qualifiés de phénotypes. En biologie, on les note plus volontiers entre crochets, soit [A], [B], [o] et [AB], et on les qualifie présentement de groupes.
La nature dominante ou non d'un allèle ne remet pas en question la règle d'équiprobabilité posée plus haut. Cela tient au mécanisme de la méiose, le processus de division cellulaire qui donne naissance aux gamètes et sur lequel la loi de Mendel se fonde. Concrètement, un individu $A\!\parallel\! o$ a autant de chances de produire un gamète avec l'allèle dominant $A$ qu'un gamète avec l'allèle récessif $o$. Évidemment, un individu $A\!\parallel\! A$ ne peut produire qu'un gamète avec l'allèle $A$, un individu $o\!\parallel\! o$ qu'un gamète avec l'allèle $o$. Au regard des probabilités, écrire en majuscule un certain variant $G_i$ ou l'écrire en minuscule, $g_i$, n'a donc aucune incidence. Aussi, nous l'indiquerons toujours en majuscule dans ce qui suit. Et nous considérerons que l'allèle que produit un individu qui en aurait deux distincts est une issue de Bernoulli 7 de paramètre $\frac{1}{2}$.
Le modèle construit par Hardy et Weinberg pour expliquer la stabilité de la structure génétique d'une population au cours des générations repose sur des hypothèses supplémentaires. La première d'entre elles est la panmixie. Elle consiste à considérer que les individus s’accouplent sans tenir aucun compte de leur génotype ni même de leur phénotype (qui en est la partie visible). Autrement dit, cette hypothèse consiste à considérer que les individus choisissent au hasard leur partenaire sexuel, ce qui est bien entendu rarement le cas en réalité. Le modèle d'Hardy-Weinberg fait également l'hypothèse de pangamie : les gamètes que chaque partenaire a produits se rencontrent au hasard.
Bref, de la panmixie, de la loi de discrimination de Mendel, et de la pangamie, retenons que tout se passe comme si les deux futurs parents étaient juste tirés au sort dans la population mâle et femelle sans qu'aucun des deux tirages n'influence l'autre (ils ne « cherchent » pas à se ressembler ni à être complémentaires par exemple), et comme si les allèles qu'ils transmettent ensuite étaient eux aussi tirés au sort (parmi deux possibles pour chaque partenaire) sans qu'aucun des deux tirages n'influe non plus sur l'autre. Du point de vue des probabilités, nous poserons qu'au moment d'une fécondation, les événements « le père transmet l'allèle $G_i$ » et « la mère transmet l'allèle $G_j$ » sont indépendants 8. Du point de vue de la biologie, c'est cette « grande loterie » du vivant, répétée sur tous les gènes de tous les chromosomes, qui assure que chaque individu est un être inédit.
Le principe de Hardy-Weinberg
Soit une population « zéro », $F_0$, composée d'individus d'une même espèce. Une expérience aléatoire peut consister à les tirer au sort. Aussi, nous introduisons les probabilités suivantes, que nous supposerons indifférentes au sexe, mâle ou femelle. Pour tous $i,j$ dans $\{1,\dots,p\}$ :
- $P_{\{i,j\},0} = \mathbb{P}\big(\text{« un individu a le génotype $G_i\!\parallel\! G_j$ »}\big)$. Lorsque $i \neq j$, notons qu'un individu $G_i\!\parallel\! G_j$ peut être d'allèle $G_i$ par son père et $G_j$ par sa mère, ou vice versa et que, vu des probabilités, père et mère sont interchangeables.
- $P_{i,0}=\mathbb{P}\big(\text{« un individu transmet dans son gamète l’allèle $G_i$ »}\big)$
À l'origine, la population étudiée pourrait réunir différents individus très homogènes, essentiellement homozygotes pour le gène $G$. Il est donc possible qu'au sein du grand groupe ainsi reconstitué, les densités soient inéquitablement distribuées, avec des probabilités homozygotes $P_{\{i,i\},0}$ significatives et des probabilités hétérozygotes $P_{\{i,j\},0}$, $i\neq j$, insignifiantes.
Nous admettons que la population se régénère à un rythme régulier par vagues successives $F_1$, $F_2$,...$F_n$,... étanches les unes aux autres : une génération donnée se reproduit au même moment quand les générations passées ne sont, elles, plus fécondes. On dit que les générations successives sont discrètes et non chevauchantes, hypothèse bien sûr discutable. Dès lors, nous définissons à l'avenant pour la génération $F_n$ les probabilités $P_{\{i,j\},n}$ et $P_{i,n}$ quand $i,j \in \{1,\dots,p\}$.
Principe de Hardy-Weinberg
Dans un cadre idéal, les probabilités $P_i$ sont stables dès le départ, tandis que les probabilités $P_{\{i,j\}}$ se stabilisent à partir de la première génération filiale, $F_1$. Ainsi la répartition génotypique de la population se fige-t-elle à l'image du premier brassage qui se sera produit.
On démontre ce principe en passant d'un degré $n$ de filiation au degré $n+1$ pour les $P_i$, puis au degré $n+2$ pour les $P_{\{i,j\}}$, $n\geq 0$. Trois étapes nous seront nécessaires.
Étape 1 : calcul de $P_{\{i,j\},n+1}$
Tout d'abord, compte-tenu des définitions ci-avant, de la similarité des rôles du père et de la mère, des propriétés d'indépendance déjà soulevées, quand $i,j\in \{1,\dots,p\}$ avec $i\neq j$,
\begin{align*} P_{\{i,j\},n+1} & = \mathbb{P}(\text{« un individu de $F_{n+1}$ est du génotype $G_i \!\parallel\! G_j$ »})\\ &=\mathbb{P}(\text{« le père transmet l'allèle }G_i\text{ »}\cap \text{« la mère transmet l'allèle }G_j\text{ »}) \\ &\quad +\mathbb{P}(\text{« le père transmet l'allèle }G_j\text{ »}\cap \text{« la mère transmet l'allèle }G_i\text{ »})\\ &= 2\mathbb{P}(\text{« le père transmet l'allèle $G_i$ »}\cap \text{« la mère transmet l'allèle $G_j$ »})\\ &= 2\mathbb{P}(\text{« le père transmet l'allèle $G_i$ »})\times\mathbb{P}(\text{« la mère transmet l'allèle $G_j$ »})\\ &= 2 P_{i,n} P_{j,n}. \end{align*}
De même, si $i\in \{1,\dots,p\}$, $$ P_{\{i,i\},n+1} = P_{i,n}^2 $$
Étape 2 : calcul de $P_{i,n+1}$ et première stabilité annoncée
Prenons $i\in \{1,\dots,p\}$. D'après la formule des probabilités totales,
\begin{align*} P_{i,n+1} &= \mathbb{P}(\text{« un individu de $F_{n+1}$ transmet l'allèle $G_i$ »})\\ &= \sum_{k=1}^p \mathbb{P}(\text{« l'allèle transmis est $G_i$ »} \mid \text{« l'individu est de génotype $G_i\!\parallel\! G_k$ »})\\ & \qquad\qquad\qquad\qquad\qquad\times \mathbb{P}(\text{« l'individu est de génotype $G_i\!\parallel\! G_k$ »}) \end{align*}
Quand $k\neq i$, la première probabilité vaut $\frac{1}{2}$, et la seconde $P_{\{i,k\},n+1} = 2P_{i,n} P_{k,n}$ d'après l'étape 1. Quand $k=i$, la première probabilité vaut 1 et la seconde $P_{\{k,k\},n+1}=P_{k,n}^2$ toujours d'après l'étape 1. La somme se simplifie donc en \begin{equation}\label{eq2} P_{i,n+1} = \sum_{k=1}^p P_{i,n} P_{k,n}=P_{i,n}\sum_{k=1}^p P_{k,n}= P_{i,n} \end{equation} $\leadsto$ Ceci prouve la première stabilité annoncée.
Étape 3 : calcul de $P_{\{i,j\},n+2}$ et deuxième stabilité annoncée
Comme à l'étape 1, pour tous $i,j\in \{1,\dots,p\}$, $i \neq j$, $$ P_{\{i,j\},n+2} = 2P_{i,n+1} P_{j,n+1} $$ Mais alors, d'après l'étape 2, suivie de l'étape 1, \begin{equation} P_{\{i,j\},n+2} = 2P_{i,n} P_{j,n} = P_{\{i,j\},n+1} \end{equation} Le raisonnement est analogue quand $i=j$.
$\leadsto$ Ceci prouve la deuxième stabilité annoncée.
Une autre façon de mener la preuve consistait à suivre un variant quelconque $V$, symbolisant un certain $G_i$ où $i\in\{1,\dots,p\}$, à désigner sous l'appellation générique $\overline{V}$ tous les autres dont on aurait fait masse, puis à ne manipuler que des probabilités du type $P_{V\parallel V}$, $P_{\overline{V} \parallel \overline{V}}$, $P_{V \parallel \overline{V}}$, $P_V$ et $P_{\overline{V}}$. Ceci nous affranchit des sommations et de leur indexation, mais conduit à des informations un peu moins fines en termes de distributions.
Notre démonstration contient par ailleurs plusieurs implicites :
- Que de sa naissance à son âge de procréer, une génération n'ait pas été perturbée par des facteurs extérieurs. Migrations, décès prématurés ou mutations peuvent en effet en modifier la structure. Tel génotype supportera moins tel climat, tandis que des mutations (à faible probabilité sur une courte échelle de temps) peuvent altérer ou modifier les gènes et créer un nouveau réservoir de variants, etc.
- Que tous les individus d'une génération soient également viables et fertiles. Savoir que tel génotype ne serait pas fécond changerait certainement la donne.
Enfin, si les probabilités « zéro » correspondent bien à des fréquences empiriques, c'est-à-dire à des proportions calculées sur une population effectivement existante, les probabilités concernant les générations suivantes ne sont que prospectives. C'est par la grâce de la loi des grands nombres, dans l'hypothèse d'une très grande population — échantillon statistique dont la taille $N$ tend vers l'infini, qu'elles coïncideraient, asymptotiquement, avec les fréquences génotypiques et alléliques observées lorsque se réalise l'expérience.
Conclusion
En pratique, nous étudions un échantillon de population. Nous y mesurons des effectifs que nous rangeons dans une table, par exemple selon que le variant $V$ est présent ou non comme dans le tableau suivant.
Les fréquences $\hat{p}$ et $\hat{q}$ des allèles $V$ et $\overline{V}$ dans cet échantillon valent par conséquent : $$ \hat{p} = \frac{2n_{V\parallel V} + n_{V \parallel\overline{V}}}{2N}\text{ et }\hat{q} = \frac{2n_{\overline{V}\parallel \overline{V}} + n_{V,\overline{V}}}{2N}. $$ avec $N=n_{V\parallel V}+n_{V\parallel \overline{V}}+n_{\overline{V}\parallel \overline{V}}$.
En considérant que $\hat{p}$ et $\hat{\overline{p}}=\hat{q}$ sont des estimateurs des probabilités $p=P_{V}$ et $q = P_{\overline{V}}$ qu'un individu choisi au hasard transmette l'allèle $V$ ou l'allèle $\overline{V}$ à l'équilibre de Hardy-Weinberg, nous attendons les probabilités génotypiques $P_{V\parallel V}=\hat{p}^2$, $P_{V\parallel \overline{V}}=2\hat{p}\hat{q}$ et $P_{\overline{V}\parallel \overline{V}}=\hat{q}^2$, et donc les effectifs génotypiques renseignés dans le tableau ci-après.
Sur des données expérimentales, on peut comparer visuellement les deux tableaux. Mais on peut aussi, plus rigoureusement, utiliser un indicateur de conformité. Typiquement \begin{align*} \chi_c^2 &= \sum_{\text{génotypes}} \frac{(\text{effectif attendu}-\text{effectif réel})^2}{\text{effectif attendu}}\\ &= \frac{(\hat{p}^2 N - n_{V\parallel V})^2}{\hat{p}^2 N}+\frac{(2\hat{p}\hat{q} N - n_{V \parallel \overline{V}})^2}{2\hat{p}\hat{q} N}+\frac{(\hat{q}^2 N - n_{\overline{V} \parallel \overline{V}})^2}{\hat{q}^2 N}, \end{align*} censé suivre une loi du $\chi^2$ à $3-1=2$ degrés de liberté, ce qui permet d'élaborer un test dont l'hypothèse nulle $H_0$ 1 affirmerait par exemple que la population étudiée répond à la loi de Hardy-Weinberg.
Concrètement, on observera plutôt des écarts au modèle de Hardy-Weinberg : à de grandes échelles de temps, les populations, de tailles aussi grandes soient-elles, n'ont pas de structure allélique stable. Ceci démontre que des forces évolutives sont à l'œuvre 23 : sélection, migrations, mutations, dérive génétique. Il reste ensuite à les déterminer, mais aussi à reconsidérer les hypothèses formulées quant à la panmixie et la pangamie par exemple.
On pourra faire l'analogie avec la physique et son principe d'inertie : quand aucune force résultante ne s'applique à un mobile, ce dernier suit un mouvement rectiligne uniforme. Tout écart à ce modèle prouve, a contrario, la présence d'interventions extérieures.
Remerciements
L'auteur remercie tout particulièrement Jean-François Beaux, professeur de SVT en classe de spéciale BCPST au lycée Henri IV, Bruno Anselme, professeur de SVT en classe de spéciale BCPST au lycée Fénelon, Pascal Combemorel, responsable éditorial du site ENS-DGESCO Planet-Vie, Vincent Pantaloni, inspecteur d’académie – inspecteur régional de mathématiques dans l’académie d’Orléans-Tours, Astrid Zayana, étudiante ingénieur à l’Agro Nancy (ENSAIA) et Gaëlle Guillotin, inspectrice d’académie – inspectrice pédagogique régionale de SVT dans l’académie de Versailles pour leur relecture minutieuse (et bienveillante !).