Modèles statistiques – Gènes de la réussite scolaire

Les scientifiques, généticiens et psychologues tirent leurs conclusions à partir d’études statistiques : il s’agit généralement de comprendre s’il existe une corrélation entre différents paramètres. Dans la plupart des cas on recherche une corrélation entre génétique et intelligence (attention toutefois à ne pas mal interpréter ces études : on recherche, non pas quel ensemble de gènes est associé à un certain QI, mais si avoir un génome proche d’un autre entraîne la possession d’un QI semblable). Pour ce faire, on regarde par exemple les résultats de tests de QI dans différentes populations ou chez des personnes ayant un génome différent.

Pour ce type de recherche, l’outil principal est le modèle statistique utilisé. Le problème, c’est qu’il s’agit d’un outil mathématique relativement complexe, où beaucoup de paramètres entrent en jeu (le statut social des parents, les origines, le nombre de frères et sœurs…), et où faire quelques simplifications est nécessaire à l’établissement d’un modèle fonctionnel mais nuit à sa précision. Choisir un modèle statistique, c’est avant tout choisir un critère principal d’évaluation et des paramètres annexes. Le choix d’un modèle donné pour une étude est un aspect très important du travail, et de nombreuses critiques de publications scientifiques sur le thème de la controverse concernent précisément le modèle statistique utilisé, certaines étant parfois discréditées, comme une publication du généticien Jenks l’a été par Jinks et Eaves dans IQ and Inequality (Jenks, 1974). On lui reprochait de ne pas pouvoir distinguer les données viables des autres à cause de son modèle, et de tirer des conclusions hâtives sans les prouver analytiquement.

En effet, deux modèles prenant en entrée des paramètres différents aboutiront à des résultats différents, et donc des résultats en désaccord. Mais calculer des corrélations ne se résume pas à la mesure simple de certains paramètres ou d’autres : pour faire des estimations correctes il convient de pondérer plus ou moins certaines données, et cela implique de faire des hypothèses fortes sur la nature du phénomène. Dans l’article Race, Social Class, and IQ (Scarr-Salapatcek, 1971), deux modèles différents sont confrontés. Bien que prenant en entrée des paramètres identiques, ces modèles présupposent tantôt la prépondérance du facteur génétique sur la détermination du QI, tantôt du facteur environnemental et aboutissent, comme le souligne l’auteur, à des résultats différents. Dans LISREL Modeling : Genetic and Environmental Influences on IQ Revisited (Chipuer et al., 1990), les chercheurs Robert Plomin, Michael J. Rovine et Heather M. Chipuer mettent en avant la difficulté de prendre correctement en compte le facteur environnemental, qui dépend de chaque famille, ainsi que le problème de l’ « assortative mating » (le fait que les personnes d’un certain groupe ont tendance à se reproduire avec les personnes du même groupe) et de l’additivité des gènes (voir 1 gène + 1 gène = 2 gènes). Certains suggèrent même de prendre en compte l’interaction entre l’environnement et les gènes (Rose, 2013).

Il est donc extrêmement complexe de réaliser un modèle statistique représentant correctement les faits. Un modèle est généralement élaboré en fonction de ce qu’il doit prouver, et cela influence significativement les résultats. Ainsi, la question des modèles continue d’animer de nombreux débats scientifiques au coeur de cette controverse.