Biais de randomisation | Les essais par assignation aléatoire : l'émergence d'un souci évaluatif en économie du développement

Avec les RCT, « idées nouvelles et solutions anciennes sont évaluées sur le terrain avec la rigueur des essais cliniques », selon Esther Duflo – comme elle l’énonce dans la leçon inaugurale de son cours au sein de la chaire Savoirs contre Pauvreté du Collège de France. Cependant, le transport de la méthode des essais cliniques vers l’expérimentation sociale a entrainé l’apparition de différents biais – c’est-à-dire des processus qui engendrent des erreurs dans les résultats d’une étude. Comme l’expliquent Christopher B. Barrett et Michael. R. Carter dans The Power and Pitfalls of Experiments in Development Economics: Some Non-random Reflections ^[ref], ces biais découlent du fait que contrairement au domaine de la médecine où n’interviennent que les lois de la nature, dans le cas de programme sociaux, les groupes traité et témoin sont composés d’ « agents » libres de faire des choix. Par ailleurs, prendre pour sujets d’expérience des êtres humains soulève des questions éthiques que les chercheurs sont tenus de se poser.

Si les tenants des RCT reconnaissent l’existence des différents biais inhérents à l’application du protocole de l’expérience sur le terrain, ils restent cependant confiants dans les potentialités de la méthode, à l’instar d’Esther Duflo qui explique dans l’article Sans l’expérience, la théorie est vide de sens^[ref] :

« Il y a beaucoup moins de barrières aujourd’hui qu’il n’en existait voilà 10 ans. Tout au début de ce mouvement expérimental nous observions un peu de résistance du côté de l’évaluation traditionnelle mais également sur la question de savoir si c’était faisable. Je crois que ces barrières sont tombées car beaucoup de projets ont été réalisés. »

Nous détaillons dans cette partie les biais de randomisation tandis que et les biais de participation sont l’objet de la partie suivante. La dernière partie sera consacrée aux questions éthiques qui se posent dans le cadre d’une expérimentation aléatoire.

Soulevés par Heckman dans l’article Randomization and social policy evaluation^[ref], les biais de randomisations regroupent l’ensemble des biais comportementaux inhérents au fait même de réaliser une évaluation randomisée et qui faussent les résultats de l’expérimentation. L’économiste met en avant l’hypothèse tacite à laquelle ont recours les tenants des RCTs :

« Proponents of randomized social experiments implicitly make an important assumption: that randomization does not alter the program being studied. »

L’existence de ces biais rend James Heckman [1992]^[ref] sceptique quant aux potentialités des RCT :

« Where feasible, [a RCT] may alter the program being studied. For many social programs it is not a feasible tool for evaluation »

Les formes les plus courantes de ces biais sont l’effet Hawthorne et l’effet John Henry : le fait que les individus des groupes traité (effet Hawthorne) ou témoin (effet John Henry) peuvent modifier leur comportement du fait de savoir que le programme auquel ils participent est en train d’être évalué. Se sachant observés, les sujets de l’expérience peuvent agir différemment de si ça n’était pas le cas.

Biais de randomisation

Dans le cas de l’effet Hawthorne, cela peut se traduire par la volonté des personnes du groupe traité de chercher à bien faire. En effet, le sentiment qu’une application généralisée du programme dans le futur dépend de « leur réussite » lors de l’évaluation de celui-ci peut pousser certains individus du groupe traité à modifier leur comportement. L’effet observé lors de l’évaluation pourra alors être plus important que celui qu’aurait l’application généralisée du programme.

A propos de l’effet John Henry, Esther Duflo explique dans L’approche expérimentale en économie du développement^[ref] que :

«[…] l’un des problèmes que pose la reconnaissance explicite de l’assignation aléatoire comme un moyen équitable de répartir le programme, est que les acteurs de terrain peuvent penser que la manière la plus simple de présenter le programme à la communauté consiste à dire qu’il est prévu que ce programme soit à l’avenir étendu aux zones témoins »

Les individus du groupe témoin peuvent modifier leur comportement pendant l’évaluation sachant qu’ils bénéficieront du programme dans le futur. Selon la chercheuse, « cette critique a été émise dans le cadre de l’évaluation du programme PROGRESA : comme les villages témoins savaient qu’un jour ou l’autre ils seraient eux aussi couverts par le programme, cela a pu avoir une influence sur leur comportement. »

Évaluations en double aveugle et conséquences des biais de randomisation sur les résultats de l’expérience

L’un des moyens de mesurer l’impact de la réaction comportementale dans l’évaluation consiste à réaliser un essai en double aveugle, c’est-à-dire dans lequel ni les évaluateurs ni les participants ne savent quelles sont les personnes qui appartiennent au groupe traité (il faut bien entendu que cette information soit détenue par certaines personnes afin de pouvoir étudier les résultats par la suite).

L’article Double-blind lessons^[ref], paru dans The Economist, décrit la comparaison d’un RCT et d’un essai en double aveugle, menés parallèlement pour tester l’efficacité de nouvelles graines en agriculture. L’essai en double aveugle n’a pas mis en évidence de différence de rendement tandis que le RCT a conclu à un rendement plus élevé pour la nouvelle graine.

« The problem is that researchers are not always aware of, and thus cannot account for, all the behavioral adjustments that the treated could make. »

L’article conclut que les résultats mis en évidence par les RCT sont biaisés par les réactions comportementales des personnes soumises au programme :

« […] behavioral responses have costs. Any RCT that does not properly account for this will provide a misleading gross effect of the intervention—or an upper bound on the true effect […]. »

On pourrait penser que la solution consiste à n’effectuer que des essais en double aveugle, cependant, comme l’explique l’auteur de l’article, cela n’est pas possible dans l’évaluation de programmes sociaux :

« [in social experiments,] you need to know whether you are being treated. This is why the word “treatment” has always been misplaced as it suggests passivity on the part of the treated. In medicine, that may be true; in economics it is certainly not. »

Pour Christopher B. Barrett et Michael. R. Carter [2010]^[ref], les biais de randomisation sont d’autant plus dommageables que la taille des échantillons des RCT est faible. En effet, les propriétés statistiques qui permettent d’affirmer que les groupes test et témoins sont comparables sont des propriétés asymptotiques – c’est-à-dire valables seulement lorsque les données sont suffisamment nombreuses, donc lorsque l’échantillon étudié est assez important. Aussi, en présence de biais de randomisation au sein d’un groupe test de petite taille, l’hypothèse de départ sur la comparabilité avec le groupe témoin n’est plus valable :

« Randomization bias is a real issue in the typically small samples involved in RCTs. The identical equivalence of control and treatment subpopulations is an asymptotic property only. »

Esther Duflo [2009]^[ref] prend le cas particulier de l’étude avec le partenaire Bandhan pour mettre en avant des raisons qui peuvent encourager les biais de randomisation. Elle insiste par exemple sur « le fait que [les] villageois n’étaient pas habitués à voir un organisme privé distribuer des actifs gratuitement », cela venant notamment du fait que « Bandhan n’ait pas fait suffisamment d’efforts de communication pour informer les villageois des détails du programme » (afin de ne pas créer d’effet d’attente chez les plus pauvres). Selon l’auteur, ce genre de situation tend à disparaître grâce à l’essor des RCT.

Par ailleurs, Esther Duflo [2009]^[ref] explique que les biais de randomisation, et plus particulièrement les effets Hawthorne, « constituent un problème quel que soit le contexte à partir du moment où l’on étudie des participants » : « Ils ne sont pas spécifiques à l’expérimentation en tant que telle. » Elle donne l’exemple des interviews pour lesquelles les gens cherchent à donner une certaine impression d’eux-mêmes à l’enquêteur.

page précédente page suivante