Les biais de sélection que la randomisation était censée éliminer réapparaissent lorsque le protocole de l’expérience ne peut être respecté sur le terrain. Nous distinguerons ici le cas où le non-respect du protocole intervient avant d’effectuer la randomisation de celui où il intervient après.
Non-suivi du protocole expérimental avant la randomisation
Le problème qui peut se poser avant qu’intervienne la randomisation est celui de la participation au niveau de l’organisation (qu’il faut distinguer des biais de participation que nous avons déjà détaillés). Il se manifeste par le refus de certains individus de participer à une expérimentation randomisée ou par la volonté des dirigeants politiques ou des agences qui mettent en œuvre les programmes de choisir eux-mêmes les individus sur qui portera la randomisation. Dans le pire des cas, la randomisation peut même totalement disparaître.
Les personnes chargées de mettre en œuvre les programmes peuvent être amenées à vouloir choisir elles-mêmes les individus du groupe traité pour plusieurs raisons. Dans le cas où l’évaluation du travail de ces personnes dépend des résultats de l’expérience (ou du moins si ces personnes en ont l’impression), elles peuvent être tentées de sélectionner les personnes les plus motivées ou les plus à même de présenter des résultats positifs. Dans le cas des programmes de développement, le choix pourra avoir tendance à se porter sur les individus qui bénéficieront au mieux du programme en question. Comme le résume Denis Fougère [2010] :
« […] si les agences chargées de la mise en œuvre des programmes ou interventions offrent un nombre de places limité ou si elles sont évaluées sur la base des résultats de l’expérimentation, elles peuvent être de ce fait incitées à sélectionner les candidats les plus qualifiés ou ceux pour lesquels le programme est potentiellement le plus bénéfique. »
L’expérimentation réalisée sur le RSA en France entre 2008 et 2009 est une bonne illustration de la difficulté d’effectuer une expérimentation randomisée. En effet, alors qu’il était initialement prévu que cette évaluation soit réalisée de façon randomisée, le caractère aléatoire de l’expérience a finalement totalement disparu comme nous l’a expliqué François Bourguignon au cours de l’entretien qu’il nous a accordé :
« Les gens qui étaient directement liés aux expérimentations sur le RSA ont immédiatement proposé qu’elles soient par assignation aléatoire. Cependant, il est impossible que la caisse nationale des allocations familiales soumette certains individus à un régime et certains à un autre régime. On a donc été obligé de raisonner au niveau local, et de faire en sorte que les traitements différents soient appliqués par des caisses différentes. Pour définir les zones de traitement, on a cherché des départements volontaires. On n’était déjà plus du tout dans l’aléatoire. Ensuite, comme on n’allait pas appliquer le traitement à l’ensemble du département, il a fallu choisir des zones plus précises. Les conseils généraux ont alors proposé des villes efficaces et dont les responsables étaient motivés. De nouveau, il ne s’agissait plus du tout de randomisation. Le même problème s’est posé pour les zones de contrôle. On a essayé d’en prendre qui soient plus ou moins l’équivalent des zones de traitement, en termes de taille, de chômage… Cela n’était pas complètement rigoureux. »
La démarche adoptée pour le choix des zones expérimentales lors de l’expérimentation du RSA est également décrite par Bernard Gomel et Evelyne Serverin dans l’article « Evaluer l’expérimentation sociale » [2011].
« […] comme l’indique le rapport final de l’expérimentation de 2009 : « Les territoires expérimentaux ont été choisis par les départements à la suite d’une démarche de concertation locale, soit pour leur représentativité, soit pour leur exemplarité (« positive » ou « négative ») ».
Et la vérification a posteriori des zones expérimentales et des zones témoins, qui, elles, ont été sélectionnées de façon raisonnée, a montré que leur comparabilité n’est assurée qu’au niveau national :
« En ce qui concerne l’évolution du taux de retour à l’emploi, l’ensemble des zones témoins est en moyenne une réplique, ou “contrefactuel”, satisfaisant de l’ensemble des zones tests. Cependant, pour une zone test donnée, les évolutions des zones tests et témoins peuvent être différentes. » »
Dans le domaine de l’économie du développement, l’obstacle principal à la participation vient de la non-acceptation du caractère aléatoire de l’évaluation par certains partenaires (parmi les ONG et les gouvernements). Comme l’explique Esther Duflo [2009], « toutes les ONG ou tous les gouvernements ne sont pas volontaires pour participer à des évaluations aléatoires » et ce « précisément parce qu’elles sont aléatoires ».
L’acceptation de la randomisation par les individus susceptibles de participer à l’expérience est de fait beaucoup plus forte, comme nous l’a expliqué Arthur Jatteau à propos de son expérience au Kenya :
« Quand j’étais au Kenya et qu’on faisait signer des protocoles d’accord à des gens, ils ne comprenaient rien à ce qu’il y avait marqué sur la feuille, ils comprenaient rien à ce qu’on leur disait. Je caricature un peu mais dans l’idée c’est ça. Ils peuvent donner leur consentement libre mais il n’est pas toujours éclairé. De toute façon quand il y a quelqu’un qui vient en costard-cravate et qu’en plus il est accompagné d’un blanc, c’est plus difficile de dire non. »
Cependant, certains compromis sont parfois nécessaires, comme dans le cas de l’expérimentation sur les vermifuges, l’exemple phare du mouvement en faveur des RCTs :
« Le consentement est en fait parfois très relatif. Du coup la mise en place de la randomisation, d’après ce que j’en sais, est relativement bien acceptée dans l’ensemble mais parfois après des négociations qui aboutissent à des compromis. Dans l’article sur les vermifuges, d’ailleurs ils le disent, ce n’est pas une randomisation pure parce que les gens en face ne voulaient pas de randomisation. C’est une sorte de randomisation par alphabétisation : ils sont classés par ordre alphabétique et en fonction de ce classement ils ont réparti les personnes et créé les groupes. Ça ne colle pas aux canons de la randomisation mais ça n’a pas empêché l’article de devenir l’article phare du mouvement. »
Arthur Jatteau conclut à propos de l’acceptation du caractère aléatoire des expérimentations randomisées :
« J’ai l’impression en toute honnêteté pour en [des randomistas] avoir interrogé beaucoup qu’il n’y a pas énormément de problèmes, même s’il y a beaucoup de discussions autour de ça, parfois des négociations et plus rarement des refus. »
Lorsque la randomisation est ainsi biaisée, se pose alors le problème de la représentativité de l’échantillon par rapport à la population visée. En effet, les villages ou individus qui n’appartiennent pas initialement à l’ensemble duquel l’échantillon aléatoire est tiré au hasard sont nécessairement différents des autres. Ils manquent donc à l’étude pour qu’elle soit représentative de l’ensemble de la population.
Heckman [1992], cité par Esther Duflo [2009], présente cette « autre forme plus subtile de biais lié à l’assignation aléatoire » au travers de l’expérimentation d’un programme de formation professionnel (JTPA). Dans le programme en question, certains sites ont « spécifiquement refusé l’expérimentation à cause de l’assignation aléatoire », or « il se peut que ces sites soient différents. »
La même remarque est soulevée par Denis Fougère [2012] à propos d’un programme éducatif : « il est à craindre que les établissements qui refusent de participer à l’évaluation expérimentale d’une nouvelle politique éducative soient précisément ceux qui pensent en tirer le moins d’avantages. » Le résultat d’une telle expérience ne seront valable qu’au sein « des établissements, des classes, etc., qui ont accepté de participer à l’expérience ». Or, comme le souligne l’auteur, l’écart entre « l’effet moyen de la politique éducative » et cet effet restreint aux établissements ayant accepté de participer « peut être assez substantiel. »
En économie du développement, il s’agit selon Esther Duflo d’une « objection de taille » et d’une « critique difficile à réfuter dans la mesure où les données – quel que soit leur nombre – ne seront jamais suffisantes pour nous rassurer totalement sur l’absence de ce problème. »
Cependant, pour Esther Duflo, une amélioration certaine de l’acceptation du caractère aléatoire des expérimentations est à attendre de l’essor des RCTs :
« […] notre expérience suggère que, dans le contexte des pays en développement, ce problème tend à disparaître car les évaluations aléatoires sont de mieux en mieux acceptées, et les partenaires se multiplient. La situation va continuer de s’améliorer si les évaluations aléatoires sont recommandées par les donateurs dans la mesure où les partenaires se diversifieront encore davantage. »
Comme l’explique Arthur Jatteau [2013], « diverses solutions sont envisagées pour accroître l’acceptabilité du tirage au sort » dont la possibilité d’avoir recours à « un ‘‘joker’’ pour passer outre l’assignation ». Ce principe a été adopté en France lorsque des expérimentations randomisées ont été menées sur l’emploi, comme Arthur Jatteau nous l’a expliqué lors d’un entretien :
« On disait au conseiller Pôle emploi « on va faire une randomisation ». Le problème c’est que sur le papier c’est très beau, mais dans la pratique et la réalité des acteurs, ça peut parfois être compliqué de dire « lui je sais qu’il va être dans le mauvais groupe donc il n’aura pas le droit au traitement ». Alors ce qui a parfois été inventé, c’est des jokers. Certains conseillers avaient le droit à des jokers qu’ils pouvaient donner pour faire sortir certaines personnes de l’expérimentation. Ainsi, de petits arrangements institutionnels ont pu être trouvés, sans toutefois remettre en cause le principe de la randomisation. »