Le problème des effets d’équilibre général tient au caractère local des expériences par assignation aléatoire. Les bénéfices d’un programme de développement à petite échelle peuvent être très fortement atténués lorsque le programme est généralisé à un pays entier, voire devenir nuls.
En effet, si l’on cherche à étendre un programme local à une région entière ou à un pays tout entier, alors il est possible qu’il modifie le contexte économique et social du pays, et, ce contexte étant modifié, les résultats ne seront pas les mêmes que ceux mis en évidence lors de l’évaluation d’impact. François Bourguigon[ref] l’explique ainsi :
« D’autre part se pose le problème dit de l’équilibre général. Le programme, une fois qu’il est mis en œuvre à l’échelle du pays, tend à en modifier le contexte, ce qu’il ne faisait pas lorsqu’il était confiné à une échelle locale. Généraliser un programme relatif au marché du travail peut modifier ce dernier, et les résultats trouvés à l’échelle locale ne sont donc plus valables. Les expériences randomisées ont comme sous-hypothèse que l’expérience réalisée ne modifie pas le contexte économique. Lorsque l’hypothèse ne tient plus, il y a nécessité de modèles macro-économiques qui représentent le marché du travail par exemple pour évaluer l’impact du programme. »
Les programmes ayant trait à l’éducation et au marché du travail sont par exemple susceptibles de faire face à des effets d’équilibre général. Esther Duflo, mais aussi François Bourguignon, évoquent tous deux le cas des programmes encourageant la scolarisation dans de bonnes conditions des enfants issus de milieux défavorisés. Parmi les familles correspondant aux critères fixés par le programme, certaines, tirées au sort, reçoivent des vouchers permettant d’inscrire leurs filles à l’école de leur choix, et non plus à l’école du quartier. Elles peuvent donc notamment accéder aux écoles privées. Les filles bénéficiant du programme ont un avantage comparatif par rapport aux filles issues des mêmes milieux défavorisés et n’en bénéficiant pas, et l’évaluation est donc positive : elles font preuve effectivement d’un meilleur niveau scolaire. Cependant, doit-on s’attendre à ce que les résultats à l’échelle nationale soient les mêmes que ceux de l’évaluation d’impact, menée localement ? Il est probable que le contexte scolaire soit modifié par la généralisation du dispositif. En effet, l’afflux d’enfants dans les écoles privées transfère les problèmes liés à la surcharge des classes des écoles publiques aux écoles privées. Les résultats mesurés par l’évaluation d’impact seront alors nécessairement atténués. De même, pour un programme encourageant l’emploi et donnant des résultats positifs à l’échelle locale, les résultats seront peut être amoindris lors de sa généralisation, par saturation du marché du travail :
« Par exemple à propos, des programmes d’aide au retour à l’emploi, si on conseille et suit davantage quelques chômeurs, on peut penser qu’ils retrouveront un emploi plus facilement [Zamora 2011]. Mais, pour peu que le stock d’emplois disponibles soit peu flexible, alors en cas de généralisation à tous les chômeurs, il est possible que l’impact du programme soit nul ou au moins amoindri [Crépon et al., 2013]. »
[Référence : Arthur Jatteau, Les expérimentations aléatoires en économie]
Il apparaît comme très difficile de quantifier l’impact des effets d’équilibre sur la validité externe de certaines évaluations d’impact, même en ayant recours à de solides bases théoriques et modèles économiques. C’est le constat d’Esther Duflo[ref] elle-même, qui souligne cependant que les effets d’équilibre ne se présentent pas pour toutes les expériences par randomisation :
« Le problème des effets d’équilibre n’a pas de solution totalement satisfaisante. Fort heureusement, il se présente rarement. Par exemple, si nous souhaitons déterminer quelle est la meilleure stratégie pour favoriser la vaccination (distribution fiable des vaccins ou distribution fiable des vaccins accompagnée d’un petit cadeau pour que la mère se souvienne de faire le rappel du vaccin à temps) (comme dans Banerjee et al.[2008b]), la méthode expérimentale ne pose aucun problème. »
Ainsi, de nombreux obstacles se dressent lorsque l’on cherche à changer l’échelle d’application d’un programme. La généralisation d’une mesure demande beaucoup de précautions et d’attention portée sur les différentes dépendances contextuelles. Angus Deaton[ref] semble insinuer que le problème viendrait notamment du fait que les expérimentateurs ne peuvent expliquer les mécanismes mis en jeu lors du programme : “Yet I also believe that RCTs of “what works,” even when done without error or contamination, are unlikely to be helpful for policy unless they tell us something about why it works, something to which they are often neither targeted nor well-suited.” Il est maintenant intéressant d’évoquer cet aspect.