Une mesure simple de l’impact moyen au détriment d’informations sur la diversité des réactions
Comme l’explique Esther Duflo dans L’approche expérimentale en économie du développement [ref], « la majorité des évaluations de programmes sociaux se concentre exclusivement sur l’impact moyen ». Ainsi, la nécessaire hétérogénéité de l’impact du programme étudié – c’est-à-dire la diversité des résultats obtenus – n’est pas prise en compte (James Heckman [1992] formule cette critique en parlant d’ « essential heterogeneity »).
Bien qu’elle reconnaisse « l’intérêt potentiel qu’il y a à identifier la distribution des effets d’un traitement », Esther Duflo [2009] explique que :
« […] l’effet moyen d’un traitement est la seule statistique conventionnelle de la distribution que l’on puisse obtenir à partir d’une expérimentation aléatoire, sans hypothèses supplémentaires ».
Selon elle, « l’introduction d’hypothèses de comportement supplémentaires [par exemple « la modélisation de la décision de participer comme une fonction des résultats potentiels, avec et sans traitement »] » permet « une estimation précise des liens au niveau des caractéristiques de la distribution des effets du traitement ». C’est le cas par exemple des travaux de Heckman et al. [1997], cités par Esther Duflo [2009]. De même, Ilf Bencheikh, Directeur-Adjoint de l’antenne européenne du J-PAL nous a assuré au cours d’un entretien [ref] que « les critiques adressées aux RCT sur ce plan ont beaucoup nourri la réflexion » et que « toute expérimentation qui commence essaie maintenant d’avoir une capacité d’analyse de l’impact beaucoup plus fine ». Selon lui, « il n’existe pas d’obstacles et on peut se donner les moyens de travailler sur la mesure de l’hétérogénéité de l’impact ».
Pourtant, selon Martin Ravaillon dans Should the randomistas rule ?[ref], alors qu’il serait possible de prendre cette hétérogénéité en compte, la plupart des expérimentations sociales comme les RCT font l’hypothèse implicite que le programme a le même impact pour tout le monde, pour des questions de simplicité. Selon lui cette hypothèse est à la fois « troublante » et « invraisemblable » car dès lors que des facteurs non-observables par l’évaluateur influencent l’impact du programme sur un individu, l’identification causale de l’effet moyen du traitement aux variables contrôlées n’est plus valide.
Christopher B. Barrett et Michael. R. Carter font également le constat que la distribution des variable est rarement homogène au sein des groupes traité et témoin dans leur article The Power and Pitfalls of Experiments in Development Economics: Some Non-random Reflections [ref]et rejoignent l’opinion Martin Ravaillon [2009] en expliquant que bien que ce problème puisse être pris en compte, il ne l’est pas souvent en pratique :
« […] RCT studies frequently fail to confirm that control and treatment groups exhibit identical distributions of observable variables. This problem is easily fixed and the best RCT studies carefully check for balance. But the frequency with which this is ignored in RCT-based studies today betrays a dangerous overconfidence that pervades much of the RCT practitioner community today. »
Distribution hétérogène des effets du traitement
Esther Duflo [2009] répond à ces critiques en soulignant l’ « avantage essentiel » que conservent les RCT : « avec très peu d’hypothèses, il est possible de connaître des aspects importants de l’impact du traitement (tels que la moyenne pour n’importe quel sous-groupe). »
Cette affirmation que les RCT nécessitent « très peu d’hypothèses » est mise en question par de nombreux acteurs du fait de l’existence des différents biais que nous détaillons dans la suite de cette partie.
En se concentrant sur la mesure de l’impact moyen, les RCT ne permettent donc pas d’avoir accès à l’hétérogénéité des réactions au sein de l’échantillon. Si la réduction de la diversité des effets à une moyenne a l’avantage de rendre les résultats plus simples à comprendre notamment par les décideurs politiques, cela est en revanche un obstacle à la compréhension des mécanismes en jeu dans les comportements des agents étudiés.