La question de la généralisation des résultats constitue ainsi le principal écueil lors du passage d’une expérimentation locale à des politiques plus globales, mais demeure essentielle pour tous les organismes mettant en place des programmes de développement.
Dépendance au contexte géographique
En premier lieu, l’expérience semble dépendre du contexte géographique et culturel dans lequel elle a été réalisée. En effet, une expérience concluante menée au Kenya justifie-t-elle de généraliser le programme à d’autres pays, et si oui, à quels pays ? La question se pose même à l’échelle d’un pays, car comme le souligne François Bourguignon [ref], « une étude géographiquement limitée ne peut représenter l’ensemble des communautés d’un pays ». Le chercheur interrogé et qui a souhaité rester anonyme[ref] formule ce problème avec les termes suivants : « En quoi ce que j’ai fait dans un endroit m’informe sur ce qui pourrait se passer ailleurs et à une autre époque ? »
Le fait que le programme passe d’une expérience limitée à une mesure appliquée à grande échelle change aussi sa dimension politique. Comme l’explique Angus Deaton[ref] , économiste américain et professeur à Princeton, dans son article “Instruments of development: randomization in the tropics, and the search for the elusive keys to economic development”, des problèmes comme la corruption ou la manipulation politique, qui n’intervenaient pas lors d’une expérience attirant peu d’attention, peuvent émerger lors de la mise en place du programme :
“Small development projects that help a few villagers or a few villages may not attract the attention of corrupt public officials because it is not worth their while to undermine or exploit them, yet they would do so as soon as any attempt were made to scale up.”
La question de la dépendance contextuelle est déterminante pour apprécier le degré de généralisation d’une évaluation d’impact. Elle est d’ailleurs évoquée par Abhijit Banerjee et Esther Duflo[ref], dans leur article « L’approche expérimentale en économie du développement » :
« La dépendance à l’environnement est un élément clé de la possibilité de généralisation (ou de la validité externe). La question posée est la suivante : obtiendrions-nous le même résultat si nous menions la même expérimentation dans un contexte différent ? Ou plus exactement, le programme qui est en cours d’évaluation aurait-il les mêmes effets s’il était mis en œuvre ailleurs (et pas dans le cadre d’une expérimentation) ? »
Ils donnent différents exemples de programmes dont l’exportation géographique a été ou non concluante. Selon eux, un certain nombre d’hypothèses sont nécessaires pour pouvoir étendre un programme dont l’évaluation s’est révélée positive dans une aire géographique donnée à une autre aire géographique.
Dépendance vis-à-vis de l’organisation qui met en œuvre le programme
Les résultats d’une évaluation d’impact par assignation aléatoire semblent aussi liés au statut et aux caractéristiques de celui qui met en œuvre le programme. Les évaluations sont menées par une équipe de terrain. La question suivante émerge alors : quel est l’impact de cette équipe sur le comportement des personnes concernées par le programme ? En effet, si le programme est généralisé, sa mise en place sera confiée à différentes équipes, qui n’appartiendront peut être pas à la même institution s’il est repris dans plusieurs pays. Ces équipes n’adopteront peut être pas toutes la même démarche ni la même attitude vis-à-vis de ceux qui bénéficient du programme. Lors de l’expérience, le programme sera certainement appliqué avec beaucoup d’attention, ce qui ne sera peut-être plus le cas lorsqu’il constituera juste une mesure de plus appliquée par un gouvernement ou une ONG. Angus Deaton[ref] aborde notamment ce dernier point : “The scientists who run the experiments are likely to do so more carefully and conscientiously than would the bureaucrats in charge of a full scale operation.” La taille de l’organisation peut jouer, ainsi que son statut (ONG, entité étatique…). Le problème a été identifié par Abhijit Banerjee et Esther Duflo[ref] qui évoquent les précautions à prendre :
« Ce risque peut être partiellement atténué si l’on se penche avec attention sur la façon dont le programme est mis en œuvre, et particulièrement sur la place du programme évalué dans le plan d’action global de l’organisation (par exemple, quelle est la taille du programme évalué par rapport à toutes les actions menées par l’organisation ? Comment l’équipe de terrain a-t-elle été sélectionnée ? Qui a décidé du choix du lieu ?). Pour que les résultats soient plus qu’une démonstration de possibilité, il faut que le programme soit suffisamment bien défini et bien compris pour que sa mise en œuvre puisse être facilement déléguée à un grand nombre d’équipes de terrain plus ou moins autonomes. »
Comment limiter la dépendance contextuelle ?
Une solution qui apparaît et qui est suggérée par Banerjee et Duflo[ref] est de multiplier les expériences, de les reproduire aussi fidèlement que possible tout en modifiant certains paramètres. L’accumulation des expériences permettra alors de détailler l’efficacité d’un programme et de préciser les paramètres déterminants pour cette même efficacité : « La seule façon de s’assurer de la généralité d’un résultat est de mener des expérimentations supplémentaires dans des lieux différents, avec des équipes différentes. ». Cependant, il apparaît difficile de quantifier le nombre d’expériences nécessaires pour d’une part bien évaluer l’efficacité, et d’autre part rendre cette évaluation indépendante du contexte. Par ailleurs, répéter les expériences a un coût.