Geschiedenis van SOCIALE EXPERIMENTEN
LIMIETEN VAN SOCIALE EXPERIMENTEN
De TOEKOMST VAN SOCIALE EXPERIMENTEN
BIBLIOGRAFIE
Een sociaal experiment is de willekeurige toewijzing van menselijke proefpersonen aan twee groepen om de effecten van sociale beleidsmaatregelen te onderzoeken. De ene groep, de “behandelingsgroep”, krijgt een nieuw programma aangeboden of wordt verplicht daaraan deel te nemen, terwijl een tweede groep, de “controlegroep”, het bestaande programma ontvangt. De twee groepen worden in de tijd gevolgd om verschillen in hun gedrag te meten. In een sociaal experiment kan bijvoorbeeld een programma dat werklozen een financiële beloning geeft voor het vinden van een baan, worden vergeleken met een programma dat dat niet doet. Of in een sociaal experiment kunnen leerlingen in scholen die een nieuw leerplan krijgen, worden vergeleken met leerlingen in scholen waar dat niet het geval is. Omdat de randomisatieprocedure garandeert dat de twee groepen verder gelijk zijn, kunnen de gemeten verschillen in hun gedrag causaal worden toegeschreven aan het nieuwe programma. De gedragsverschillen worden soms de “effecten” van het programma genoemd. Gewoonlijk gemeten gedragsresultaten in sociale experimenten zijn onder meer inkomen, werkgelegenheid, ontvangst van overdrachtsuitkeringen, gezondheid, onderwijsniveau en ontwikkeling van kinderen. De omvang van de steekproeven in sociale experimenten varieert van minder dan 100 tot meer dan 10.000.
Sommige sociale experimenten hebben meer dan één behandelingsgroep. In dergelijke gevallen wordt elke behandelingsgroep aan een ander programma toegewezen. De verschillende behandelingsgroepen kunnen met elkaar worden vergeleken om de verschillende effecten van twee van de geteste programma’s te bepalen, of zij kunnen worden vergeleken met de controlegroep om het effect van het programma ten opzichte van de status-quo te bepalen. De menselijke proefpersonen kunnen willekeurig uit de algemene bevolking worden gekozen of, wat gebruikelijker is, willekeurig uit een doelpopulatie, zoals kansarmen.
Sociale experimenten worden sinds het eind van de jaren zestig op grote schaal gebruikt. Volgens Greenberg en Shroder (2005) zijn er sindsdien bijna 300 sociale experimenten uitgevoerd. Sociale experimenten lijken sterk op medische laboratoriumexperimenten waarbij de behandelende groep een nieuw geneesmiddel of een nieuwe procedure krijgt toegediend, terwijl de controlegroep een placebo of de standaardbehandeling krijgt. Laboratoriumexperimenten zijn ook op grote schaal gebruikt in de economie, sinds de jaren 1970 (Smith 1994), maar zij verschillen van sociale experimenten in die zin dat zij vooral worden gebruikt om verschillende aspecten van de economische theorie te testen, zoals het bestaan van een evenwicht of de efficiëntie van markttransacties, en niet zozeer de effecten van een sociaal programma. Ook hebben economische laboratoriumexperimenten gewoonlijk geen controlegroep; in plaats daarvan krijgen leden van een behandelingsgroep met geldmiddelen de gelegenheid om in een gecontroleerde omgeving markttransacties te verrichten om te bepalen of zij zich gedragen op een wijze die in overeenstemming is met de voorspellingen van de economische theorie. Sommige laboratoriumexperimenten in de economie zijn gebruikt om alternatieven voor het overheidsbeleid te testen.
HISTORIE VAN SOCIALE EXPERIMENTEN
Veel van de grondslagen van de moderne benadering van sociale experimenten kunnen worden teruggevoerd op het werk van de beroemde statisticus Ronald Fisher in de jaren 1920. Fisher verfijnde de notie van willekeurige toewijzing en wees erop dat geen twee groepen ooit identiek konden zijn. Hij merkte op dat de toewijzing van proefpersonen aan behandelings- en controlegroepen door puur toeval (bijvoorbeeld door het opgooien van een munt of uit een tabel met willekeurige getallen) ervoor zorgt dat verschillen in het gemiddelde gedrag van de twee groepen veilig kunnen worden toegeschreven aan de behandeling. Als gevolg daarvan kan de richting van de causaliteit worden bepaald met behulp van statistische basisberekeningen. Fisher erkende ook dat randomisatie een middel verschaft om de statistische eigenschappen van verschillen in uitkomsten tussen de groepen te bepalen.
Het eerste grote sociale experiment was het New Jersey Income Maintenance Experiment, dat in 1968 in de Verenigde Staten van start ging. Hoewel een aantal kleinere sociale experimenten voorafgingen aan het New Jersey Experiment (zoals het Perry Preschool Project in 1962), waren deze veel kleiner van opzet en veel minder geavanceerd. Het New Jersey Experiment testte het idee van een negatieve inkomstenbelasting (NIT), voor het eerst voorgesteld door de economen Milton Friedman en James Tobin in de jaren 1960. Het New Jersey Experiment was het eerste van vijf NIT-experimenten die in Noord-Amerika werden uitgevoerd (vier in de Verenigde Staten en één in Canada) met een zeer geavanceerde opzet en veel behandelingsgroepen. Problemen bij de evaluatie van bepaalde aspecten van deze complexe experimenten leidden in de daaropvolgende jaren tot veel eenvoudiger experimentele ontwerpen.
Van de jaren zeventig tot heden zijn sociale experimenten uitgevoerd op tal van sociale beleidsterreinen, waaronder gezondheid en voeding van kinderen, misdaad en jeugdcriminaliteit, vroege ontwikkeling van kinderen, onderwijs, elektriciteitstarieven, gezondheidsdiensten, huisvestingssteun, beroepsopleiding, en van bijstand naar werk programma’s. Tot de opmerkelijke experimenten behoren het Rand Health Insurance Experiment, waarin verschillende regelingen voor het betalen van ziektekosten werden getest; de Moving to Opportunity Experiments, waarin programma’s werden getest die arme gezinnen in staat stelden uit de sociale woningbouw te verhuizen; vier werkloosheidsverzekeringsexperimenten waarin de effecten werden getest van verschillende financiële prikkels om werklozen ertoe aan te zetten weer aan het werk te gaan; en een aantal welzijnswerkexperimenten waarin manieren werden getest om bijstandsontvangers aan een baan te helpen.
LIMITATIES VAN SOCIALE EXPERIMENTEN
Hoewel algemeen erkend wordt dat sociale experimenten de ideale manier zijn om de causale effecten van voorgestelde sociale beleidsmaatregelen vast te stellen, hebben zij toch een aantal belangrijke beperkingen. Ten eerste, en misschien wel het belangrijkst, vereisen sociale experimenten dat een controlegroep de beleidswijziging wordt ontzegd die aan de behandelingsgroep wordt gegeven. Omdat controlegroepen in sociale experimenten meestal achtergesteld zijn, kan het weigeren van programmadiensten worden beschouwd als een ethische inbreuk, waardoor sociale experimenten beperkt blijven tot plaatsen waar de middelen verhinderen dat alle in aanmerking komende personen kunnen worden geholpen. Ook behandelingen die een deelnemer slechter af maken, worden als onethisch en politiek onhaalbaar beschouwd.
Ten tweede, hoewel goed opgezette experimenten een hoge mate van interne validiteit hebben (conclusies zijn geldig voor de geteste steekproef), hebben ze mogelijk geen externe validiteit (ze zijn niet generaliseerbaar naar andere omgevingen). Een veelgehoord punt van kritiek op experimenten is dat zij door hun beperkte omvang niet de macro-economische, “communautaire” effecten genereren die een volledig operationeel programma zou genereren. Een volledig operationeel beroepsopleidingsprogramma kan bijvoorbeeld van invloed zijn op de lonen en de werkgelegenheid van niet-deelnemers en kan sociale normen en attitudes beïnvloeden, terwijl dat bij een experiment van beperkte omvang niet het geval is. Bovendien is er geen manier om zeker te weten of een succesvol experiment op de ene plaats ook succesvol zou zijn op een andere plaats, vooral omdat sociale experimenten meestal worden uitgevoerd op plaatsen die niet willekeurig worden gekozen, maar op grond van hun mogelijkheden en bereidheid om deel te nemen aan een experiment.
Ten derde kosten sociale experimenten tijd om op te zetten en te evalueren, meestal meerdere jaren. Beleidsmakers willen misschien niet de vereiste tijd wachten om erachter te komen of een bepaald programma werkt.
Ten slotte is het in de praktijk vaak moeilijk gebleken om een willekeurige toewijzing uit te voeren. Om de een of andere reden kunnen personen niet bereid zijn aan een onderzoek deel te nemen, en in gevallen waarin samenwerking tussen onderzoekers en overheidsinstanties vereist is, kunnen sommigen onwillig zijn om mee te werken. Als gevolg daarvan kunnen de behandelings- en controlegroepen die worden getest, niet representatief blijken te zijn voor de doelpopulatie.
Omdat sociale experimenten verschillende beperkingen hebben, zijn er andere middelen ontwikkeld om de effecten van sociaal beleid te evalueren. Deze worden over het algemeen “niet-experimentele” of “quasi-experimentele” methoden genoemd. Bij niet-experimentele methoden wordt het gedrag gevolgd van personen die aan een nieuw beleid worden onderworpen (de behandelingsgroep) en wordt een “vergelijkingsgroep” geselecteerd die als controlegroep fungeert. Maar omdat bij de selectie van de twee groepen geen gebruik wordt gemaakt van randomisatie, is het nooit zeker of de vergelijkingsgroep identiek is aan de behandelingsgroep in andere opzichten dan het ontvangen van de behandeling. Veel onderzoekers matchen de leden van de behandelingsgroep met personen in de niet-deelnemende populatie om de groepen zo veel mogelijk op elkaar te laten lijken. De matches worden gewoonlijk gemaakt aan de hand van demografische en economische kenmerken zoals leeftijd, opleiding, ras, woonplaats, werkgelegenheids- en inkomensgeschiedenis, enzovoort. Een populaire matching-techniek is propensity score matching, waarbij een gewogen gemiddelde van de waargenomen economische en demografische kenmerken van de niet-deelnemende populatie wordt gebruikt om een vergelijkingsgroep te creëren.
Een bijzonder aantrekkelijke niet-experimentele methode is het “natuurlijke experiment”. Natuurlijke experimenten worden vaak gebruikt om de effecten van reeds ingevoerde sociale beleidsmaatregelen te testen. Bij het natuurlijk experiment wordt gebruik gemaakt van de wijze waarop een nieuw beleid is uitgevoerd, zodat de vergelijkingsgroep bijna een echte controlegroep is. De militaire dienstplicht (het in aanmerking komen voor de dienstplicht) tijdens de Vietnamoorlog werd bijvoorbeeld uitgevoerd door middel van een nationale loterij waarbij personen uitsluitend op basis van hun geboortedatum voor militaire dienst werden geselecteerd. Theoretisch zou de groep die voor militaire dienst werd geselecteerd dus identiek moeten zijn aan de groep die niet werd geselecteerd, omdat het enige verschil de geboortedatum is. Onderzoekers die de effecten van de militaire dienstplicht op het toekomstig gedrag van individuen willen testen, zouden de resultaten (bijvoorbeeld opleidingsniveau of verdiensten) van degenen die wel en degenen die niet dienstplichtig waren, kunnen vergelijken en de “effecten” veilig aan de dienstplicht kunnen toeschrijven (Angrist 1990). Omdat niet alle dienstplichtigen daadwerkelijk in militaire dienst gaan en omdat sommige niet-dienstplichtigen zich vrijwillig voor militaire dienst aanmelden, is het ook mogelijk het effect van de werkelijke militaire dienst op toekomstig gedrag te schatten door de effecten van de dienstplicht te corrigeren voor verschillen in het percentage dienstplichtigen in de behandelings- en de vergelijkingsgroep. De geldigheid van deze procedure berust echter op de vergelijkbaarheid van de veteranen in militaire dienst in de twee steekproeven.
De TOEKOMST VAN SOCIALE EXPERIMENTEN
Sociale experimenten zijn sinds het eind van de jaren zestig van karakter veranderd. Veel vroege sociale experimenten zoals de NIT-experimenten, de Werkloosheidsverzekeringsexperimenten en het Rand Health Insurance Experiment testten een “responsoppervlak” waarbij de proefpersonen een “kwantificeerbare” behandeling kregen van variërende belasting- of subsidiepercentages. Daarentegen zijn de meeste van de meer recente sociale experimenten “black box”, wat betekent dat een pakket behandelingen wordt gegeven aan de behandelingsgroep, en het is niet mogelijk om de causale effecten van elke component van het pakket afzonderlijk te identificeren.
Black box-experimenten zijn bekritiseerd omdat zij de neiging hebben veel minder generaliseerbaar te zijn dan response-surface-experimenten. Daarom hebben veel onderzoekers opgeroepen tot een terugkeer naar niet-experimentele evaluatie als de voorkeursmethode voor het analyseren van de effecten van sociaal beleid. De voorstanders van experimentele methoden hebben echter tegengeworpen dat sociale experimenten de basis moeten blijven van de evaluatie van sociaal beleid omdat de voordelen nog steeds groot zijn in vergelijking met niet-experimentele methoden (Burtless 1995). In een poging om “in de zwarte doos te kruipen”, hebben de voorstanders van het sociale experiment als evaluatie-instrument manieren voorgesteld om experimentele en niet-experimentele evaluatiemethoden te combineren om causale effecten van sociaal beleid te identificeren (Bloom 2005). Niet-experimentele methoden zijn noodzakelijk vanwege de selectiebias die optreedt wanneer leden van de behandelingsgroep die bepaalde onderdelen van de behandeling ontvangen, geen willekeurige subset van de gehele behandelingsgroep zijn. In de toekomst kan bij de evaluatie van sociaal beleid meer gebruik worden gemaakt van beide evaluatiemethoden – door experimenten te gebruiken wanneer dat haalbaar is en ze te combineren met niet-experimentele methoden wanneer experimenten niet alle relevante beleidsvragen kunnen beantwoorden.
ZIE OOK Negatieve Inkomensbelasting
BIBLIOGRAPHY
Angrist, Joshua D. 1990. Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records. American Economic Review 80 (3): 313-336.
Bloom, Howard S., ed. 2005. Learning More from Social Experiments. New York: Russell Sage Foundation.
Burtless, Gary. 1995. The Case for Randomized Field Trials in Economic and Policy Research. Journal of Economic Perspectives 9 (2): 63-84.
Greenberg, David, and Mark Shroder. 2005. De Digest van Sociale Experimenten. 3rd ed. Washington, DC: Urban Institute Press.
Greenberg, David, Donna Linksz, and Marvin Mandell. 2003. Social Experimentation and Public Policymaking. Washington, DC: Urban Institute Press.
Smith, Vernon. 1994. Economie in het laboratorium. Journal of Economic Perspectives 8 (1): 113-131.
Philip K. Robins