Análisis: el blog de Sociedad y Educación

Un blog que reúne en sus posts la más reciente literatura científica en el campo de la educación y que expertos de Sociedad y Educación examinan, seleccionan y ponen a disposición de la comunidad educativa.

Publicado el 13 Jun 2014 / Sin comentarios

Estratificación endógena en experimentos aleatorios: posibles sesgos en la estimación de los efectos de intervenciones educativas

Fecha y fuente: NBER, Abril de 2014.

Autora: Gabriela Sicilia (UCM). Fundación Europea Sociedad y Educación.
Entrada publicada en EDUCALAB, blog del Instituto Nacional de Evaluación Educativa. 11 de Junio de 2014.

 

En los últimos años se ha observado un imponente crecimiento en la utilización de técnicas de experimentación aleatoria para evaluar cuáles son los efectos de una política, programa o intervención educativa. Un experimento aleatorio consiste, en líneas generales, en aplicar un tratamiento (programa educativo, por ejemplo) sólo a una parte de la población potencial que podría beneficiarse de dicho tratamiento. La clave está en que la selección de esa fracción de la población debe ser aleatoria, es decir, al azar. Como consecuencia, la población beneficiaria potencial queda dividida en dos partes, un grupo tratado (o experimental) y un grupo no tratado (o grupo de control) donde ambos poseen las mismas características y la única diferencia entre ellos es el tratamiento. De este modo, luego de aplicar el tratamiento es posible comparar directamente los resultados de ambos grupos y adjudicar las diferencias al tratamiento. Estas diferencias en los resultados son lo que se denomina el estimador de “efectos medios del tratamiento” (ATT por sus siglas en inglés). Asimismo, este tipo de experimentos también permite analizar cuál es el efecto de un tratamiento sobre diferentes subgrupos de la población, lo cual resulta de suma importancia sobre todo para los responsables de las políticas. Es necesario, en este caso, que los subgrupos se formen basándose en características inmutables (por ejemplo la raza) o en características observadas antes de aplicar el tratamiento y que no puedan ser afectadas por este.

Sin embargo, en muchos casos los investigadores o responsables de las políticas quieren analizar cómo afecta el tratamiento a aquellos individuos más desaventajados, esto es, aquellos que, sin el tratamiento, hubieran obtenido los peores resultados. Para ello, se suele utilizar una técnica de estimación denominada estratificación endógena de la muestra completa[1] que, básicamente consiste en predecir para cada individuo cuál hubiera sido su resultado sin el tratamiento. En general, la predicción del resultado en ausencia del tratamiento se lleva a cabo primero regresando el resultado sobre las características iniciales del grupo de control y utilizando luego los coeficientes estimados para predecir el resultado potencial sin tratamiento del grupo experimental. En función de los resultados predichos se crean intervalos y se analiza el efecto para cada subgrupo por separado.

Sin embargo, en un reciente estudio “Endogenous Stratification in Randomized Experiments[2] los profesores Alberto Abadie, Matthew Chingos y Martin West demuestran que las estimaciones resultantes de la estratificación endógena con la muestra completa pueden estar significativamente sesgadas y, por tanto, las conclusiones en algunos casos pueden llegar a ser totalmente opuestas a las encontradas hasta el momento.

En términos generales, los autores demuestran que estimar los resultados potenciales que hubieran obtenido los individuos en ausencia del tratamiento (resultado predicho) mediante la estratificación endógena con la muestra completa del grupo de control, conduce a una sobreestimación del efecto del tratamiento para los individuos con menores resultados predichos y a una subestimación del efecto del tratamiento para los individuos con mayores resultados predichos. Para superar estos posibles problemas de sesgo los autores proponen dos estimadores alternativos para estimar el resultado potencial sin tratamiento (leave-one-out and repeated split sample estimators)[3]. En la investigación los autores demuestran teóricamente y mediante simulaciones que estas metodologías mejoran significativamente las estimaciones respecto a la estimación mediante estratificación endógena, e ilustran empíricamente los efectos del sesgo en las estimaciones mediante la comparación de los resultados que se obtendrían aplicando las diferentes metodologías en la evaluación de dos programas sociales experimentales en Estados Unidos. El primero es el National JTPA Study, un experimento que mide el impacto que tiene haber participado de un programa de capacitación laboral sobre el salario nominal durante los treinta meses siguientes de finalizado el programa. El segundo programa evaluado es el Tennessee STAR Class Size Experiment, un experimento que mide el impacto de la reducción del tamaño del aula sobre los resultados en matemáticas en educación infantil.

 

JTPA Experiment

 

STAR Experiment

Efecto medio del tratamiento (ATE)

1207,22

0,1892**

(763,54)

(0,0294)

Estrato

Estrato

Bajo

Medio

Alto

Bajo

Medio

Alto

Modelo de Estratificación endógena

2011,70*

-554,65

1769,03

0,3980**

0,3023**

-0,1242**

(1150,68)

(1482,32)

(1639,06)

(0,0509)

(0,0678)

(0,0614)

Modelo Leave-one-out

173,45

172,28

3118,17*

0,3440**

0,2730**

-0,0660

(1213,25)

(1513,70)

(1679,62)

(0,0519)

(0,0696)

(0,0634)

Modelo Repeated split sample

412,01

181,81

2942,69**

0,3130**

0,3005**

-0,0374

(1042,17)

(1087,51)

(1454,16)

(0,0459)

(0,0526)

(0,0552)

Fuente: Abadie et al (2014).
Notas: El proyecto JTPA incluye 1681 individuos tratados y 849 no tratados, en total 2530 observaciones. El proyecto STAR incluye 1747 niños tratados y 2017 no tratados, en total 3764 observaciones. Los tres estratos se construyen a partir del valor predicho del resultado que obtendrían los individuos en ausencia del programa. Por ejemplo, el estrato bajo corresponde al 33% de individuos con peor resultado predicho. Los coeficientes estimados corresponden a la variable «tratamiento» en un modelo de regresión lineal que incluye como covariables diversas características previas de los individuos (Modelo ajustado). Errores estándar bootstrap entre paréntesis.
* Coeficiente significativo al 10% // **Coeficiente significativo al 5%.

En ambos programas los resultados son significativamente distintos si se estiman mediante estratificación endógena o mediante las nuevas metodologías propuestas por los autores. En el caso del JTPA, los resultados son directamente opuestos. Mientras que la estimación mediante estratificación endógena predice que el programa de capacitación laboral sólo tiene efectos significativos sobre el salario de los participantes del estrato con menor resultado predicho, al aplicar las dos propuestas alternativas el efecto del programa sólo resulta significativo para los individuos de mayor resultado predicho. En la evaluación del programa STAR los efectos también resultan significativamente distintos. Al estimar mediante estratificación endógena con toda la muestra, se observa un efecto significativo y positivo de la reducción del tamaño del aula sobre el test en matemáticas (medido en desviaciones estándar) en los niños de menor resultado predicho. Por el contrario, en el caso de los niños con mayor valor predicho el impacto es negativo y significativo. Es decir, que la reducción del ratio alumno/profesor tendría un efecto negativo sobre los alumnos que, en ausencia del programa STAR, obtendrían mejores resultados en matemáticas, lo cual resulta ser contra intuitivo. Sin embargo, cuando se estima el impacto del programa mediante las técnicas de leave-one-out ó repeated split sample este efecto negativo deja de ser significativo y se mantienen los efectos positivos sobre los alumnos que se espera obtengan peores resultados en ausencia del programa.

En suma, el presente estudio proporciona nuevas herramientas para llevar a cabo estimaciones del impacto de programas educativos y pone de manifiesto que la metodología seleccionada para llevar a cabo la evaluación es tan importante como la adecuada implementación y diseño del experimento. En efecto, la evidencia presentada pone de manifiesto que las recomendaciones de política que surjan de una evaluación no apropiada pueden ser hasta opuestas a las efectivamente adecuadas.

LINKS

http://www.mecd.gob.es/dctm/inee/documentos-de-trabajo/matthewchingospaper.pdf?documentId=0901e72b817992c3
http://www.en-directo.com/mecd/dynarski/



[1] La técnica se denomina estratificación endógena ya que utiliza la información del grupo de control completo para predecir el resultado sin tratamiento.
[2] http://www.nber.org/papers/w19742.
[3] Excede el objetivo de este post desarrollar la metodología propuesta por los autores. Para mayor detalle puede ver http://www.nber.org/papers/w19742.