P.E. 8: ANÁLISIS DE LA VARIANZA (ANOVA)

El objetivo de esta píldora es dar una visión de los principales desafíos técnicos a considerar a la hora de realizar una Análisis de la Varianza (ANOVA por sus siglas en inglés). A pesar que las ideas subyacentes en este conjunto de técnicas son relativamente sencillas, las particularidades de cada caso particular, condicionados por los objetivos del análisis y la forma de observar, presentan una complejidad añadida de la que debemos ser conscientes.

La esencia del ANOVA consiste en determinar si las medias de una cierta variable (o más de una en el caso multivariante que dejamos ahora de lado) de unas subpoblaciones de interés son o no iguales para, a continuación, cuantificar el tamaño de esas diferencias.

Las subpoblaciones de interés se identifican por los distintos valores que toma un (o varios) factor (es), que son atributos de naturaleza cualitativa . Por ejemplo, podemos estar interesados en estudiar las diferencias en el tiempo medio de recuperación de una lesión muscular en función de la técnica de rehabilitación aplicada en una yeguada. En este caso se trataría de un análisis de la varianza de un solo factor.

Enseguida se nos puede ocurrir que habría que considerar otras causas de variación del tiempo medio de rehabilitación como, por ejemplo, el sexo y la edad del paciente. La inclusión del sexosupone añadir un segundo factor al análisis de modo que si, supongamos, estamos evaluando 3 tipos de técnicas rehabilitadoras alternativas, con 2 sexos tendríamos 3*2= 6 subpoblaciones cuyas medias podremos comparar entre sí. Se trataría en este caso de un ANOVA de 2 factores.

Pero, ¿qué sucede con la edad? La edad es una variable concomitante. Si como parece razonable suponer, la edad del paciente tiene un efecto sobre el tiempo de recuperación de la lesión (menor tiempo cuanto más joven sea), lo ideal sería “descontar” este efecto edad del tiempo de recuperación, de forma que el ANOVA se realizase sobre el tiempo de recuperación una vez descontada la edad del paciente. Lo bueno es tal descuento puede realizarse mediante la regresión lineal del tiempo de recuperación sobre la edad del paciente: el residuo de esta regresión -si resultase apropiada su aplicación- sería exactamente el tiempo de recuperación una vez descontada la edad. El análisis de esta situación, donde además de los factores que determinan las subpoblaciones se considera el efecto de una o varias variables cuantitativas recibe el nombre de Análisis de la Covarianza, ANCOVA, que podemos concebir como un ANOVA sobre una variable residual (de la que se han descontando ciertos efectos). Resulta intuitivo que una condición para la aplicabilidad de esta técnica consiste en que los factores analizados (el género y la técnica rehabilitadora en el ejemplo ilustrativo) no pueden guardar relación con la variable concomitante (la edad) pues, si guardasen alguna relación, resultaría imposible discernir entre las diferentes causas de variación de la media (factores y variables concomitantes).

Regresemos al ANOVA. Cuando incluimos más de un factor (sean los 2 referidos anteriormente) debemos de preguntarnos si existe o no interacción entre ellos, es decir, si el efecto sobre el tiempo medio de recuperación bajo las diferentes técnicas de rehabilitación presenta un comportamiento inconsistente entre machos y hembras. A fin de ilustrar consideremos que la técnica de rehabilitación, digamos “A”, presenta el menor tiempo medio de recuperación entre las hembras pero el máximo entre los machos … u otra suerte de combinaciones que podamos concebir. Si hay interacciones entre los factores, entonces el análisis de las medias y sus diferencias deberá conducirse sobre las subpoblaciones (6 en el caso ilustrativo), mientras que si las interacciones no existen, el análisis de la medias se realiza a partir de los efectos que sobre ellas tienen los niveles de los factores que se combinan de forma aditiva e independiente (2 géneros y 3 técnicas de rehabilitación). En otras palabras, si no hay interacción entre sexo y tipo de tratamiento, el tiempo medio de recuperación de cada tratamiento se calculará promediando los tiempos de recuperación de ese tratamiento de todos los individuos que lo sigan con independencia de su sexo, y análogamente para los tiempos medios de recuperación por sexo.

El método para determinar si existen o no diferencias entre las medias de las subpoblaciones y el tamaño de tales diferencias pasa por la descomposición de la variabilidad de la variable en cuestión (el tiempo de recuperación) entre su diferentes partes componentes, de forma análoga a lo explicado en la píldora estadística 1 de este blog. Será a partir de la interpretación y valoración de estas partes que se puedan extraer las inferencias adecuadas del ANOVA.

Sucede que tal descomposición de la suma de cuadrados y cómo se emplea depende de una serie de circunstancias que tienen que ver simultáneamente con los supuestos realizados y la forma en que se realizan la toma de datos (si se trata de un diseño experimental prospectivo y cuál es su diseño, o si son observaciones retrospectivas)

En relación a los supuestos:

  1. El ANOVA clásico presupone el uso de la distribución normal para acomodar la variabilidad de las observaciones. Es un modelo paramétrico de dimensión 2 (media y varianza). Se supone -y somete a prueba- la constancia de la varianza mientras que el objeto último es determinar si la media de la distribución cambia entre las subpoblaciones como consecuencia de los factores considerados. No obstante, el ANOVA es robusto en relación a este supuesto pues diferencias no extremas respecto al mismo, no afectan a la validez de las conclusiones alcanzadas.
  2. Las observaciones se obtienen por un procedimiento de muestreo aleatorio e independientemente las unas de las otras.

Ambos supuestos son necesarios para poder determinar los valores esperados de los estadísticos muestrales, especificamente, el valor esperado de las observaciones, de sus medias y de las diferentes sumas de cuadrados, ingredientes indispensables para definir correctamente los métodos de contraste de hipótesis y la estimación de los efectos. ¿Hay o no efecto interacción?, ¿hay o no efecto de alguno de los factores y con qué intensidad (cuánto reduce el tiempo medio de recuperación la técnica rehabilitadora “A” vs “B”)?, etc.

En relación a la toma de datos: el principio rector de un buen diseño de experimentos es tratar reducir la variabilidad experimental sin renunciar a que en la muestra haya la suficiente heterogeneidad como para que los resultados tengan validez externa (sean generalizables más allá de las observaciones muestrales).

  1. ¿Están todos los niveles de los factores presentes en el estudio? (¿se analizan tantas subpoblaciones como las que existen en el mundo real?). Esto puede suceder para todos los factores considerados en el estudio o para alguno de ellos. Si están todos presentes se trata de ANOVA de efectos fijos, si alguno no será ANOVA de efectos aleatorios (al menos para alguno de los factores). Muchas veces resulta económicamente inviable ejecutar un ANOVA multifactorial completo. Imaginemos 4 factores con 3 niveles cada uno, dando lugar a 3*3*3*3=81 combinaciones o tratamientos diferentes. Si el proceso de medida es destructivo o muy costoso, el análisis completo puede ser simplemente inviable.
  2. ¿Es el tamaño muestra idéntico en todas las subpoblaciones? Es decir, se trata o no de un diseño equilibrado. Esto afecta a la descomposición de la suma de cuadrados. Reviste especial relevancia cuando los datos son retrospectivos y no se controla la pertenencia de cada observación a las diferentes sub-poblaciones consideradas, lo que suele dar lugar a desequilibrios entre los tamaños muestrales.
  3. ¿Es el tamaño muestra >1 para cada “tratamiento” (subpoblación o combinación de niveles de los factores)?(para posibilitar la estimación de la varianza del error)
  4. ¿Los mismos individuos son sometidos a diferentes tratamientos (o a los mismos en diferentes momentos del tiempo)?. Es decir, se trata de un diseño con medidas repetidas donde la variación experimental se puede reducir al descomponerla en intra-individuo e Inter-individuos

Resumiendo en los términos sugeridos en la píldora 1, el ANOVA es una balanza estadística conceptualmente sencilla pero que presenta muchas particularidades de las que debemos ser conscientes si queremos realizar buenas medidas. La próxima entrada ilustra este análisis mediante IBM SPSS Statistics.

Author's photo

Jesús Bescos

I have worked in the areas of Information, Decisioning Systems, Data Analysis, and Predictive Analytics for more than 20 years. I’ve a Master Degree in Public Economics, and a Ph.D. in Applied Economics.
Over the course of my professional activity I have had the privilege of Teaching and practicing Statistics, joining the Predictive Analytics software industry (SPSS, now part of IBM company), working for a Global Information Services player (Experian) and setting up my own practice.
My professional career has evolved around the connexion of data with effective actions, for various business environments demanding the combined use of analysis and technology in different roles and positions requiring the management of products, consultancy, and sales.