PÍLDORA ESTADÍSTICA 1. SOBRE LA MEDIA Y LA VARIANZA

Cuando se analizan fenómenos que son esencialmente variables, con frecuencia se pretende cuantificar cómo varían los valores alrededor de los que se distribuye la variable bajo distintas condiciones -recogidas por otras covariables o factores-. Por ejemplo, cómo cambia la proporción (que es una media) de hospitalizados por COVID-19 entre las subpoblaciones vacunada y no vacunada, o cómo varía el ingreso anual medio en función de los años de estudio de la población activa de un país determinado en un momento concreto.

Podemos sofisticar el planteamiento añadiendo nuevas covariables y/o factores y así habrá una subpoblación para cada combinación de tales variables: si consideramos tres países y dos situaciones relativas a la vacuna -población vacunada y no- nos encontramos con 6 subpoblaciones diferentes, pero a los efectos ilustrativos que se pretenden en esta “píldora estadística”, vamos a considerar un escenario relativamente simple donde hay variable uno cuantitativa -como la edad de los individuos- y “L” niveles de un único atributo (por ejemplo, L ciudades). La “pregunta patrón” será entonces si la distribución de edades es diferente entre las diferentes ciudades, y una forma relativamente sencilla de comprobarlo es analizar si hay diferencias entre las edades medias de los individuos de cada una de ellas. Como las edades de los individuos presentan naturalmente variación, si se diese el caso en que en dos ciudades las edades medias respectivas fuesen de, digamos, 40.7 y 41.2 años, afirmar que las edades medias -y por tanto las distribuciones de edad de estas 2 ciudades son claramente diferentes- sólo puede sostenerse si consideramos conjuntamente estos valores medios con la variación de las edades alrededor de los mismos.

En concreto, lo que tenemos es una población total (todos los individuos de todas las ciudades con sus edades respectivas) y una variable para la que podemos calcular su MEDIA TOTAL Xt y su VARIANZA TOTAL Vt, resultantes de considerar todos conjuntamente. Por otra parte, podemos dividir a la población entre las L ciudades y así obtener L edades medias X1, X2, ….XL así como la varianza de las edades en cada una de las ciudades V1, V2,….. VL.

Resulta que la edad media de la población total se puede expresar como la media de las edades medias de las ciudades (subpoblaciones) y, por su parte, la VARIANZA TOTAL se puede descomponer en la suma de 2 componentes: la varianza ENTRE las edades medias de las ciudades (subpoblaciones) y la media de las varianzas DENTRO de las ciudades (subpoblaciones). Es decir:

VARIANZA TOTAL = VARIANZA ENTRE LAS MEDIAS DE LAS SUBPOBLACIONES + VARIANZA DENTRO DE LAS SUBPOBLACIONES

Imaginemos el caso donde las poblaciones tienen distribuciones de edades muy diferentes entre sí: ciudades con individuos relativamente jóvenes, otras con individuos en la edad media (aquella donde entre un plan para salir a las 22h un día cualquiera y quedarse en casa, eliges quedarte en casa), y otras con población sin casi planes para salir a partir de las 22h. Es decir, ciudades internamente homogéneas desde el punto de vista de la distribución de edades y heterogéneas entre sí. En tal caso, la VARIANZA TOTAL se debería principalmente a la VARIANZA ENTRE, siendo la parte de la VARIANZA DENTRO pequeña (o nula en el caso extremo e irrealista donde todos los individuos de una misma ciudad tengan la misma edad en todas y cada una de las ciudades).

Dado que todos los términos de la anterior descomposición de la varianza son no negativos, podemos dividirla por la VARIANZA TOTAL expresando el resultado en porcentaje, de forma que:

100% = PROPORCIÓN DE LA VARIANZA TOTAL ATRIBUIBLE A LAS DIFERENCIAS ENTRE LAS MEDIAS DE LAS SUBPOBLACIONES + PROPORCIÓN DE LA VARIANZA TOTAL DENTRO DE LAS SUBPOBLACIONES (también llamada residual)

Así, ante una situación como la ilustrada en el anterior ejemplo, conseguimos saber en qué proporción la variación total de las edades es atribuible a las diferentes edades medias de las subpoblaciones. Cuanto mayor sea esta proporción, mayor evidencia en favor de la existencia del “efecto ciudad” en el comportamiento de las edades.

Veámoslo a través de un ejemplo sencillo con las edades en años de 14 individuos de 3 ciudades diferentes:

Ciudad Edades

a 36, 4, 34, 28, 28

b 50, 40, 44, 46

c 60, 18, 72, 58, 74

A partir de lo cual es inmediato obtener:

Media total = 42.28571

Varianza total = 364.4898

Medias ciudades (a,b,c) = (26, 45, 56.4)

Varianzas ciudades = (131.2, 13, 408.64)

Varianza entre medias ciudades = 167.9755

Varianza dentro de ciudades = 196.5143

Proporción de la varianza atribuible a las diferencias de medias entre las ciudades =

167.9755/364.4898 * 100 = 46.08%

Es decir, concluimos que el efecto ciudad explica el 46% de la variación de las edades -en este ejemplo hipotético-. En efecto, si introducimos la ciudad como un factor “explicativo” de las edades (para eso habría probablemente que conocer la historia demográfica de las mismas) conseguimos reducir la variación hasta un 46%, siendo el 54% restante la variación residual una vez descontado este efecto ciudad.

¿Es mucho o poco? Depende de las causas alternativas y o complementarias de variación que estemos considerando y, desde luego, depende de si los datos anteriores corresponden a la totalidad de la población o a una muestra extraída mediante un método apropiado. De momento, consideremos que se trata de una población al completo: podemos concluir que la distribución de las edades es claramente diferente entre las ciudades y dejemos la búsqueda de las causas últimas a los demógrafos que puedan proporcionar explicaciones plausibles para esta agrupación de individuos de edades semejantes en dichas ciudades.

Otras consideraciones: En todo el razonamiento anterior hemos asumido implícitamente que la variabilidad de las edades es un fenómeno natural estable y por tanto esperamos que presente varianza constante. Este supuesto habrá de ser comprobado mediante el análisis de las varianzas “dentro” de las ciudades (subpoblaciones) o varianzas residuales. Si no se verifica, apunta a causas de variación no capturadas por la segmentación empleada (ciudades en nuestro ejemplo) lo que, lógicamente, conduce investigar posibles causas no especificadas o incorrectamente especificadas en nuestra "simplificación" de la realidad.

En general, un análisis del tipo que hemos bosquejado con este ejemplo resulta mucho más sencillo cuando disponemos de un modelo de referencia que sirva para representar la variación del fenómeno bajo estudio (las edades u otro); es decir, que permita “replicar” las distribuciones de frecuencias sintetizándolas mediante un número mínimo de entidades a las que denominamos parámetros. Es decir, cuando empleamos modelos para representar nuestra realidad "simplificada". Pero dejemos esta cuestión para otra entrada específicamente dedicada a los modelos probabilísticos paramétricos y esperemos sólo un poco más para la primera ilustración práctica con IBM SPSS Statistics.

Author's photo

Jesús Bescos

I have worked in the areas of Information, Decisioning Systems, Data Analysis, and Predictive Analytics for more than 20 years. I’ve a Master Degree in Public Economics, and a Ph.D. in Applied Economics.
Over the course of my professional activity I have had the privilege of Teaching and practicing Statistics, joining the Predictive Analytics software industry (SPSS, now part of IBM company), working for a Global Information Services player (Experian) and setting up my own practice.
My professional career has evolved around the connexion of data with effective actions, for various business environments demanding the combined use of analysis and technology in different roles and positions requiring the management of products, consultancy, and sales.