PÍLDORA ESTADÍSTICA 5 : NIVEL DE SINGIFICACIÓN, POTENCIA Y TAMAÑO DEL EFECTO (1/3)

El contraste de hipótesis estadísticas (usualmente diseñados para constatar si hay o no diferencias esenciales en el comportamiento de un fenómeno medible a través de una determinada variable, bajo circunstancias diferentes determinadas -a su vez- por los valores de otras variables) quedó fuertemente influenciado por Teoria de Neyman Pearson (N-P) sobre contrastación de hipótesis estadísticas publicada en la década de 1930. Frente a la teoría de contrastación de Fisher--vigente hasta entonces- donde se consideraba únicamente una hipótesis (denominada nula y denotada por Ho), hicieron explícita la introducción de la hipótesis alternativa (denotada H1) contra la que comparar aquella. Introdujeron los conceptos de ERROR de TIPO I y ERROR de TIPO II que corresponden, respectivamente, a rechazar la hipótesis nula cuando es cierta, y aceptar la hipótesis nula cuando es falsa (cierta la alternativa), así como sus probabilidades asociadas P(Rechazar Ho / Ho cierta) y P(Aceptar Ho / H1 cierta). Bajo la perspectiva de la Teoría de la Decisión, un contraste óptimo es un procedimiento de decisión entre hipótesis alternativas cuyas frecuencia de error (probabilidad de error) a largo plazo es pequeña (idealmente mínima).

La P(ETI) se denomina NIVEL DE SIGNIFICACIÓN, y la probabilidad complementaria a P(ETII), es decir 1-P(ETII), se conoce como POTENCIA DEL CONTRASTE, de forma que minimizar P(ETII) equivale a maximizar la potencia.

Contrastar hipótesis alternativas es disponer de una regla que permita, a la luz de la evidencia (la muestra extraida por un procedimiento aleatorio para evitar sesgos de selección), inclinarse por una u otra hipótesis; lo que técnicamente se expresa como dividir el espacio muestra en 2 regiones: una, donde H0 se rechaza, que se denomina REGIÓN DE RECHAZO REGIÓN CRÍTICA, y otra denominada REGIÓN DE ACEPTACIÓN, donde H0 es aceptada.

Si disponemos de un modelo probabilístico paramétrico que idealice la variabilidad de las observaciones, entonces las hipótesis se formulan como valores supuestos para todos (o algunos) de los parámetros del modelo probabilístico en cuestión de forma que, para cada muestra extraida, es posible medir el grado de preferencia relativa de esa muestra por los valores de los parámetros que definien las hipótesis nula y alternativa. (Sin entrar en grandes detalles, esta preferencia relativa es el cociente de la función de verosimilitud de los valores de los parámetros bajo cada hipotesis). Es decir, es posible cuantificar el grado de compatibilidad relativa de ambas hipótesis con una muestra concreta y esto, para cada posible muestra. Así resulta más o menos inmediato que la Región Crítica o de Rechazo de H0 estará constituída por aquellas muestras posibles donde la preferencia relativa por H0 sea muy pequeña, siendo el espacio muestra restante la Región de Aceptación. N-P mostraron que, en general, es imposible encontrar una Región Crítica de la forma descrita (preferencia relativa a través de la razón de verosimilitud) que minimice simultáneamente ambas probabilidades de error P(ETI) y P(ETII). Formulando a continuación su conocido teorema que establece que fijado un nivel máximo para la P(ETI) que es conocido como NIVEL DE SIGNIFICACIÓN, las regiones críticas determinadas a través de la preferencia relativa por las hipótesis rivales medida por la razón de verosimilutid, tienen la propiedad de minimizar la P(ETII).

Dicho en otras palabras, propusieron una forma de definir contrastes que no eran óptimos globales pero si garantizaban la máxima potencia para un nivel de significación preestablecido, un óptimo condicionado.

A partir de este marco teórico hubo una tendencia más o menos generalizada a enfocarse exclusivamente en el nivel de significación de los contrastes estadísticos. Se determinaba un nivel de significación, a veces incluso "flexible", usualmente 10%, 5% o 1% y se observaba el denominado p-valor del test bajo la hipótesis nula que si, por ejemplo era 0,035 (3,5%) se afirmaba que el test era significativo al 5% pero no al 1%. El razonamiento subyacente era que fijada la significación del test en el 5%, si el p-value correspondiente a la muestra extraída es 3,5%, los datos están evidenciando una preferencia relativa por la hipótesis nula muy pequeña cayendo, por tanto, en la REGIÓN CRÍTICA o de RECHAZO de H0.

Asi, una parte de los investigadores dejaron de prestar atención a la P(ETII) o a su complemento 1-P(ETII) que es la POTENCIA DEL CONTRASTE. Y lo cierto es que al igual que es deseable decidir con una baja probabilidad de rechazar la hipotesis nula cuando es cierta, lo es trabajar con una alta probabilidad de rechazarla cuando es falsa, que es precisamente la POTENCIA del contraste. Porque de no prestar atención a la potencia corremos el riesgo de equivocarnos aceptando hipótesis que son falsas!!

Y a ello dedicaremos la próxima píldora.

Author's photo

Jesús Bescos

I have worked in the areas of Information, Decisioning Systems, Data Analysis, and Predictive Analytics for more than 20 years. I’ve a Master Degree in Public Economics, and a Ph.D. in Applied Economics.
Over the course of my professional activity I have had the privilege of Teaching and practicing Statistics, joining the Predictive Analytics software industry (SPSS, now part of IBM company), working for a Global Information Services player (Experian) and setting up my own practice.
My professional career has evolved around the connexion of data with effective actions, for various business environments demanding the combined use of analysis and technology in different roles and positions requiring the management of products, consultancy, and sales.