Hipótesis nula y ejemplo alternativo
Supongamos que estas medidas siguen una distribución normal. Si el instrumento fuera insesgado (= 50), ¿cuál sería la probabilidad de que la media de la muestra se alejara tanto del valor de referencia?
En nuestro ejemplo del principio del curso, ¿podríamos calcular la potencia de la prueba, es decir, la probabilidad de detectar un sesgo del instrumento con la muestra de 9 mediciones? ¿Qué información adicional necesitamos?
A diferencia del nivel de significación, que es elegido por el analista, la potencia de una prueba depende (entre otras cosas) del tamaño real del efecto. En nuestro ejemplo, para un tamaño y diseño fijos, es más fácil detectar un sesgo grande que un sesgo pequeño.
La tabla de datos InsectSprays incluida en R contiene datos de un experimento de Geoffrey Beall (1942) sobre el número de insectos (recuento) en parcelas tratadas con diferentes insecticidas (pulverización), con 12 mediciones independientes por tipo de insecticida.
Hipótesis unilateral y bilateral
El intervalo de confianza proporciona un rango de valores probables para la proporción de la población. Como las muestras son aleatorias, es poco probable que dos muestras de una población den intervalos de confianza idénticos. Sin embargo, si se repitiera el muestreo muchas veces, un cierto porcentaje de los intervalos o límites de confianza resultantes contendría la proporción poblacional desconocida. El porcentaje de estos intervalos de confianza o límites que contienen la proporción es el nivel de confianza del intervalo. Por ejemplo, un nivel de confianza del 95% indica que, de 100 muestras tomadas al azar de la población, aproximadamente 95 de ellas deben producir intervalos que contengan la proporción poblacional.
El intervalo de confianza proporciona un rango de valores probables para la proporción de la población. Como las muestras son aleatorias, es poco probable que dos muestras de una población den intervalos de confianza idénticos. Sin embargo, si se repitiera el muestreo muchas veces, un cierto porcentaje de los intervalos o límites de confianza resultantes contendría la proporción poblacional desconocida. El porcentaje de estos intervalos de confianza o límites que contienen la proporción es el nivel de confianza del intervalo. Por ejemplo, un nivel de confianza del 95% indica que, de 100 muestras tomadas al azar de la población, aproximadamente 95 de ellas deben producir intervalos que contengan la proporción poblacional.
Ejercicios corregidos de comprobación de hipótesis
Atención, un error frecuente: en un estudio de no inferioridad que utiliza una prueba unilateral, un resultado no significativo no permite afirmar que no hay diferencia entre los 2 tratamientos y que, por tanto, son equivalentes. Sólo significa que el estudio no demuestra la superioridad del nuevo tratamiento sobre el de referencia.
De hecho, la ley de los grandes números indica que cuando se realiza un sorteo de una serie grande, cuanto mayor sea el tamaño de la muestra, más se acercarán las características estadísticas del sorteo (la muestra) a las características estadísticas de la población.
1. Messerli FH. Consumo de chocolate, función cognitiva y premios Nobel. New England Journal of Medicine [Internet]. 2012 Oct 18 [citado 2016 Apr 27];367(16):1562-4. Disponible en: http://dx.doi.org/10.1056/NEJMon1211064
Ejemplo de prueba unilateral
Las dos pruebas “clásicas” de normalidad de una variable son la prueba de Kolmogorov-Smirnov y la prueba de Shapiro-Wilk, ambas implementadas en R mediante las funciones ks.test() y shapiro.test().
Nota: en el ejemplo anterior, la distribución de la muestra u se comparó con la de una distribución normal, pero podría haberse comparado con cualquier otra distribución sustituyendo “pnorm” por otra distribución conocida.
Para calcular los valores empíricos de los cuartiles sobre la muestra v, basta con encontrar los valores de v que separan esta muestra en 4 partes iguales. Para ello, podemos utilizar la función de rango que da la clasificación de las observaciones. Como tenemos 1000 observaciones, seleccionaremos los rangos 250, 500 y 750 para los cuartiles. Esto da :
Para facilitar la lectura, representamos los cuartiles teóricos de la distribución gaussiana centrada y reducida en el eje x. En R, la función qqline() sólo representa la línea que pasa por los puntos correspondientes a los cuartiles 0,25 y 0,75.