Hipótesis nula y ejemplo alternativo
Supongamos que estas medidas siguen una distribución normal. Si el instrumento fuera insesgado (= 50), ¿cuál sería la probabilidad de que la media de la muestra se alejara tanto del valor de referencia?
En nuestro ejemplo del principio del curso, ¿podríamos calcular la potencia de la prueba, es decir, la probabilidad de detectar un sesgo del instrumento con la muestra de 9 mediciones? ¿Qué información adicional necesitamos?
A diferencia del nivel de significación, que es elegido por el analista, la potencia de una prueba depende (entre otras cosas) del tamaño real del efecto. En nuestro ejemplo, para un tamaño y diseño fijos, es más fácil detectar un sesgo grande que un sesgo pequeño.
La tabla de datos InsectSprays incluida en R contiene datos de un experimento de Geoffrey Beall (1942) sobre el número de insectos (recuento) en parcelas tratadas con diferentes insecticidas (pulverización), con 12 mediciones independientes por tipo de insecticida.
Curso de comprobación de hipótesis pdf
Atención, un error frecuente: en un estudio de no inferioridad que utiliza una prueba unilateral, un resultado no significativo no permite afirmar que no hay diferencia entre los 2 tratamientos y que, por tanto, son equivalentes. Sólo significa que el estudio no demuestra la superioridad del nuevo tratamiento sobre el de referencia.
De hecho, la ley de los grandes números indica que cuando se realiza un sorteo de una serie grande, cuanto mayor sea el tamaño de la muestra, más se acercarán las características estadísticas del sorteo (la muestra) a las características estadísticas de la población.
1. Messerli FH. Consumo de chocolate, función cognitiva y premios Nobel. New England Journal of Medicine [Internet]. 2012 Oct 18 [citado 2016 Apr 27];367(16):1562-4. Disponible en: http://dx.doi.org/10.1056/NEJMon1211064
Definición de hipótesis alternativa
La importancia de las ecuaciones lineales radica no sólo en el hecho de que muchas correlaciones son de esta forma, sino también en que pueden proporcionar buenas aproximaciones de correlaciones complicadas que serían difíciles de describir en términos matemáticos. Un conjunto de pares de variables se denomina población bivariante o población definida por dos variables. Los mínimos cuadrados y la regresión lineal se aplican a poblaciones bivariadas. Los siguientes gráficos de dispersión describen los datos de la tabla: 0 1 2 3 4 5 6 7 8 9 10 1 2 4 3 6 8 10 9 7 12 con una aproximación lineal de los datos :
Con el conjunto de datos [ 0 1 2 3 4 5 6 7 8 9 10 1 2 4 4 3 6 8 10 9 7 12 ], ∙ ∑_{i=1}ⁿX_{i}Y_{i}=(0⋅1) +(1⋅2) +(2⋅4) +(3⋅4) +(4⋅3) +(5⋅6) +(6⋅8) +(7⋅10) +(8⋅9) +(9⋅7) +(10⋅12)= 437 ∙ ∑_{i=1}ⁿX_{i}=0+1+2+3+4+5+6+7+8+9+10= 55 ∙ ∑_{i=1}ⁿY_{i}=1+2+4+3+6+8+10+9+7+12= 66 ∙ ∑_{i=1}ⁿX_{i}=0²+1²+2²+3²+4²+5²+6²+7²+8²+9²+10²= 385 ∙
Ejemplo de prueba de hipótesis
Las dos pruebas “clásicas” de normalidad de una variable son la prueba de Kolmogorov-Smirnov y la prueba de Shapiro-Wilk, ambas implementadas en R mediante las funciones ks.test() y shapiro.test().
Nota: en el ejemplo anterior, la distribución de la muestra u se comparó con la de una distribución normal, pero podría haberse comparado con cualquier otra distribución sustituyendo “pnorm” por otra distribución conocida.
Para calcular los valores empíricos de los cuartiles sobre la muestra v, basta con encontrar los valores de v que separan esta muestra en 4 partes iguales. Para ello, podemos utilizar la función de rango que da la clasificación de las observaciones. Como tenemos 1000 observaciones, seleccionaremos los rangos 250, 500 y 750 para los cuartiles. Esto da :
Para facilitar la lectura, representamos los cuartiles teóricos de la distribución gaussiana centrada y reducida en el eje x. En R, la función qqline() sólo representa la línea que pasa por los puntos correspondientes a los cuartiles 0,25 y 0,75.