viernes, 7 de octubre de 2016

7 ALGUNAS PRUEBAS DE VARIABLES CATEGÓRICAS


Las pruebas para variables categóricas, discretas o no continuas se emplean para comparar dos series de datos. Dependiendo de la naturaleza de las series de datos se las clasifica como de concordancia o de independencia.

En una prueba de concordancia una serie de datos será experimental y la otra serie será teórica, por lo que la hipótesis se relaciona a si la serie de datos experimentales concuerdan con la serie de datos teórica. En una prueba de independencia tenemos dos series de datos teóricas y el objetivo es determinar si los conjuntos de datos son semejantes o diferentes.

Debido a que planteamos este capítulo como aplicado a la bilogía, no nos detendremos demasiado en la teoría o fundamento matemático de estas pruebas, sino en su modo de uso.

Referencias generales: (McDonald, 2015)

7.1 Chi cuadrado

La chi cuadrado es una prueba de hipótesis entre dos sistemas numéricos, Generalmente lo usamos en genética para corroborar si un sistema de números corresponde a algún modelo matemático y en tal caso se hablaría de una prueba de concordancia.

Hipótesis de concordancia

a- La hipótesis nula será que los números experimentales y los teóricos concuerdan.
b- La hipótesis alternativa será que no concuerdan y por lo tanto hay que buscar otro modelo matemático.

Hipótesis de independencia
a-La hipótesis nula será que las dos series de datos concuerdan
b-La hipótesis alternativa será que no concuerdan.

La matemática en ambos casos es en esencia la misma.

En este orden de ideas la chi cuadrada calculada es igual a la suma de las diferencia al cuadrado de un valor experimental y un valor teórico respectivos dividido entre el valor teórico respectivo.

La chi cuadrado se genera con una fórmula y una comparación en una tabla que generalmente se hace en límites de exclusión. Los límites empleados son generalmente el 5% (0.05)  y el 1% (0.01), entre más pequeño significa que la correspondencia entre experiencia y teoría es mayor.

Otro factor de chi cuadrado es la cantidad de estados del sistema. El nombre que recibe esta variable es grados de libertad. Para calcular los grados de libertad se pueden emplear las fórmulas (3) y (4) que darán resultados similares siempre y cuando la cantidad de filas se maneje sea de dos, lo cual es básicamente la única posibilidad ya que esta prueba compara parejas de datos.

Una vez seleccionado el límite de exclusión y los grados de libertad se busca en la tabla el chi cuadrado de la tabla "En la imagen siguiente puede verse la columna de chi cuadrado para una probabilidad del 5% = 0.05 y grados de libertad del 1 al 10". Para el dado de 6 caras el chi cuadrado de la tabla es 11.07.

Si el chi cuadrado calculado es más grande que el chi cuadrado de la tabla, las dos series de datos no concordaran, en consecuencia si es una prueba se concordancia significa que nuestro modelo no representa los datos, mientras que si es una prueba de independencia significa que los datos no concuerdan uno con otro.

La prueba de Chi cuadrado es útil cuando el espacio muestral o sea N es mayor a 1000 unidades, cuando el valor es pequeño se emplea el test exacto de Fisher.

Referencias generales: (McDonald, 2015)

7.2 Test exacto de Fisher

El test exacto de Fisher compare características con la chi cuadrado, pero es mucho más preciso y aplica para muestras pequeñas y para muestras grandes. La hipótesis nula y alternativa son las mismas que en chi cuadrado, siendo la concordancia o la no concordancia de las proporciones de dos series de datos.

El problema con el test exacto de Fisher es que es muchísimo más complejo de obtener solo para una tabla de dos parejas, por lo que en la práctica usaremos la chi cuadrada a menos que tengamos un paquete estadístico más potente. Existen otros estadísticos que sirven para lo mismo, pero en esencia podemos trabajar con las dos anteriores.

Referencias generales: (McDonald, 2015)

No hay comentarios:

Publicar un comentario