viernes, 7 de octubre de 2016

3 ESTADÍSTICOS DESCRIPTIVOS

Los estadísticos descriptivos describen cuantitativamente una serie de datos resumiendo comportamiento general. El enfoque de los estadísticos descriptivos es resumir una muestra, lo cual los diferencia de los estadísticos de inferencia que permiten juzgar el comportamiento de la población. 

3.1 Tendencia central

La tendencia central resume donde se encuentra un punto medio en una colección de medidas. La media aritmética es la más común, pero existen otras variables de tendencia central que son útiles. Solo en el caso de que las variables se hayan medido de forma aleatorizada, en la cual no existen sesgos, algunas medidas de tendencia central se unifican en lo que conocemos como promedio.

3.1.1 Media aritmética o promedio simple

La media aritmética es lo que vulgarmente conocemos como promedio y es la medida de tenencia central más empleada. Para obtener el promedio se puede emplear la fórmula (3) la cual es la más común, aunque la fómula (2) también es aceptable, formalmente la fórmula para el promedio se resume con la expresión sumatoria en (1).

En estas fórmulas (x) representa la variable medida (i) representa la posición a reemplazar con las medinas (1, 2, 3 hasta la medida final llamada n), (n) representa la medida final o total de medidas tomadas. La barra que se coloca sobre la x implica que es un promedio, para diferenciarlo que x1, x2, hasta xn que representa las medidas reales.

El promedio es solo útil cuando trabajamos con poblaciones de datos que concuerdan con una distribución normal, y es muy insensible a los valores extremos, por lo que el promedio no nos dirá mucho sobre cómo se comportan loas máximos y los mínimos.

3.1.2 Media geométrica 

La media geométrica tiene algunas aplicaciones en economía, involucrando las tasas de interés, pero tiene raras aplicaciones en la biología. Su fórmula es la siguiente:

El símbolo de multiplicador es pi mayúscula y su codificación es semejante al sumatorio.

3.1.3 Media harmónica

La media harmónica tiende a presentar errores o valores de dispersión menores, sin embargo cuando hay u n valor en cero se vuelve no-definida matemáticamente. No es muy empleada en la biología.

3.1.4 Mediana

La mediana se define como el punto medio de una serie de datos organizados por rango, desde el menor al mayor. Para una serie impar se elige el número en medio y para una serie par se obtiene suma y divide entre dos a los dos dígitos del punto medio.

3.1.5 Moda

La moda es una función de valor medio que aplica a una serie de variables categóricas, en la cual se expresa como el valor que es más común de encontrar. Las variables continuas no poseen una moda como tal, y para obtenerla hay que redondear los valores continuos a categorías discretas. 

Referencias generales: (McDonald, 2015)

3.2 Normalidad

Si bien cuando se tiene un solo set de números aleatorios, la probabilidad de que cualquiera aparezca es la misma, cuando vas aumentando la cantidad de variables aleatorias, la curva deja de ser una línea horizontal recta, sino que aparece una tendencia central llamada curva de Gauss, en la que el pico representa el valor más probable asumiendo un sistema aleatorio con muchas variables involucradas.

En la gráfica anterior tenemos dos curvas, una curva con sesgo a la derecha en líneas segmentadas y una gaussiana completamente simétrica. Las curvas gaussianas son simétricas y por eso también se las denomina campanas de gauss. Cuando tenemos una serie de datos con algún sesgo las tres medidas de tendencia central son muy distintas y en términos prácticos la única medianamente útil seria la moda. Por otro lado una distribución simétrica arrojará valores iguales entre moda, media y mediana, en ese sentido la curva de gauss cumple tal condición, pero no es la única.

Sin embargo el promedio es muy fácil de obtener, sobre todo en hojas de cálculo como Excel donde solo debes colocar =promedio(celda inicial:celda final). Por tal razón uno de los primeros pasos antes de analizar una serie de datos es corroborar que estos se distribuyan aleatoriamente, es decir, mediante pruebas de normalidad.

Martinez (2014) nos muestra una serie de herramientas en Excel que nos permitirá corroborar la normalidad de una serie de datos antes de ponernos a aplicar estadísticos que requieran de una serie de datos normal:



Referencias generales: (McDonald, 2015)


3.3 Dispersión

Los estadísticos de dispersión nos permiten determinar qué tan cerca se encuentran los valores reales del valor de tendencia central. Por lo general el más común de estos es la desviación estándar, pero existen otros.

3.3.1 Rango

El rango representa la diferencia entre el valor más alto y el valor más pequeño de una serie de datos. El rango no es muy informativo para propósitos estadísticos, ya que no te dice cómo es que se distribuyen los datos individuales al interior del rango.


3.3.2 Suma de diferencias al cuadrado

La suma de cuadrados no es un estadístico por sí mismo, pero forma la base de otros como la varianza o la desviación estándar. La suma de cuadrados permite acumular las desviaciones de una serie de datos con respecto al promedio, omitiendo su direccionalidad, de esta forma se pueden incorporar datos positivos o negativos en un mismo sistema de acumulación (10).


3.3.3 Varianza paramétrica

La variaba paramétrica emplea únicamente cuando se obtiene un muestreo de (n) completo, lo cual implica determinar la propiedad de medida de toidos los miembros de una población, lo cual generalmente no es el caso. La varianza paramétrica se obtiene dividiendo la suma de cuadrados entre el número de observaciones total (n).

3.3.4 Varianza

También conocida como la varianza maestral se obtiene dividiendo la suma de diferencias entre (n-1) lo cual permite realizar estimados de muestras poblacionales y no de la población completa.


3.3.5 Desviación estándar

El problema con la varianza es que sus unidades se encuentran al cuadrado, por lo que es difícil relacionarla con la medida de tendencia media, en ese sentido lo más conveniente es obtener una raíz cuadrada que normaliza las unidades a una escala semejante a la medida de tendencia media. La desviación estándar en consecuencia es una de las medidas de dispersión más comunes.


3.3.6 Coeficiente de variación

Representa un valor estimado en frecuencia, fracción o porcentaje obtenido al dividir la desviación estándar entre el promedio, se puede expresar cono una frecuencia (16, 17) o como un porcentaje (18, 19). 



Referencias generales: (McDonald, 2015)

No hay comentarios:

Publicar un comentario