Cuando realizas una media, empleas algún tipo de instrumento de medición. Por ejemplo, puedes emplear un metro para medir una altura, una balanza para determinar un peso, o un termómetro para determinar una temperatura. Este proceso generalmente presenta dos problemas. El primero si el instrumento emplea un sistema de medición analógico, se requiere de entrenamiento para saber leer el instrumento, este problema se evita con un sistema de medida digital que siempre arroja valores claros. El siendo problema es que por lo general los valores medidos directamente deben ser empleados en cálculos matemáticos que no siempre arrojan números enteros. Para poder controlar la cantidad de decimales obtenidos en dichos cálculos se emplea una serie de reglas que se denominan en su conjunto como cifras significativas. Las cifras significativas son una serie de valores que portan un significado verdadero al interior del número. Antes de aprender a operar empleando las cifras significativas, es esencial aprender a reconocerlas en diferentes tipos de números. El aparato que empleamos para medir una determinada cantidad física es denominado instrumento de medición. Tal vez el instrumento de medición más simple de todos es la regla, pero no por eso, saber medir con una regla es algo intuitivo. Existen otros instrumentos de medida que pueden llegar a ser importantes al medir valores trascendentales en nuestra vida cotidiana como la temperatura, la humedad, la presión, la corriente eléctrica, el volumen de agua entre muchos otros.
En la filosofía de las ciencias de la naturaleza se tiene presente la diferencia entre el valor medido y el valor real. El valor medido siempre será una aproximación al valor real debido a la existencia intrínseca de errores observacionales o de medición, que dependen de la accesibilidad del fenómeno, la precisión del instrumento, y la precisión del operario. Los errores de medición pueden dividirse en dos categorías, los errores aleatorios y los errores sistemáticos (BIPM, IFCC, & IUPAC, 2008).
Los errores aleatorios son errores de medición que conllevan a valores que no son consistentes entre una repetición y otra aun cuando estamos midiendo magnitudes que se consideran constantes universales. Las causas de los errores aleatorios se desconocen u obedecen a fenómenos físicos que interactúan de forma homogénea con el experimento causado todo tipo de desviaciones al interior de un rango de precisión. Estos cambios pueden ocurrir en el instrumento de medida o en las condiciones ambientales (Taylor, 1997).
Algunas causas propuestas para los errores aleatorios es el ruido electrónico al interior de los circuitos electrónicos de los instrumentos digitales. Cambios irregulares en el flujo de calor de los instrumentos, que causa dilatación o contracción de las partes instrumentales, causando desviaciones entre una y otra medida que no pueden ser reguladas por medio de la calibración. Otra posibilidad es a cambios mínimos que hace el operario cada vez que manipula el instrumento, aun cuando se trate de un excelente operario siempre existirán alteraciones mínimas que afectan la dispersión de datos en cada repetición. Cabe anotar que este tipo de error no implica que el procedimiento experimental esté mal hecho, ellos siempre estarán presentes y por ende hay que buscar la forma de informar sobre estos errores en los informes de laboratorio.
El error aleatorio puede describirse en términos matemáticos empleando el modelo de normalidad de obtención de datos que se grafica por medio de la curva de Gauss y en consecuencia pueden ser analizados por instrumentos estadísticos como el promedio aritmético, la desviación estándar y otros estadísticos de inferencia. Los errores aleatorios estarán relacionados con el concepto de precisión. La precisión es la medida de respetabilidad de un fenómeno, un fenómeno que se repite de forma consistente en cada ronda experimental, es decir cuyos datos son concordantes cada vez que se experimenta es un dato preciso.
Los errores sistemáticos emergen de problemas de calibración del instrumental que siempre desvían los datos de manera consistente en una dirección específica de manera no azarosa. Este error sistemático se evalúa por medio de experimentos control donde se conoce el valor de la variable a medir, y se determina que tan cerca o lejos se está del dato conocido antes de abordar los datos no conocidos.
En la presente sección analizaremos algunos ejemplos para poder realizar el análisis de datos. Tenga en cuenta que los estadísticos aplicados se consideran herramientas o instrumentos de análisis, por lo que entre más automatizado sea el proceso mejor, por lo que realizaremos mucho énfasis en el uso de Excel para realizar las pruebas. A continuación, nos enfocaremos en identificar y cuantificar los errores sistemáticos que se asocia a la incertidumbre en la medición de los instrumentos.
Existen dos tipos de instrumentos, los instrumentos analógicos y los instrumentos digitales. Los instrumentos analógicos indican la magnitud medida mediante la comparación directa con la entidad física, que es el caso de las reglas o los transportadores, o mediante agujas que se mueven en torno a una determinada escala, que es el caso de los relojes de manecilla. Debido a que la escala es fija se puede tener dificultades cuando el valor queda en medio de los segmentos numerados de la escala. Esto hace necesario aproximar los valores dependiendo del instrumento que empleemos, lo cual hace que el valor decimal consignado no sea del todo preciso.
Un problema común con los instrumentos analógicos, y mucho más con aquellos cuya escala de medida está debajo de alguna superficie transparente, es que la luz se tuerce cuando atraviesa el material transparente, lo cual a su vez hace que veamos la raya de la medida donde no está realmente, este es denominado el error de Parallax. Por lo general se aconseja observar la escala desde un ángulo derecho, de esta forma si hay un error intrínseco a la observación, todos cometerán el mismo error y al menos todos estarán de acuerdo en ese mismo error. Algunos instrumentos profesionales como viejos multímetros caros emplean lupas para mejorar la visibilidad de la aguja. El límite de precisión de un instrumento analógico será exactamente igual a la mitad de su escala más pequeña. Esto implica que si la aguja o marca de medida nos queda por fuera de los segmentos de la escala más pequeña reportaremos el dato como si estuviera a la mitad, pero sabemos que no está a la mitad. Esto se conoce como intervalo de confianza, es decir, aunque expresemos el dato como la mitad de la escala más pequeña, inmediatamente adicionaremos a la derecha un valor de límites de confianza igual a la mitad de la escala más pequeña, sé que suena enredado, pero miremos el ejemplo de la regla. En la imagen vemos que la línea de marca queda en la zona no marcada por los milímetros, aunque no exactamente en el medio, si eso nos pasa lo reportamos como si estuviera en el medio 5.35 con un intervalo de confianza de ±0.05, de forma tal que el valor se expresa como 5.35±0.05 cm o 53.5±0.5 mm.
Los instrumentos digitales no tienen una escala prefijada, así que expresan sus resultados en magnitudes legibles directamente hasta su última cifra con significado de precisión. Esto hace que no sea necesario un entrenamiento previo para leer dicho instrumento, además muchos de ellos poseen menos partes móviles que los instrumentos analógicos, lo cual los hace más durables. Dado que hay menos error humano y de ingeniería en estos instrumentos, sus valores son mucho más confiables, pero el problema es que también son más costosos. Muchos de los instrumentos de la vida cotidiana o de un laboratorio escolar son instrumentos analógicos. A continuación, hablaremos de la medición con instrumentos simples.
A menos que en el empaque se diga otra cosa, el papel del último digito con significado ambiguo lo asume precisamente el último digito más pequeño. Por ejemplo, un reloj digital posee cifras para decenas de horas, horas, decenas de segundos, segundos, décimas de segundo y centésimas de segundo. En este caso las centésimas de segundo se convierten en la última cifra que determina el intervalo de confianza de la medida del tiempo. Por ejemplo, si medimos los reflejos de un estudiante como lo rápido que son capaces de detener el cronómetro cuando ven determinada marca, se debe reportar que el instrumento tiene un intervalo de confianza de ±0.1 cs. A este error lo llamaremos límite de precisión del instrumento.
6. Estadísticos descriptivos
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
Los estadísticos descriptivos describen cuantitativamente una serie de datos resumiendo comportamiento general. El enfoque de los estadísticos descriptivos es resumir una muestra, lo cual los diferencia de los esdísticos de inferencia que permiten juzgar el comportamiento de la población.
6.1. Tendencia central
La tendencia central resume donde se encuentra un punto medio en una colección de medidas. La media aritmética es la más común, pero existen otras variables de tendencia central que son útiles. Solo en el caso de que las variables se hayan medido de forma aleatorizada, en la cual no existen sesgos, algunas medidas de tendencia central se unifican en lo que conocemos como promedio.
6.1.1. Media aritmética o promedio simple
(a) Promedio de la muestra \(\overline{x}\): La media aritmética es lo que vulgarmente conocemos como promedio y es la medida de tenencia central más empleada. Aunque la definición típica del promedio se representa con una "x" con barra, es importante destacar que esta "x" puede ser reemplazada por cualquier otro parámetro físico: \[ \bar{x} = \frac{1}{n} \cdot \sum_{i=1}^{n} (x_i) \]. Eq 6.1. Definición del promedio aritmético, que normalmente se traduce a sume los elementos de la serie de datos y divida entre el número de datos. Su fórmula para Excel es [=promedio(celda-inicial:celda-final)].
En estas fórmulas \({x}_i\) representa la variable medida; \(\i\) representa la posición a reemplazar con las medinas (1, 2, 3 hasta la medida final llamada \(\n\)); \(\n\) representa la medida final o total de medidas tomadas en la muestra. El promedio es solo útil cuando trabajamos con poblaciones de datos que concuerdan con una distribución normal, y es muy insensible a los valores extremos, por lo que el promedio no nos dirá mucho sobre cómo se comportan los máximos y los mínimos. Para Excel \(\overline{x}\), la fórmula es:
(b) Promedio del universo o promedio verdadero \(\mu\): En estadística se suele diferenciar entre dos tipos de promedios aritméticos, el promedio del universo o toda la población completa que se simboliza como \(\mu\) y el promedio de una muestra de ese universo que si tiene el símbolo más común x-barra \(\overline{x}\). La principal diferencia en las ecuaciones radica en el número de elementos, para la población completa se emplea el símbolo \(N\) que representa la totalidad del universo, mientras que \(\mu\) representa solo una fracción o muestra. \[ \mu = \frac{1}{N} \cdot \sum_{i=1}^{n} (x_i) \]Eq 6.2. Definición del promedio aritmético, que normalmente se traduce a sume los elementos de la serie de datos y divida entre el número total de elementos en el universo de datos.
(c) Media geométrica: tiene algunas aplicaciones en economía, involucrando las tasas de interés, pero tiene raras aplicaciones en la biología. Su fórmula es la siguiente: \[ \bar{x} = \frac{1}{n} \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}} \]Eq 6.3. Definición del promedio geométrico, que normalmente se traduce a multiplique los elementos de la serie de datos, poténcienlos a un valor igual a 1/n y divida entre el número total de elementos en el universo de datos n. Su fórmula en Excel es [=media.geom(celda-inicial:celda-final)]
6.1.2. Media harmónica
La media harmónica tiende a presentar errores o valores de dispersión menores, sin embargo, cuando hay un valor en cero se vuelve no-definida matemáticamente. No es muy empleada en la biología: \[ H = \frac{n}{\left( \frac{1}{x_1} + \frac{1}{x_2} + \ldots + \frac{1}{x_n} \right)} = \frac{n}{\sum_{i=1}^{n} \left( \frac{1}{x_i} \right)} \]Eq 6.4. Definición de la media armónica, su fórmula en Excel es [=mesia.armo(celda-inicial:celda-final)]
La media armónica \(H\) es útil y apropiada en situaciones en las que se trata con datos que representan tasas, ratios o proporciones. A diferencia de la media aritmética, que da igual peso a todos los valores, la media armónica da más peso a los valores más pequeños en el conjunto de datos. Por lo tanto, es especialmente útil en los siguientes casos:
(a) Velocidades y tasas: La media armónica se utiliza con frecuencia para calcular velocidades promedio, tasas de flujo o rendimientos cuando se trata de datos que involucran tiempo y distancia. Por ejemplo, para calcular la velocidad promedio de un viaje cuando la distancia es constante pero el tiempo varía.
(b) Problemas de trabajo conjunto: En problemas que involucran el trabajo conjunto de varias personas o máquinas, la media armónica se utiliza para calcular el rendimiento conjunto. Se aplica cuando la velocidad o la tasa de trabajo de cada componente son factores importantes.
(c) Finanzas y economía: En el campo de las finanzas y la economía, la media armónica se utiliza en cálculos relacionados con índices, tasas de retorno y ratios financieros.
(d) Problemas de inversión y negocios: En situaciones en las que se evalúan inversiones o se analizan ratios financieros, la media armónica puede ser relevante.
6.1.3. Mediana
La mediana se define como el punto medio de una serie de datos organizados por rango, desde el menor al mayor. Para una serie impar se elige el número en medio y para una serie par se obtiene suma y divide entre dos a los dos dígitos del punto medio: \[ \tilde{x} = \begin{cases}
x_{\left(\frac{n+1}{2}\right)} & \text{si } n \text{ es impar} \\
\frac{1}{2} \left( x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)} \right) & \text{si } n \text{ es par}
\end{cases}
\]Eq 6.5. Definición de la mediana, su fórmula en Excel es [=mediana(celda-inicial:celda-final)]
La mediana es una medida estadística que se utiliza en diversas situaciones para resumir y analizar datos. A continuación, se describen algunos de los usos más comunes de la mediana:
(a) Resumen de datos centrados: La mediana se utiliza para resumir un conjunto de datos al proporcionar un valor central o típico. A diferencia de la media aritmética, que puede verse afectada por valores extremos (outliers), la mediana es menos sensible a estos valores atípicos y, por lo tanto, a menudo proporciona una mejor representación de la tendencia central de los datos.
(b) Distribuciones sesgadas: Cuando se trabaja con distribuciones sesgadas o asimétricas, la mediana puede ser una medida más representativa de la ubicación central de los datos que la media. Esto es especialmente útil en estadísticas aplicadas a campos como la economía, donde las distribuciones pueden ser sesgadas.
(c) Ordenación y clasificación: La mediana se utiliza comúnmente para ordenar y clasificar datos. Por ejemplo, en la estadística de salud, se utiliza para clasificar pacientes según su edad, ingresos o tiempo de recuperación.
(d) Datos ordinales: En casos en los que los datos son ordinales o no tienen una escala de intervalo o razón, la mediana es una medida apropiada para describir la tendencia central. Esto es común en encuestas de opinión, donde las respuestas se pueden ordenar, pero no se pueden tratar como valores numéricos precisos.
(e) Comparación de distribuciones: La mediana se utiliza para comparar y contrastar diferentes distribuciones de datos. Puede ayudar a identificar si una distribución está desplazada hacia la izquierda o hacia la derecha en comparación con otra.
(f) Datos agrupados: Cuando se trabaja con datos agrupados en intervalos, la mediana es una medida útil para estimar la ubicación central de los datos.
(g) Robustez frente a valores atípicos: La mediana es una medida resistente a valores atípicos, lo que significa que no se ve afectada en gran medida por valores extremos en el conjunto de datos. Esto la hace valiosa en situaciones donde la presencia de valores atípicos podría distorsionar la media.
6.1.4. Moda
La moda es una función de valor medio que aplica a una serie de variables categóricas, en la cual se expresa como el valor que es más común de encontrar. Las variables continuas no poseen una moda como tal, y para obtenerla hay que redondear los valores continuos a categorías discretas [=moda(celda-inicial:celda-final)].
6.2. Normalidad
Si bien cuando se tiene un solo set de números aleatorios, la probabilidad de que cualquiera aparezca es la misma, cuando vas aumentando la cantidad de variables aleatorias, la curva deja de ser una línea horizontal recta, sino que aparece una tendencia central llamada curva de Gauss, en la que el pico representa el valor más probable asumiendo un sistema aleatorio con muchas variables involucradas. Las curvas gaussianas son simétricas y por eso también se las denomina campanas de gauss. Cuando tenemos una serie de datos con algún sesgo las tres medidas de tendencia central son muy distintas y en términos prácticos la única medianamente útil seria la moda. Por otro lado, una distribución simétrica arrojará valores iguales entre moda, media y mediana, en ese sentido la curva de gauss cumple tal condición, pero no es la única. Sin embargo, el promedio es muy fácil de obtener, sobre todo en hojas de cálculo como Excel donde solo debes colocar [=promedio(celda-inicial:celda-final)].
Figura 6.1. En la gráfica anterior tenemos dos curvas, una curva con sesgo a la derecha en líneas segmentadas y una gaussiana completamente simétrica.
Por tal razón uno de los primeros pasos antes de analizar una serie de datos es corroborar que estos se distribuyan aleatoriamente, es decir, mediante pruebas de normalidad. Martinez (2014) nos muestra una serie de herramientas en Excel que nos permitirá corroborar la normalidad de una serie de datos antes de ponernos a aplicar estadísticos que requieran de una serie de datos normal (YouTube 1 / YouTube 2 / YouTube 3):
6.3. Dispersión
Los estadísticos de dispersión nos permiten determinar qué tan cerca se encuentran los valores reales del valor de tendencia central. Por lo general el más común de estos es la desviación estándar, pero existen otros.
6.3.1. Rango
El rango representa la diferencia entre el valor más alto y el valor más pequeño de una serie de datos. El rango no es muy informativo para propósitos estadísticos, ya que no te dice cómo es que se distribuyen los datos individuales al interior del rango:\[\Delta r=r_{max}- r_{min}\]. Eq 6.6. Definición del rango de datos, su fórmula en Excel es [=MAX(celdas de la serie de datos) - MIN(celdas de la serie de datos)].
La diferencia aquí es específica, el rango de un conjunto de datos es el resultado de restar el valor más pequeño del valor más grande. Sin embargo, en estadística descriptiva, este concepto de rango tiene un significado más complejo. El rango es el tamaño del intervalo más pequeño (estadísticas) que contiene todos los datos y proporciona una indicación de dispersión estadística. Se mide en las mismas unidades que los datos. Como solo depende de dos de las observaciones, es más útil para representar la dispersión de pequeños conjuntos de datos o para determinar la escala de una gráfica.
6.3.2. Error absoluto y error relativo
El error absoluto nos da una medida de la desviación, en términos absolutos, respecto al valor “verdadero”. No obstante, en ocasiones nos interesa resaltar la importancia relativa de esa desviación. Para tal fin, se usa el error relativo. Podemos calcular el error absoluto como la distancia entre un dato o un promedio con respecto al valor verdadero. El error relativo se define como el cociente entre el error absoluto y el valor “verdadero”.
\[ E = |\mu - \bar{x}| \]
|
Eq 6.7. Error absoluto.
|
\[ \epsilon = \frac{|\mu - \bar{x}|}{\mu} \]
|
Eq 6.8. Error relativo.
|
6.3.3. Suma de diferencias al cuadrado
La suma de cuadrados \(dc\) no es un estadístico por sí mismo, pero forma la base de otros como la varianza o la desviación estándar. La suma de cuadrados permite acumular las desviaciones de una serie de datos con respecto al promedio, omitiendo su direccionalidad, de esta forma se pueden incorporar datos positivos o negativos en un mismo sistema de acumulación. \[ dc = (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2 = \sum_{i=1}^{n} (x_i - \bar{x})^2 \]Eq 6.9. Suma de diferencias cuadráticas.
6.3.4. Varianza
Es una de las medidas de desviación con respecto a la tendencia central más empleadas, sin embargo, hay que tener cuidado en diferenciar dos conceptos, la varianza de toda la población o universo llamada varianza paramétrica; y la varianza de una muestra.
6.3.4.1. Varianza paramétrica
La variaba paramétrica emplea únicamente cuando se obtiene un muestreo de \(N\) completo, lo cual implica determinar la propiedad de medida de todos los miembros de una población, lo cual generalmente no es el caso. La varianza paramétrica se obtiene dividiendo la suma de cuadrados entre el número de observaciones total \(N\).\[ \sigma^2 = \frac{dc}{N} \] Eq 6.10. Varianza paramétrica, su fórmula en Excel es [=var.p((celda inicial:celda final)) ]
6.3.4.2. Varianza de una muestra
También conocida como la varianza maestral se obtiene dividiendo la suma de diferencias entre \(n – 1\) lo cual permite realizar estimados de muestras poblacionales y no de la población completa. \).\[ \sigma^2 = \frac{dc}{n-1} \] Eq 6.11. Varianza de una muestra su fórmula en Excel es [=var.s((celda inicial:celda final)) ]
6.3.5. Desviación estándar
El problema con la varianza es que sus unidades se encuentran al cuadrado, por lo que es difícil relacionarla con la medida de tendencia media, en ese sentido lo más conveniente es obtener una raíz cuadrada que normaliza las unidades a una escala semejante a la medida de tendencia media. La desviación estándar en consecuencia es una de las medidas de dispersión más comunes y se divide en dos categorías.
\[ \sigma = \sqrt{\frac{dc}{N}} \]
|
Eq 6.12. Desviación estándar de la población su fórmula en Excel es [=desvestp((celda inicial:celda final)) ]
|
\[ s = \sqrt{\frac{dc}{n-1}} \]
|
Eq 6.13. Desviación estándar de la muestra su fórmula en Excel es [=desvest((celda inicial:celda final)) ]
|
6.3.6. Coeficiente de variación
El coeficiente de variación \(cv\) es un parámetro estadístico que se utiliza para evaluar la variabilidad relativa en un conjunto de datos. Se calcula dividiendo la desviación estándar de una muestra por el promedio aritmético de la misma muestra. En términos de fórmula, se expresa como:\[cv=\frac{\sigma}{\overline{x}}\]Eq 6.14. Coeficiente de variación.
La asignación de categorías a los niveles de coeficiente de variación (CV) puede variar según el contexto y las convenciones específicas de la disciplina en la que se aplique. Sin embargo, aquí hay una guía general que puede ayudarte a interpretar el CV:
\(cv\) menor al 5%: Muy bajo, indicando una alta consistencia y previsibilidad en los datos, es decir un alto nivel de presición.
\(cv\) menor al 10%: Generalmente se considera bajo y sugiere una baja variabilidad relativa en los datos.
\(cv\) entre 10% y 30%: Es un rango moderado y sugiere una variabilidad moderada en los datos en relación con el promedio aritmético. Esto es común y aceptable en muchas aplicaciones.
\(cv\) mayor que 10% y 30%: indica una alta variabilidad relativa en los datos en comparación con el promedio aritmético. Los datos son menos consistentes y más dispersos.
Estos son solo rangos generales y pueden variar según la disciplina y los estándares específicos. Es importante considerar el contexto en el que se aplica el coeficiente de variación y los objetivos del análisis de datos. Por ejemplo, en ciertos campos, un \(cv\) del 20% puede considerarse alto, mientras que en otros campos puede considerarse aceptable. La interpretación del \(cv\) se basa en las necesidades y estándares de la aplicación específica.
El coeficiente de variación se expresa típicamente como un valor porcentual, multiplicando el resultado por 100 para obtener el porcentaje. Este valor permite expresar la variabilidad relativa en términos porcentuales.
El \(cv\) se utiliza comúnmente en diversas áreas, como la ciencia, la economía, la investigación de mercado y la ingeniería, para comparar la dispersión o variabilidad en diferentes conjuntos de datos. Algunos usos típicos del coeficiente de variación incluyen:
(a) Comparación de la variabilidad: Permite comparar la dispersión relativa de datos en diferentes conjuntos, lo que es especialmente útil cuando los conjuntos de datos tienen diferentes unidades de medida o escalas.
(b) Evaluación de la estabilidad: Ayuda a determinar cuán estables o consistentes son los datos a lo largo del tiempo. Un \(cv\) bajo sugiere que los datos tienden a ser más consistentes, mientras que un \(cv\) alto indica mayor variabilidad.
(c) Selección de variables: En análisis de datos y modelado estadístico, el \(cv\) puede ayudar a seleccionar variables o características que tienen un impacto relativamente constante en comparación con otras.
(d) Comparación de rendimiento: En la investigación de mercado y la evaluación de productos, se utiliza para comparar la variabilidad de las respuestas de diferentes grupos de muestra.
7. Incertidumbre e intervalos de confianza
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Anova de dos factores] [13 Regresión lineal] [Referencias]
El objeto de un intervalo de confianza es que dados datos limitados de una muestra se obtenga un estimado que contenga al promedio de la población y en intervalo de variación o incertidumbre debido a factores azarosos como el operario o factores microambientales que se escapan del control del diseño experimental y que no se deben a la incertidumbre propia del instrumento experimental.
7.1. Midiendo la dispersión
En general se emplea la desviación estándar del siguiente modo: La fórmula \(\mu \pm \sigma \) es el intervalo de confianza para toda la población o universo de estudio, mientras que \(\overline{x} \pm \sigma s \)es el intervalo de confianza para la muestra estudiada, recuerde que los significados de estos símbolos se encuentra en la sección de estadísticos descriptivos.
7.2. Comparando con respecto a algún valor teórico
Existen otros intervalos de confianza que no buscan medir la dispersión, sino ver que tan probable es que un valor dado \(\mu\) se encuentre dentro del rango de nuestro intervalo. Por ejemplo, si fabricamos un objeto con una medida teórica que en el papel debe tener todos los objetos, ese valor teórico será el \(\mu\). Luego, por medio de una muestra pequeña mediremos objetos reales y el promedio de esa muestra \(\overline{x}\) se comparará contra el \(\mu\) por medio de un intervalo de confianza.
7.2.1. Prueba de hipótesis
👉 Hipótesis nula: \(\mu\) se encuentra dentro del rango del intervalo de confianza construido por medio de técnicas estadísticas y una muestra.
👉 Hipótesis alternativa: \(\mu\) no se encuentra dentro del rango del intervalo de confianza construido por medio de técnicas estadísticas y una muestra.
7.2.2. Estadístico Z
El estadístico \(Z\) (25) se emplea cuando se conoce la desviación estándar de la población completa \(sigma\) y el número de individuos de la población completa \(N\), de forma tal que el error estándar ±\(\epsilon^o\) adquiere la forma que describe la población completa de datos. \[ \pm \epsilon^o = \pm Z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{N}} \].Eq 7.1. Definición del error estándar ±\(\epsilon^o\) con el estadístico \(Z\).
El problema es que es improbable que conozcamos a \(\sigma\) y que podamos contar a todos los individuos de la población \(N\), si estamos hablando de una población de leones, estaríamos hablando de una medida en todos los leones del universo. Dado que un investigador tiene recursos limitados, no puede ni controlar ni medir todo el conjunto de datos posibles, por lo que debe elegir una muestra representativa de la población, la pregunta es ¿entonces no puede usarse el estadístico \(Z\)? En realidad, no, sin embargo, hay que realizar una aproximación que se traducirá a tener una población grande. El problema es definir qué tan grande. Sí la población sumara las 30 mediciones se dice que es suficientemente grande para emplear el estadístico \(Z\), de forma tal que la desviación estándar de la muestra será lo suficientemente grande para aproximarse significativamente a la desviación estándar de la población.
Ejemplo. Si la muestra es de 30 \(n= 30 \) entonces \( \sigma \approx s \); \( N \approx m \); y \( \overline{x} \approx \mu \), por lo tanto, en términos prácticos la ecuación queda como \[ \pm \epsilon^o = \pm Z_{\frac{\alpha}{2}} \cdot \frac{s}{\sqrt{n}} \].Eq 7.2. Definición del error estándar ±\(\epsilon^o\) con el estadístico \(Z\).
Y el intervalo de confianza se calcula como \(\overline{x}\pm \epsilon^o \). Ahora el problema se traslada a la estimación del valor \(Z(\alpha/2)\). Para hacerlo tenemos dos opciones principales, buscar el valor en una tabla, que normalmente traen los libros de texto de estadística; o generarla en Excel.
(a) Valor \(Z\) en una tabla: La tabla \(Z\) que debemos emplear y las que encontramos difieren, de hecho, existen tres tablas de la \(Z\). La que debemos emplear se denomina “Cumulative from mean (0 to \(Z\))” o acumulación desde la \(Z\) desde 0 hasta \(Z\). Si no tiene el nombre se reconoce porque su esquema de normalidad sombrea desde 0 hasta \(Z\). La forma en que buscamos en esta tabla difiere fuertemente del uso de otras tablas. En otras tablas buscas en la primera fila y la primera columna para encontrar un valor en el “relleno” de la tabla.
Figura 11‑1. Esquema de normalidad asociado a la tabla Z.
Aquí es, al contrario, debemos encontrar el valor en el relleno de la tabla inicialmente. El relleno de la tabla posee una gran variedad de valores que conocemos colectivamente como alfa medios \(\alpha/2\). Alfa medios \(\alpha/2\) se calcula a través del alfa porcentual con la siguiente fórmula. \[(\alpha/2)_ \% =\frac{\alpha}{200%}\] Eq 7.3. definición del alfa crítico.
Ejemplo: Recuerde que en esta fórmula empleamos valores de alfa como 95% o 99%, de lo contrario hay que hacerle modificaciones. Para un alfa del 95%, alfa medios vale 0.475: \[(\alpha / 2)_ {95\%} =\frac{95%}{200%}=0.475\]
Tabla 7.1. Tabla de distribución Z.
Por lo que procedemos a buscarlo en el relleno de la tabla \(Z\) (Tabla 1). Una vez encontramos alfa medios en la tabla debemos “armar” el valor Z correspondiente mirando la primera fila y la primera columna. En la primera columna nos dan los primeros dos dígitos del valor de \(Z\), y en la primera fila el tercer dígito. En el ejemplo anterior la primera columna nos dio 1.9 y la primera fila +0.06 por lo que \(Z_{\alpha/2}=1.96\)
(b) Valor Z en Excel: A veces es más fácil contar con Excel, especialmente cuando ya has terminado tus cursos de estadística y arrojado las tablas físicas a la basura. La ventaja de Excel es que nos arrojará el valor de Z a un alfa que deseemos. \(Z_{\alpha/2}\) =-distr.norm.estand.inv((100-alfa)/200).
(c) Interpretación: El error estándar de la prueba \(Z\) nos ayuda a determinar en medio de que valores de medición se encuentra el promedio real del universo μ sin tener que medir todo el universo de variables. Esto es útil cuando estas comparando su muestra experimental con respecto a un valor teórico o estandarizado con otros métodos. Si μ es un valor al interior del intervalo de confianza, podremos decir que el promedio medible es igual al promedio que debería tener con un nivel de confianza del 95%. ¿Cuál es la gracia? No hace falta medir todos los objetos fabricados. Sólo necesitas coger una muestra pequeñita de más de 30. Calculas la media y la desviación estándar de la muestra y sabrás dónde estará la media del universo μ de todos los objetos con un 95% de posibilidades.
7.2.3. Estadístico t
El estadístico t se emplea cuando no se conoce la desviación estándar de la población “pero si se conoce la desviación estándar de la muestra”. En este orden de ideas el error estándar toma la siguiente forma: \[ \pm \epsilon^o = \pm t_\alpha \cdot \frac{s}{\sqrt{n}} \] Eq 7.4. Ecuación del error estándar empleando el estadístico t de student.
En la práctica diremos que no conocemos la desviación estándar de la población cuando no es adecuado aproximar la desviación de la población y de la muestra. ¿Cómo reconocerlo dicho punto? Pues cuando el tamaño de la muestra sea inferir a 30 repeticiones. Debido a que muchos experimentos hacen incluso menos de 10 repeticiones, siendo 3 uno de los valores más empleados, el intervalo de confianza más empleando se genera con el estadístico \(t\) de student.
(a) Valor \(t\) de una tabla: La tabla \(t\) de Student se usa normalmente, en la primera fila se identifica el punto crítico alfa que normalmente sería 95%/0.05 y en la primera columna se busca el valor igual al \(n – 1\) que siempre será menor a 30, luego en la intersección se obtiene la \(t\) crítica.
Tabla 7.2. Tabla de distribución t.
Por ejemplo, si tenemos una probabilidad del 95% y 11 réplicas, buscaremos en la columna (100%-95%=0.05%) y en la columna 11-1=10 (Tabla 7.2), siendo el valor igual a 1.8125. Para calcular el \(t_{\alpha} en Excel aplicaremos [=inv.t(alfa/100;n-1]. Referencias generales: (McDonald, 2015)
(b) Prueba \(t\) para una muestra de más del 5%: La distribución t supone que la población está distribuida normalmente. Esta suposición es particularmente importante para \(n\) menor que 30. Pero cuando la población es finita (\(N\) es conocido) y el tamaño de la muestra constituye más del 5% de la población, se debe usar el factor finito de corrección para modificar las desviaciones estándar. Por lo tanto, si cumple:\[\frac{n}{N} \cdot 100% < 5%\] Eq 7.4. Prueba para establecer si se debe cambiar la definición del error estándar empleando el estadístico \(t\).
Siendo \(N\) el tamaño de la población y \(n\) el tamaño de la muestra, la fórmula para construir el intervalo de confianza cambia a: \[ \pm \epsilon^o = \pm t_\alpha \cdot \frac{s}{\sqrt{n}} \cdot \sqrt{\frac{N - n}{N - 1}} \]Eq 7.5. Fórmula para calcular un intervalo de confianza ajustado para poblaciones finitas.
(c) Interpretación: Los intervalos de confianza cumplen la misma función que los construidos con el estadístico \(Z\), nos permiten comparar el rango del intervalo con posibles promedios reales \(\mu\). Así pues, si el valor teórico/real se encuentra dentro del rango del intervalo, se concluye que \(\mu\) puede ser el promedio de la población total o universo, medida a través de una muestra pequeña.
8. Introducción a la probabilidad
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
Resulta extraño como la gente niega la presencia del azar en la biología cuando este se inmiscuye a tantos niveles y procesos. Y eso es lo que nos trae el día de hoy a este tema. Mendel describió sus resultados en términos del azar y su medida por medio de probabilidades. En otras palabras, el funcionamiento matemático de la genética de Mendel toma en cuenta fenómenos azarosos. Por lo anterior, para matematizar correctamente el trabajo básico de los genetistas y biólogos evolutivos, primero conoceremos las definiciones básicas de azar, probabilidad y estadística, y luego procederemos a repasar las herramientas matemáticas básicas empleando un modelo experimental. El estudio de las probabilidades abarca tres definiciones fundamentales:
Azar: Falta de predictibilidad de un evento dado a partir de una variedad de eventos posibles.
Probabilidad: Una medida de que un evento aleatorio se dé, o no se dé. Las probabilidades tienen diferentes modos de expresión matemático, pero los casos comunes son: radios, fracciones, frecuencias y porcentajes.
Estadística: Es la rama de las matemáticas que se encarga del estudio de las probabilidades y del azar. Porque como siempre digo, el azar no es un chiste cósmico, el azar puede ser descrito hasta cierto punto de manera matemática.
La probabilidad es un tema implícito a la hora de estudiar la genética clásica. Antes que nada, es importante resaltar que, aunque la mayoría de los conceptos biológicos en los exámenes de estado no necesitan ser memorizados ya que aparecen en textos de apoyo, en otras palabras, para encontrar la respuesta solo hay que leer analíticamente, pero en la genética no sucede lo mismo. En los exámenes de estado aparecen ejercicios de genética clásica y se asume que el estudiante es capaz de resolver estos ejercicios sin la necesidad de una calculadora. Para esto es necesario que el estudiante sepa manipular números fraccionarios.
8.1. Modelos estadísticos básicos.
Debido a que históricamente la estadística se diseñó para ser aplicada a los juegos de azar por algunos tahúres y ludópatas que casualmente resultaron ser matemáticos, emplearemos primero los modelos de la moneda y el dado para entender algunos conceptos clave de la estadística. De hecho, es más que evidente que los primeros estudiosos de la estadística debieron aplicar sus conclusiones a los juegos de azar que empleaban dados. Existen varios tipos de dados, por ejemplo los de 4 caras (Figura 8.1 amarillo), los de 6 caras (normal), los de 8 caras (F Figura 8.1 negro), los de 12 caras (Figura 8.1 azul) y los de 100 caras. A medida que se incrementa la cantidad de caras, el sistema de estudio se hace más complejo. Otra forma de hacer más complejo el sistema de estudio es analizando tiradas simultáneas de dos o más dados.
Figura 8.1. La moneda y los dados son los modelos de trabajo más simples para iniciar nuestro estudio de la probabilidad.
8.2. Categorías
La probabilidad depende de poder identificar una categoría dada \(i\) entre el total de categorías. Matemáticamente se expresa del siguiente modo: \[ N = \sum_{i=1}^{n} n_i = n_1 + n_2 + \ldots + n_{\text{final}} \]Eq 8.1. Definición del número de entidades total.
Donde \(N\) representa el total de categorías sin distinción que pueden o no aparecer. Por ejemplo, para un dado de 6 caras, el total de caras es de 6, por lo tanto, su \(N\) = 6; para un nado de 12 caras tendremos un \(N\) =12. El valor \(N\) es por lo tanto la suma de todas las categorías, desde la inicial, hasta la final. Por otro lado, cata categoría tendrá un número de repeticiones propio \(n_i\), donde el símbolo (\(i\) indica la categoría concreta. Por ejemplo, la cantidad de caras 3 en un dado de 6 caras será de \(n(cara III)\) =1, porque normalmente un dado solo tiene una cara 3 pintada. ¿Qué pasa si en un dado de 6 caras hay dos caras pintadas con la marca 3? La respuesta es que su valor cambiará a \(n(cara III)\) =2.
8.3. Expresando una probabilidad
Las probabilidades se simbolizan analíticamente con el símbolo \(P\) mayúscula en cursiva y se emplean subíndices para indicar el símbolo de categoría de evento que está ocurriendo \(P_{i}\) o \(P(i)\). Numéricamente una probabilidad es el producto de la división de un número de eventos de una categoría \(n_{i}\) entre el número total de eventos de todas las categorías posibles:\[P_i = \frac{n_i}{N}\]Eq 8.2. Definición fundamental de la probabilidad experimental.
La expresión anterior tiene varias formas de expresarse, siendo estas:
8.3.1. Radios, tasas, proporciones o razones
Son relaciones entre dos o más números que indica cuántas veces el primer número contiene el segundo, o más números. Por ejemplo, si un tazón de fruta contiene ocho naranjas y seis limones, entonces la proporción de naranjas a limones es de ocho a seis (es decir, 8∶6, que es equivalente a la proporción 4∶3). Del mismo modo, la proporción de limones a naranjas es 6∶8 (o 3∶4) y la proporción de naranjas a la cantidad total de fruta es 8∶14 (o 4∶7). Los números en una relación pueden ser cantidades de cualquier tipo, como conteos de personas u objetos, o como medidas de longitudes, pesos, tiempo, etc. En la mayoría de los contextos, ambos números están restringidos a ser positivos y adimencionales. La proporción o radio generalmente se expresa en términos de las categorías que componen al sistema, y no en términos del total
8.3.2. Frecuencias fraccionarias
La fracción es un modo de expresar la probabilidad basada en su definición como Eq 8.2, recuerde que toda fracción es básicamente una división. La ventaja de expresar fracciones como divisiones es que es más fácil hacer operaciones.
8.3.3. Frecuencias decimales
Cuando se resuelve la división de una fracción obtenemos valores menores a 1 y mayores de 0, que se expresan como un valor decimal. Un evento \(i\) será más probable en cuanto más cercano sea de 1 y más improbable cuanto más se acerque a 0.
8.3.4. Porcentaje
La expresión de una frecuencia suele ser difícil de interpretar para la mayoría de las personas. Por lo tanto, es común utilizar la analogía de imaginar 100 oportunidades para comprender cuántas veces se repetirá una determinada categoría de cada 100 conteos. Es importante recordar que el símbolo '%' equivale a 10-2, lo que significa que al multiplicar por 100 %, en realidad estamos multiplicando por 1. En otras palabras, al expresar un parámetro en términos porcentuales, no se altera su identidad matemática; simplemente estamos cambiando la forma en que se visualiza el número, de manera similar a cuando se utilizan notaciones científicas.
8.4. Probabilidades teóricas y experimentales
Para distinguir entre probabilidades teóricas y experimentales, utilizaremos la notación estándar con el superíndice "o". Cualquier parámetro afectado por la notación "o" se considerará teórico, mientras que cualquier parámetro sin esta marca será experimental. Esto evita la necesidad constante de utilizar subíndices como "teo" y "exp". Así la probabilidad teórica \(P^o_i\), el número total teórico \(N^o\) y el número de elementos en una categoría i-ésima teórica \(n^o_i\) serán se distinguirán de sus equivalentes probabilidad experimental \(P_i\), el número total experimental \(N\) y el número de elementos en una categoría i-ésima experimentales \(N_i\).
Existe cierta ambigüedad en un parámetro \(n^o_i\), ya que a veces puede calcularse empleando \(N_i\) que se espera sea el valor experimental, en lugar del \(N^o\). Por ejemplo, para un dado de 4 caras \(N^o\) = 4 y \(n^o_i\)=1, pero ¿cual será el número de veces que aparezca una cara si se lanzan 1000 dados de 4 caras? En tal caso deberemos aplicar:\[ n^o_i = P^o_i \cdot N \]Eq 8.3 número de veces que se espera aparezca un evento i-ésimo en un número total de eventos.
8.5. Interpretación de la probabilidad
Tenga en cuenta que el hecho de que una probabilidad sea muy baja, no implica que el evento de categoría \(i\) sea imposible de encontrarse, pues la probabilidad y el conteo de ocurrencia del evento son categorías matemáticas diferentes como precisamente se ve en la ecuación 8.3. El número de veces que debe ocurrir un evento \(n^o_i\) no solo depende de la probabilidad \(P^o_i\) sino también del número de veces que el sistema cambia \(N\), en consecuencia, aun eventos que sean altamente improbables ocurrirán si el sistema cambia un número muy elevado de veces. En otras palabras, que un evento sea improbable no implica que sea imposible, solo implica que ocurrirá pocas veces y que se debe intentar mucho para conseguirlo.
9. Comparando variables categóricas
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
Las pruebas para variables categóricas, discretas o no continuas se emplean para comparar dos series de datos. Dependiendo de la naturaleza de las series de datos se las clasifica como de concordancia o de independencia. En una prueba de concordancia una serie de datos será experimental y la otra serie será teórica, por lo que la hipótesis se relaciona a si la serie de datos experimentales concuerdan con la serie de datos teórica. En una prueba de independencia tenemos dos series de datos teóricas y el objetivo es determinar si los conjuntos de datos son semejantes o diferentes. Debido a que planteamos este capítulo como aplicado a la biología, no nos detendremos demasiado en la teoría o fundamento matemático de estas pruebas, sino en su modo de uso. Recuerde que las variables categóricas son aquellas en las que las categorías medidas no superan los 6. Por ejemplo, en los sistemas mendelianos monohíbridos tenemos 2 categorías fenotípicas en los dihíbridos 4 categorías fenotípicas.
Analizaremos pues un ejemplo para un sistema de cuatro categorías: Sea el caso de un sistema dihíbrido con 4 categorías vinculadas llamadas 1, 2, 3 y 4. Que cumplen las siguientes condiciones: La probabilidad total es igual a 1 e igual a la suma de todas las categorías del sistema \(P=\Sigma P_i=P_1+ P_2+...+ P_n\); El número total de entidades es igual a la suma de cada entidad \(N=\Sigma n_i=n_1+ n_2+...+ n_n\). ¿La pregunta aquí es cómo podemos hacer la comparación?
Para poder comprar una serie de probabilidades teóricas con una serie de conteos experiméntales, es necesario tener en cuenta que la comparación solo se puede llevar a cabo entre variables de un mismo tipo. Por ejemplo, solo podríamos comprar probabilidades teóricas con probabilidades experimentales; O conteos teóricos contra conteos experiméntales. Lo que no podemos hacer es, comparar probabilidades contra conteos. Así pues, nuestra primera labor es homogeneizar las variables. La estraga más común es convertir las probabilidades teóricas en conteos teóricos. Para ello vamos a necesitar el número total de conteos experiméntales y aplicar la siguiente formula :\( n^o_i = P^o_i \cdot N \). Una vez convertidas las probabilidades teóricas a números de contenidos teóricos podemos expresar los resultados entablas o en gráficas.
9.1. Tabla de conversiones
La Tabla 3 nos permite visualizar el proceso de conversión, En la primera columna tenemos las probabilidades teóricas, Y en la segunda columna el número de conteos experiméntales para cada una de las 4 categorías. Con eso lo primero que debemos hacer es, sumar todos los conteos experiméntales para obtener el total de conteos experiméntales que en este caso es 501. Con este valor podemos calcular la tercera columna, en este caso multiplicando este total por cada una de las probabilidades teóricas. El resultado de la multiplicación son los conteos teóricos o esperados.
Tabla 9.1. Tabla de conversión de probabilidades teóricas a conteos teóricos empleando el número total de conteos experimentales.
Categorías
|
Probabilidades teóricas
\(P^o_i\)
|
Conteos experimentales
\(n_i\)
|
Conteos teóricos
\(n^o_i\)
|
1
|
9/16
|
285
|
281,8125
|
2
|
3/16
|
92
|
93,9375
|
3
|
3/16
|
97
|
93,9375
|
4
|
1/16
|
27
|
31,3125
|
Totales
|
\(P^o\) = 16/16
|
\(N\) = 501
|
501
|
9.2. Gráfico de columnas
Empleando los datos de conteos experiméntales y conteos teóricos de la tabla anterior podemos graficar los resultados en una figura de barras. Para ellos nos valdremos de la función de Excel para gráfica de barras cuyo resultado pueden ver en:
Figura 8.1. Comparación del número de semillas amarillas-lisas (1), verdes-lisas (2), amarillas-rugosas (3) y verdes-rugosas (4) en un cruce mendeliano a nivel de teóricos y experimentales.
Cómo podemos ver la tendencia de ambas series es semejante, aunque hay leves diferencias. La pregunta realmente consiste es ¿hasta qué punto podemos tolerar las diferencias entre las series experiméntales las series teóricas? Para resolver esa pregunta se han desarrollado una serie de metodologías estadísticas, de las cuáles la única que consideraremos numéricamente es la chi cuadrado de Pearson.
9.3. Chi cuadrado
La chi cuadrado es una prueba de hipótesis entre dos sistemas numéricos, generalmente la usamos en genética para corroborar si un sistema de números corresponde a algún modelo matemático y en tal caso se hablaría de una prueba de concordancia.
9.3.1. Hipótesis y fórmulas
El término "hipótesis nula" fue introducido por Jerzy Neyman y Egon Pearson en la década de 1920, aunque Fisher desempeñó un papel importante en su desarrollo y promoción. La razón detrás del término "hipótesis nula" es principalmente histórica y conceptual. Aquí hay algunas consideraciones:
La hipótesis nula se plantea como una afirmación que se espera que sea falsa o que no haya un efecto o diferencia real en los datos. Al formularla de esta manera, se establece un marco para probar si los datos recopilados proporcionan evidencia suficiente para rechazar la hipótesis nula a favor de la hipótesis alternativa, que generalmente representa la expectativa del investigador (la hipótesis que se espera que sea respaldada por los datos).
El enfoque de Fisher se centraba en la refutación de la hipótesis nula mediante pruebas estadísticas. Argumentaba que el objetivo principal de las pruebas de hipótesis es evaluar si los datos proporcionan evidencia suficiente para descartar la hipótesis nula. Si los datos no proporcionan evidencia convincente para rechazarla, entonces los investigadores pueden concluir que no hay suficiente evidencia para afirmar que la hipótesis nula es falsa.
El término "hipótesis nula" proporciona una etiqueta clara y concisa para la hipótesis que se está probando, lo que facilita la comunicación y la comprensión en el campo de la estadística y la investigación.
(a) Hipótesis de concordancia: Se compara una serie experimental con una serie teórica. Para una serie de x categorías la fórmula es: \[\chi^2_{cal} = \sum_{i=1}^{n} \frac{(n_i - n_i^o)^2}{n_i^o}\]Eq 9.1. Prueba de hipótesis chi cuadrado calculada para una concordancia, este parámetro debe compararse con el valor crítico o de la tabla.
La hipótesis nula será que los números experimentales y los teóricos concuerdan, y en tal caso el valor que calculemos con la fórmula \(\chi_{cal}^2\) es menor que el que se establece como valor crítico en la tabla para los grados de libertad del sistema \(\chi_{tab}^2\).La hipótesis alternativa será que no concuerdan y por lo tanto hay que buscar otro modelo matemático, esto ocurre cuando \(\chi_{cal}^2\) es mayor que \(\chi_{tab}^2\). Es importante tener en cuenta que, cuando no concuerdan es muy evidente ya que los valores calculados son muy altos, del orden de los cientos de unidades, mientras que los valores de la tabla oscilan entre 1 y 20 para sistemas sencillos, como los de un cruce mendeliano clásico.
(a) Hipótesis de independencia: Se comparan dos series experimentales para ver si se las puede tratar como una sola, dado que las dos series tienen una identidad aparente o real, las denominamos conjuntos A y B, los cuales deben estar designados en la fórmula: \[\chi_{cal}^2 = \sum_{i=1}^{n} \frac{(n_{iA} - n_{iB})^2}{n_{A}}\]Eq 9.2. Prueba de hipótesis chi cuadrado calculada para una independencia, este parámetro debe compararse con el valor crítico o de la tabla.
La hipótesis nula será que las dos series de datos concuerdan, y la hipótesis alternativa será que no concuerdan. Nuevamente la hipótesis nula se acepta si los valores de \(\chi_{cal}^2\) son bajos para los grados de libertad planteados.
En este orden de ideas la chi cuadrada calculada \(\chi_{cal}^2\) es igual a la suma de las diferencias al cuadrado de un valor experimental y un valor teórico respectivos dividido entre el valor teórico respectivo. Usted puede visualizar el valor de \(\chi_{cal}^2\) como un acumulador de diferencias entre la serie teórica y la serie experimental, cuando \(\chi_{cal}^2\) es cercano a cero las dos series serán semejantes, y si es alto entonces no concuerdan. La pregunta es ¿hasta qué punto nos aguantamos las diferencias?
9.3.2. El punto de exclusión crítico
La chi cuadrado se genera con una fórmula y una comparación en una tabla que generalmente se hace en límites de exclusión. Los límites empleados o alfa son generalmente el 5% (0.05) y el 1% (0.01), entre más pequeño significa que la correspondencia entre experiencia y teoría es mayor. Otro factor de chi cuadrado es la cantidad de estados del sistema. El nombre que recibe esta variable es grados de libertad. El número de grados de libertad es igual al número de categorías menos uno.
Tabla 9.2. Tabla de chi cuadrado calculado, en caso de no tener la tabla puede usar la siguiente fórmula en Excel [=inv.chicuad(1-alfa;gl)].
Donde es el número de categorías. Una vez seleccionado el límite de exclusión y los grados de libertad se busca en la tabla el chi cuadrado de la tabla. Si el chi cuadrado calculado es más grande que el chi cuadrado de la tabla, las dos series de datos no concordaran, en consecuencia, si es una prueba se concordancia significa que nuestro modelo no representa los datos, mientras que si es una prueba de independencia significa que los datos no concuerdan uno con otro. La prueba de Chi cuadrado es útil cuando el espacio muestral o sea es mayor a 1000 unidades, cuando el valor es pequeño se emplea el test exacto de Fisher.
Ejemplo: Calcular el valor de \(\chi_{cal}^2\) para un cruce mendeliano para cuatro categorías que tuvieron los siguientes valores experimentales 285, 92, 97, y 27, asumiendo que estos datos son representados por una probabilidad de 9:3:3:1.
9.4. Test exacto de Fisher
El test exacto de Fisher comparte características con la chi cuadrado, pero es mucho más preciso y aplica para muestras pequeñas y para muestras grandes. La hipótesis nula y alternativa son las mismas que en chi cuadrado, siendo la concordancia o la no concordancia de las proporciones de dos series de datos. El problema con el test exacto de Fisher es que es muchísimo más complejo de obtener solo para una tabla de dos parejas, por lo que en la práctica usaremos la chi cuadrada a menos que tengamos un paquete estadístico más potente. Existen otros estadísticos que sirven para lo mismo, pero en esencia podemos trabajar con las dos anteriores; y en la práctica las evaluaciones nos piden es realizar una Chi cuadrada de Pearson. Referencias generales: (McDonald, 2015)
10. Comparando variables continuas
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
Cuando no podemos separar las parejas de datos en categorías claras o cuando las categorías son muchas, (más de seis), debemos emplear técnicas de análisis para variables continuas. Las variables continuas se describen por medio de una medida de punto medio como el promedio aritmético \(overline{x}\) y una medida de dispersión como la desviación estándar \(\pm s\). Al igual que con las variables categóricas, evaluaremos dos casos generales, la hipótesis de concordancia y la hipótesis de independencia.
(a) Hipótesis de concordancia: compara una muestra con un valor dado que se asume como verdadero, su símbolo será \(\mu\). Adicionalmente, se pueden hacer modificaciones para ver si la muestra es igual, menor o mayor que \(\mu\).
(b) Hipótesis de independencia: compara dos muestras, y al igual que en el anterior, se pueden hacer modificaciones para ver si son iguales, o una es mayor que la otra.
Los estadísticos de inferencia de emplean para responder preguntas de inferencia entre series de datos. Existen muchos tipos de estadísticos de inferencia, pero el principal problema es que involucran fórmulas complejas y gastan mucho tiempo, aunque afortunadamente Excel los trae compilados, por lo que solo emplearemos dos. El estadístico t de Student, y el estadístico \(Z\). Para estratificar cada pareja de serie de datos por mayor o menor podemos emplear dos estadísticos dependiendo de la cantidad de réplicas, siendo estos el estadístico t para menos de 30 réplicas y el estadístico \(Z\) para más de 30 réplicas.
A veces las funciones estadísticas de Excel no están activas, por lo que en este video aprenderemos como (Enlace)
A continuación, veremos cómo emplear estos estadísticos para resolver preguntas típicas de laboratorio.
10.1. La prueba de t de student
Para resolver esta comparación se realiza una prueba de t de student, debido a que rara vez tendremos acceso a más de 30 réplicas, en esta prueba se contrastan los estadísticos descriptivos de la serie de datos como el número de datos o réplicas promedio y la desviación estándar con respecto al valor que se asume como verdadero o teórico . Existen dos alternativas para esta prueba llamadas de dos colas y de una cola.
10.1.1. Las hipótesis
Las prueba de una cola solo me responde si el promedio es semejante a valor teórico \(\overline{x} = \mu\) o si no lo es \(\overline{x} \neq \mu\)
Las pruebas de dos colas me responden dos preguntas,
la primera nuevamente es si el promedio es semejante al valor teórico \(\overline{x} = \mu\)
la segunda pregunta es si el promedio es mayor o menor realmente que el valor teórico \(\overline{x} > \mu\) o \(\overline{x} < \mu\).
10.1.2. Dos valores \(t\) de la tabla
Las pruebas estadísticas como la \(t\) de student son básicamente acumuladores de diferencias significativas entre los datos experimentales y los datos teóricos, los cuales se comparan con un valor de frontera o crítico que se encuentra asignado en una tabla que viene generalmente al final de los libros de estadística, sin embargo, en Excel dichas tablas vienen incorporadas, por lo que solo es necesario conocer la fórmula para poder obtener el valor. De lo anterior se concluye que el procedimiento radica en calcular dos valores, uno llamado \(t\) calculada y otro \(t\) de la tabla.
La \(t\) de la tabla de una cola se obtiene mediante la siguiente fórmula de Excel [=-inv.t(0.05;(n-1)], donde n es la celda donde colocamos el número de réplicas. La \(t\) de la tabla de dos colas se obtiene mediante la siguiente fórmula de Excel [=-inv.t(0.05;(n-1)]. La respuesta de la fórmula arroja un valor positivo que indica el punto crítico de diferencias que podremos aceptar y será denominado como valor \(t\) de la tabla o \(t_{tab}\). El valor 0.05 se denomina alfa y debe presentarse en los resultados finales.
10.1.3. Fórmula de la \(t\) calculada para una prueba de concordancia
La prueba de concordancia \(t\) (también conocida como prueba \(t\) de una muestra o prueba \(t\) de una cola) se utiliza para comparar una sola serie de datos numéricos con un valor conocido o hipotético, generalmente denotado como \(mu\), que representa el valor verdadero de la media. Esta prueba se utiliza para determinar si la media de la muestra es significativamente diferente de ese valor de referencia \(mu\).
La prueba de concordancia \(t\) se usa comúnmente para responder preguntas como si una muestra tiene una media significativamente diferente de cierto valor esperado o si un tratamiento ha tenido un impacto significativo en la media de una muestra.
Dado que ya sabemos como obtener \(t_{tab}\), ahora debemos encontrar el valor experimental o \(t_{cal}\) con la fórmula: \[t_{\text{cal}} = \frac{\sqrt{n}}{s} | \bar{x} - \mu | \]Eq 10.1. Prueba t de student de una cola aplicada a una prueba de concordancia con un valor de referencia \(\mu\), su expresión en Excel es [=(raíz(n)/s)*abs(promedio-μ], donde \(n\) es el tamaño de la muestra y \(s\) es la desviación estándar de la muestra.
Después de aplicar la prueba de concordancia y rechazar la hipótesis nula, puedes realizar una prueba \(t\) de una sola cola para determinar si la muestra es mayor o menor que \(\mu\). La modificación en la fórmula, usando la resta:
\(\overline{x}-\mu\) se usa si estás interesado en probar si la media de la muestra es mayor que el valor verdadero. Su correspondiente valor crítico \(t_{tab}\) se obtiene con [=INV.T.DIST(α; grados_de_libertad)].
\(-(\overline{x}-\mu)\) se usa si estás interesado en probar si la media de la muestra es menor que el valor verdadero. Su correspondiente valor crítico \(t_{tab}\) se obtiene con [=INV.T.DIST(α/2; grados_de_libertad)].
Las comparaciones finales son iguales, si \(t_{tab}\) es mayor que \(t_{cal}\) rechazamos las hipótesis de superioridad e inferioridad con respecto a \(mu\).
10.1.4. Fórmula de la t calculada para una prueba de independencia
La prueba de independencia es una herramienta estadística esencial utilizada para evaluar si existe una asociación significativa entre dos conjuntos de datos. Permite determinar si los dos conjuntos de datos están relacionados de manera significativa o si sus relaciones son consistentes con la independencia. Esta prueba es ampliamente utilizada en diversos campos para comprender la relación entre variables, lo que puede proporcionar información valiosa en la toma de decisiones y la investigación. En este contexto, exploraremos cómo realizar y analizar una prueba de independencia y su importancia en el análisis de datos. \[t_{\text{cal}} = \frac{|\bar{x}_1 - \bar{x}_2|}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\]Eq 10.2. Prueba \(t_{cal}\) para dos series de datos, su forma en Excel es [=ABS(PROMEDIO(rango1)-PROMEDIO(rango2)) / RAIZ((desvest(rango1)/CONTAR(rango1)) + (desvest(rango2)/CONTAR(rango2)))]
Para probar la hipótesis de igualdad de medias entre dos muestras utilizando la prueba \(t\) en Excel, debes calcular el valor crítico con [==T.INV.2T(alfa, grados_de_libertad)].
Si deseas probar la hipótesis de que la serie experimental 1 es mayor que la serie 2, debes realizar una prueba de una cola (cola derecha). En este caso, puedes utilizar la función [==T.INValfa, grados_de_libertad)].
Nuevamente, siempre que el valor de la tabla sea superior, las hipótesis nulas se van a aceptar.
11. Anova de un factor o tratamiento
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.
La ANOVA de una vía es matemáticamente idéntica a la prueba t de student de dos series de datos, pero puede analizar una cantidad n de series de datos, por lo que es más general. En ambos casos se trata de comparar una variable continua con una variable discreta. La variable discreta divide a la variable continúa en dos grupos. Como siempre debemos analizar dos hipótesis:
(a) Hipótesis nula: no existen diferencias significativas entre las varianzas de los tratamientos.
(b) Hipótesis alternativa: si existen diferencias significativas entre los tratamientos.
Los tratamientos se ubicarán en las columnas de la matriz, de ellos no sabemos si dan valores iguales o diferentes en promedio y eso es lo que pretendemos identificar, mientras que en las filas colocamos los individuos tratados, de ellos asumimos a priori que son diferentes, en el sentido de identidad, por ejemplo las ratas del experimento, aunque todas son ratas, son individuos diferentes.
Antes de enunciar las fórmulas miremos su empleo con un ejemplo.
11.1. Procedimiento.
El cálculo de las ANOVAS no es para nada simple, así de lo deberemos trabajar paso a paso. Inicialmente tendremos una tabla que posee (k) cantidad de variables discretas k-numero de tratamientos, cada una medida (n) veces de forma continua. En consecuencia, será una tabla con (k) cantidad de columnas y (n) cantidad de filas. Posteriormente procedemos a identificar los dos tipos de grados de libertad, los grados de libertad entre las variables y los grados de libertad internos.
Tabla 11.1. Tabla de datos original.
s
|
\(x_1\) |
\(x_2\) |
\(x_3\) |
\(x_4\) |
\(x_k\) |
\(y_1\) |
\(l_{1,1}\) |
\(l_{2,1}\) |
|
|
\(l_{k,1}\) |
\(y_2\) |
\(l_{1,2}\) |
|
|
|
|
\(y_3\) |
|
|
|
|
|
\(y_n\) |
\(l_{1,n}\) |
|
|
|
|
|
\(\overline{x_1}\) |
\(\overline{x_2}\) |
\(\overline{x_3}\) |
\(\overline{x_4}\) |
\(\overline{x_k}\) |
Número de datos total \(N\) |
\(N=k \cdot n\) Eq 11.1. |
Grados de libertad entre grupos \(gl_{en}\) |
\(gl_{en}=k-1\) Eq 11.2. |
Grados de libertad inter grupos \(gl_{in}\) |
\(gl_{in}=N-k\) Eq 11.3. |
Parámetro F de la tabla \(F_{tab}\) |
\(F_{tab}=\frac{ gl_{en}}{ gl_{in}}\)= INV.F.CD(0,05;gl_en;gl_in) Eq 11.4. |
Promedio de promedios de columnas \(pp_k\) |
\(pp_k=\frac{1}{k}\Sigma(\overline{x}_i)\) Eq 11.5. |
f
Posteriormente se obtiene la tabla de diferencias de cuadrados con respecto al promedio general, y la tabla de diferencia de cuadrados con respecto a los promedios de cada columna.
Tabla 11.2. Tabla de diferencia cuadradas entre cada dato y el promedio de promedios.
|
\(\Delta x_1\)
|
\(\Delta x_2\)
|
\(\Delta x_3\)
|
\(\Delta x_4\)
|
\(\Delta x_k\)
|
\(\Delta y_1\)
|
\(( l_{1,1}- pp_k)^2 \)
|
\(( l_{2,1}- pp_k)^2 \)
|
|
|
\(( l_{k,1}- pp_k)^2 \)
|
\(\Delta y_2\)
|
\(( l_{1,2}- pp_k)^2 \)
|
|
|
|
|
\(\Delta y_3\)
|
|
|
|
|
|
\(\Delta y_n\)
|
\(( l_{1,n}- pp_k)^2 \)
|
|
|
|
|
|
\(sc_{1,en}=\Sigma(\Delta x_1)\)
|
\(sc_{2,en}=\Sigma(\Delta x_2)\)
|
\(sc_{3,en}=\Sigma(\Delta x_3)\)
|
\(sc_{4,en}=\Sigma(\Delta x_4)\)
|
\(sc_{k,en}=\Sigma(\Delta x_k)\)
|
Suma de la diferencia cuadrados total \(sc\)
|
\(sc=\Sigma(sc_{i,en})\) Eq 11.6.
|
Tabla 11.3. Tabla de diferencia cuadradas entre cada dato y el promedio de columna.
|
\(\delta x_1\)
|
\(\delta x_2\)
|
\(\delta x_3\)
|
\(\delta x_4\)
|
\(\delta x_k\)
|
\(\delta y_1\)
|
\(( l_{1,1}- \(\overline{x_1}\))^2 \)
|
\(( l_{2,1}- \(\overline{x_2}\))^2 \)
|
|
|
\(( l_{k,1}- \(\overline{x_k}\))^2 \)
|
\(\delta y_2\)
|
\(( l_{1,2}- \(\overline{x_1}\))^2 \)
|
|
|
|
|
\(\delta y_3\)
|
|
|
|
|
|
\(\delta y_n\)
|
\(( l_{1,n}- \(\overline{x_1}\))^2 \)
|
|
|
|
|
|
\(sc_{1,in}=\Sigma(\delta x_1)\)
|
\(sc_{2,in}=\Sigma(\delta x_2)\)
|
\(sc_{3,in}=\Sigma(\delta x_3)\)
|
\(sc_{4,in}=\Sigma(\delta x_4)\)
|
\(sc_{k,in}=\Sigma(\delta x_k)\)
|
Suma de la diferencia cuadrados total inter \(sc_{in}\)
|
\(sc_{in}=\Sigma(sc_{i,in})\) Eq 11.7.
|
Diferencia de las sumas de cuadrados entre \(sc_{en}\)
|
\(sc_{en}= sc - sc_{in}\) Eq 11.8.
|
Varianza entre \(s_{en}^2\)
|
\(s_{en}^2=\frac{ sc_{en}}{ gl_{en }\) Eq 11.9.
|
Varianza inter \(s_{in}^2\)
|
\(s_{in}^2=\frac{ sc_{in}}{ gl_{in }\) Eq 11.10.
|
F de Fisher calculada \(F_{cal}\)
|
\(F_{cal}=frac{ s_{en}^2}{ s_{in}^2}\) Eq 11.11.
|
Nuevamente si \(F_{cal}\) es mayor que \(F_{tab}\) entonces rechazamos las hipótesis, por lo que al menos un tratamiento debe ser diferente, en caso de sospechar que algunos si sean semejantes, debe descartar la columna sospechosa de ingresa las diferencias y repetir el cálculo.
11.2. La prueba de Tukey
La prueba de Tukey se emplea para determinar si la diferencia entre cada pareja de promedios posee diferencias significativas. Esta prueba a diferencia de la ANOVA solo mide una pareja por vez. Siendo en este caso las hipótesis:
- Hipótesis nula: no existen diferencias significativas.
- Hipótesis alternativa: si existen diferencias significativas.
Las ecuaciones clave a seguir son:
\[T_{dhs} = q \cdot \left(\frac{sc_{in}}{n}\right)^{\frac{1}{2}}\]
|
Eq 11.12.
|
\[\Delta\bar{x}_i = \bar{x}_a - \bar{x}_b\]
|
Eq 11.13.
|
Si \(\Delta\bar{x}_i\) es mayor que \(T_{dhs}\), las diferencias entre la pareja de datos será significativa. Lo único complejo que posee esta prueba es identificar el valor crítico \(q\) que también se obtiene de una tabla, Excel no trae esta función normalmente. El \(q\) de la tabla se obtiene ubicando la cantidad total de datos \(N\) y la cantidad de columnas . En la tabla la fila será igual a la cantidad total de datos \(N\) y la columna será la cantidad de columnas k de la tabla con la que se hizo la ANOVA. Por ejemplo, si teníamos una tabla de ANOVA de 3 columnas y 7 datos por cada columna el valor crítico de \(q\) = 3,61. En caso de que tengamos una tabla \(q\) que nos de varias respuestas para los dos grados de libertad, significa que cada valor tiene un límite de exclusión también llamado alfa diferente. Elegimos el típico del 0,05. En caso de requerir apoyo en sus ejercicios de lápiz y papel, recomendamos la siguiente página: http://vassarstats.net/anova1u.html
Tabla 11.4. Tabla de valores críticos de Tukey.
12. Regresión lineal
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
En ocasiones, los científicos no están interesados en comparar dos series de datos, sino en ver si dos variables diferentes están relacionadas entre sí, por medio de una ecuación matemática simple. Existen dos formas de obtener dichas ecuaciones, una es inductiva y la otra es deductiva. En la ruta inductiva el científico establece una serie de principios o presupuestos clave, denominados núcleo fuerte, y a partir de estos presupuestos construye una serie de ecuaciones matemáticas que relacionan variables naturales de manera concreta, lo cual permite hacer experimentos para corroborar que, los datos experimentales concuerden con los teóricos, y esta contrastación se realiza por medio de las técnicas estadísticas que vimos anteriormente. Sin embargo, otras leyes se obtienen por técnicas deductivas, en las cuales se miden dos variables cuidadosamente, y luego, por medio de técnicas matemáticas llamadas regresiones, se crea una fórmula matemática, que posteriormente se emplea igual que las fórmulas inductivas, para predecir valores y contrastarlos con otros experimentos futuros.
Figura 12.1. En la gráfica hemos puesto los datos extraídos de dos variables medidos en cuatro réplicas que se sospecha tienen una relación lineal. La línea sólida representa la hipótesis de la relación lineal. Tenga en cuenta que la ecuación de regresión lineal representa solo una hipótesis de una muestra de datos, que se aproxima, pero no necesariamente es la verdadera relación entre las variables.
Al igual que las leyes inductivas, las regresiones pueden construirse en base a modelos lineales, exponenciales, logarítmicos, polinominómicos entre otros, aunque el de uso más común es la regresión lineal. La regresión lineal es un método de correlación de datos que va a buscar la relación entre dos variables, asumiendo que se relacionan linealmente. Este es tal vez uno de los métodos más viejos de matematización en ciencias, aunque su forma antigua era más bien intuitiva y seguía la ecuación de la recta:\[y = k \cdot x + b\]Eq 12.1. Ecuación de la recta.
Si existe una relación directamente proporcional entre dos variables, entonces debe haber una constante de proporcionalidad \(k\) que permite igualar los valores de las variables. Dichas constantes de proporcionalidad recibían el nombre de sus descubridores o la que sus descubridores desearan ponerle, por ejemplo, el coeficiente de deformación del resorte \(k\) en la ley de Hooke:\[F=k \cdot \Delta x\]Eq 12.1. Ley de Hooke.
O el volumen molar en la ley de Avogadro para gases \[V=V_m \cdot n\]Eq 12.1. Ley de Avogadro para gases.
En la actualidad la regresión lineal no es un proceso intuitivo, por el contrario, existe un estándar para realizar el procedimiento de obtención de la fórmula, de forma tal que podamos expresar el valor de la constante de proporcionalidad. Adicionalmente el método va a funcionar como una prueba de hipótesis, en la cual podemos tener estos dos caos o sus variantes en un espectro continuo.
(a) Los valores de las dos variables se relacionan linealmente, y la ecuación obtenida puede usarse para predecir experimentos futuros dentro del rango establecido.
(b) Los valores de las dos variables no se relacionan linealmente, y la ecuación generada no sirve.
Figura 12.2. Representación de un caso donde los datos medidos no se ajustan bien a un modelo lineal, matemáticamente se puede generar la recta, pero esta no representa adecuadamente los datos medidos.
En el caso (Figura 12.1) tenemos que la serie de datos se ajusta bien a un modelo lineal, mientras que en el segundo caso Figura 12.2) no es así. El procedimiento de la regresión lineal arroja un coeficiente llamado r cuadrado \(r^2\) que servirá como el estándar de linealidad. Valores de \(r^2\) superiores al 0.9 se consideran normalmente como indicadores de una fuerte linealidad, aunque para estar seguros también se puede tomar valores de la fórmula lineal obtenida y realizar pruebas de hipótesis para comparar series de datos experimentales y teóricas como la chi cuadrada o una prueba \(t\) de student. La regresión lineal inicia por reconocer las propiedades de la línea recta y su fórmula general (Eq 12.1).
La fórmula general de la recta \(y = k \cdot x + b\) posee a parte de los valores (\(x\);\(y\)) dos variables más, \(k\) es la pendiente, que va a representar la constante de proporcionalidad, mientras que la variable \(b\) va a representar el Intercepto en el eje \(y\) cuando \(x\) = 0. Dado lo anterior nuestra ecuación de la recta adquirirá la siguiente forma.
Figura 12.3. Propiedades generales de la recta, de arriba hacia abajo tenemos: la ecuación general de la recta; la pendiente y su ecuación; el Intercepto en ().
Una vez teniendo lo anterior claro, hay que tener en cuenta que debemos trabajar con una tabla de datos reales (\(x\);\(y\)) que puede ser horizontal o vertical (Tabla 12). Ahora vamos a expresar la primeria serie de fórmulas.
Tabla 12.1. Tabla de datos horizontal para una regresión lineal.
|
1
|
2
|
3
|
\(n\)
|
|
|
|
\(x_i\)
|
|
|
|
|
\(\Sigma x\)
Eq 12.2
|
\(\Sigma x^2\)
Eq 12.3
|
\((\Sigma x) ^2\)
Eq 12.4
|
\(y_i\)
|
|
|
|
|
\(\Sigma y\)
Eq 12.5
|
\(\Sigma y^2\)
Eq 12.6
|
|
\(yx_i=x_i \times y_i \)
|
|
|
|
|
\(\Sigma yx_i \)
Eq 12.7
|
|
|
Con los valores anteriores se calcula la pendiente: \[k=\frac{n \cdot \Sigma yx_i -\Sigma x \cdot \Sigma y }{n \cdot \Sigma x^2- (\Sigma x) ^2}\]Eq 12.8. Pendiente en la regresión lineal.
\[y_o=\frac{\Sigma y -k \cdot \Sigma x }{n}\]Eq 12.9. Intercepto en y en la regresión lineal.
\[r^2=( k\cdot \frac{s_x}{ s_y})^2 \]Eq 12.10. Coeficiente de linealidad.
En Excel la regresión lineal está integrada como parte de su paquete para generar gráficos de dispersión xy, para generarla simplemente hay que dar clic derecho a la grafica ya generada y buscar regresión lineal.
Tanto la regresión lineal simple como otros tipos de regresión pueden ser resueltos por Excel u otros programas estadísticos más potentes. En cualquier caso, siempre nos arrojará la correlación r cuadrado que determinará que tanto se ajustan los datos de la fórmula con respecto a los datos experimentales.
Referencias
⟨Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]
BIPM, I. E. C., IFCC, I., & IUPAC, I. (2008). Evaluation of Measurement Data—Guide to the Expression of Uncertainty in Measurement GUM 1995 with minor corrections. Joint Committee for Guides in Metrology, JCGM, 100.
Broemeling, L. D. (2011). An account of early statistical inference in Arab cryptology. The American Statistician, 65(4), 255-257.
Bruneau, Q. (2022). States and the Masters of Capital: Sovereign Lending, Old and New. Columbia University Press.
Dodge, Y. (Ed.). (2003). The Oxford dictionary of statistical terms. OUP Oxford.
Franklin, J. (2001). The science of conjecture: Evidence and probability before Pascal. Johns Hopkins University Press.
Lim, M. (2021). "Gauss, Least Squares, and the Missing Planet". Actuaries Digital. Retrieved 2022-11-01.
Martinez, M. G. (2014). Pruebas de normalidad. Retrieved October 2, 2016, from https://www.youtube.com/watch?v=KZEBU8gV3tY
McDonald, J. H. (2015). Handbook of Biological Statistics. (U. of Delaware, Ed.). Baltimore: Sparky House. Retrieved from http://www.biostathandbook.com/linearregression.html
Ostasiewicz, W. (2014). The emergence of statistical science. Śląski Przegląd Statystyczny, 18(12), 75-82.
Romeijn, J. W. (2014). Philosophy of statistics. Stanford Encyclopedia of Philosophy. Recuperado de http://plato.stanford.edu/entries/statistics/
Schneider, I. (2005). Jakob Bernoulli, Ars Conjectandi (1713). In I. Grattan-Guinness (Ed.), Landmark writings in Western Mathematics, 1640-1940 (pp. 88-103).
Steyer, K. (2001). Korpus, Statistik, Kookkurrenz. Lässt sich Idiomatisches “berechnen”?. In Flut von Texten–Vielfalt der Kulturen. Ascona 2001 zur Methodologie und Kulturspezifik der Phraseologie (pp. 33-46). Schneider Hohengehren.
Sylla, E. D.; Bernoulli, Jacob (2006). The Art of Conjecturing, Together with Letter to a Friend on Sets in Court Tennis (trans.). JHU Press. ISBN 978-0-8018-8235-7.
Taylor, J. (1997). Introduction to error analysis, the study of uncertainties in physical measurements (Vol. 1).
Walker, H. M. (1975). Studies in the history of statistical method. Arno Press. ISBN 978-0405066283. Archived from the original on 2020-07-27. Retrieved 2015-06-27.
Willcox, W. F. (1938). The founder of statistics. Revue de l'Institut International de Statistique, 321-328.