domingo, 22 de octubre de 2023

Estadística básica

'+

Análisis estadístico básico

Cursos: Inicio: ⟨Física⟩: {Preliminares}: [El informe de laboratorio] [El informe de laboratorio]

Índice

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Portada

1. Introducción

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

¡Bienvenidos al curso de Estadística! En este curso, exploraremos el fascinante mundo de la estadística, una disciplina esencial en la toma de decisiones, la investigación y la comprensión de datos en diversas áreas. A lo largo de este viaje, adquirirán las habilidades y conocimientos necesarios para analizar, interpretar y sacar conclusiones a partir de datos, lo que les permitirá tomar decisiones más informadas en su vida personal y profesional.

A lo largo de este curso, se les proporcionarán las habilidades y herramientas necesarias para realizar análisis estadísticos efectivos, tomar decisiones basadas en datos y desarrollar una comprensión profunda de la estadística en diversos contextos. ¡Estamos emocionados por acompañarlos en esta aventura estadística!

La estadística es una disciplina matemática que se centra en la recopilación, análisis, interpretación y presentación de datos. Su objetivo principal es proporcionar un marco sistemático para comprender y tomar decisiones basadas en la información que se obtiene a partir de observaciones o experimentos. En esencia, la estadística nos permite transformar datos crudos en conocimiento útil, revelando patrones, tendencias y relaciones ocultas que pueden ser esenciales para la toma de decisiones informadas en una variedad de campos.

La estadística se utiliza en una amplia gama de aplicaciones en la vida cotidiana y en numerosos campos profesionales. Desde la investigación científica y médica hasta la economía, la industria, la política y la planificación urbana, la estadística desempeña un papel fundamental. Además, en la era actual de la información, la estadística juega un papel esencial en el análisis de datos masivos (big data) y en la toma de decisiones estratégicas en empresas y organizaciones. Su importancia radica en su capacidad para proporcionar herramientas sólidas para evaluar la incertidumbre, identificar patrones ocultos y respaldar la toma de decisiones basadas en evidencia, lo que contribuye a la eficiencia, la precisión y el progreso en nuestra sociedad. En resumen, la estadística no solo es una herramienta valiosa, sino que es esencial para el desarrollo y la toma de decisiones en el mundo contemporáneo.

1.1. Pierre de Fermat

Pierre de Fermat, matemático y jurista francés del siglo XVII, es conocido por sus contribuciones pioneras en el campo de la teoría de números y la geometría analítica. Su famoso "último teorema de Fermat" intrigó a matemáticos durante siglos y fue finalmente resuelto en el siglo XIX. Su legado perdura como uno de los grandes enigmas y genios matemáticos de la historia.

1.1.1. Contexto social

Pierre de Fermat vivió durante el siglo XVII en una época marcada por importantes acontecimientos políticos, económicos, sociales, religiosos y culturales en Europa:

Fermat nació en Beaumont-de-Lomagne, en el Reino de Francia, en 1601. Durante su vida, Francia estaba gobernada por la dinastía de los Borbones bajo el reinado de Luis XIII y, posteriormente, de Luis XIV. La época estuvo marcada por conflictos políticos y militares, como la Guerra de los Treinta Años, en la que Francia desempeñó un papel importante.

El siglo XVII fue testigo de la transición del feudalismo a la economía mercantilista. El comercio y la industria estaban en crecimiento, y se formaban las primeras compañías comerciales, como la Compañía Neerlandesa de las Indias Orientales. El crecimiento económico también dio lugar a tensiones sociales.

La sociedad europea estaba estratificada en clases sociales, y la nobleza mantenía un gran poder. A medida que se expandía el comercio y la industria, surgían nuevas clases económicas, y la lucha de clases se hacía evidente.

El siglo XVII fue una época de tensiones religiosas en Europa. La Reforma Protestante del siglo anterior había dividido a la Iglesia Católica, y las guerras de religión persistieron en algunas regiones. En Francia, la Revocación del Edicto de Nantes en 1685 suprimió la libertad religiosa de los protestantes.

El siglo XVII fue un período de gran florecimiento cultural conocido como el Siglo de Oro. En la literatura, autores como Molière y Racine destacaron en la literatura francesa. En las artes, se desarrolló el estilo barroco, que se caracterizaba por su opulencia y dramatismo.

En este contexto histórico, Pierre de Fermat hizo sus contribuciones significativas a las matemáticas y la teoría de números, dejando una huella perdurable en el mundo académico y científico de su tiempo y para las generaciones futuras.

1.1.2. Infancia

La infancia de Pierre de Fermat transcurrió en el pequeño pueblo de Beaumont-de-Lomagne, ubicado en el sur de Francia. Nació el 17 de agosto de 1601 en el seno de una familia acomodada. Sus padres, Dominique Fermat y Claire de Long, eran miembros de la alta burguesía local.

Desde una edad temprana, Fermat mostró una inclinación excepcional hacia las matemáticas. A medida que crecía, devoraba libros sobre matemáticas y mostraba un talento innato para resolver problemas numéricos. A pesar de la falta de instituciones educativas especializadas en su entorno rural, Fermat recibió una sólida educación básica en gramática y humanidades en la escuela local.

Durante su infancia, Fermat también fue testigo de la agitación política y religiosa de su época, con conflictos religiosos en Francia y la Guerra de los Treinta Años en Europa. Estos eventos podrían haber influido en su perspectiva y su interés en las matemáticas como una disciplina ordenada y abstracta.

A medida que Fermat se acercaba a la edad adulta, sus habilidades matemáticas excepcionales comenzaron a destacar, y su pasión por la disciplina lo llevaría eventualmente a realizar contribuciones significativas en el campo de las matemáticas y la teoría de números. Su futuro brillante en el mundo académico y científico estaba a punto de comenzar, pero antes de eso, enfrentaría una serie de desafíos y oportunidades que darían forma a su camino hacia el reconocimiento como uno de los matemáticos más influyentes de su tiempo.

1.1.3. Logros

La educación formal de Pierre de Fermat se llevó a cabo en la Universidad de Orleans, donde estudió leyes, siguiendo la tradición de su familia. Completó su formación legal en la Universidad de Toulouse y posteriormente se convirtió en consejero en el Parlamento de Toulouse. A pesar de su formación legal, Fermat estaba profundamente interesado en las matemáticas y la física, y gran parte de su trabajo científico fue desarrollado de manera autodidacta. Principales Logros Científicos:

(a) Teorema de Fermat sobre la Última Aritmética (Fermat's Last Theorem): Su contribución más famosa fue el teorema de Fermat sobre la última aritmética, que enunció en el margen de su copia de un libro en 1637. Sin embargo, no proporcionó una prueba completa para este teorema, lo que dio lugar a un enigma matemático que perduró durante siglos hasta que finalmente se demostró en 1994.

(b) Geometría Analítica: Fermat realizó importantes avances en geometría analítica, desarrollando métodos para calcular tangentes a curvas y encontrar los máximos y mínimos de funciones, lo que sentó las bases para el cálculo diferencial.

(c) Principio del Mínimo Tiempo: Propuso el principio del mínimo tiempo, una versión temprana del principio de Fermat en la óptica, que se convertiría en una base fundamental para la óptica moderna.

(d) Teorema de Fermat sobre los enteros cuadrados: Fermat trabajó en la teoría de números y demostró que la suma de dos cuadrados perfectos no puede ser otro cuadrado perfecto (a² + b² ≠ c²) si a, b y c son enteros.

Fermat era conocido por ser reluctante a publicar sus descubrimientos, lo que a menudo generaba controversia y desafío por parte de otros matemáticos. Su teorema sobre la última aritmética es un ejemplo destacado, ya que afirmó haber encontrado una "maravillosa demostración" que nunca compartió con sus contemporáneos. Esto llevó a una serie de intentos fallidos por parte de otros matemáticos para probarlo.

(e) Juegos de azar: Aunque no es famoso por sus contribuciones directas a la estadística, su trabajo en la teoría de la probabilidad es relevante para la estadística en cierta medida. Uno de sus logros notables en este sentido es el desarrollo de la teoría de la probabilidad. Fermat y su contemporáneo Blaise Pascal colaboraron en la resolución de problemas de juegos de azar, que dieron lugar a la formulación de los fundamentos de la teoría de la probabilidad. Juntos, establecieron las bases para comprender conceptos como las probabilidades, las expectativas y las leyes de los grandes números. Su correspondencia y trabajo conjunto en estas áreas sentaron las bases para futuros avances en estadística y probabilidad, que se convertirían en pilares fundamentales de la estadística moderna. Si bien Fermat no es conocido por contribuciones directas en estadística, su trabajo en la teoría de la probabilidad fue un precursor importante para el desarrollo posterior de esta disciplina y su aplicación en el análisis estadístico. Su enfoque en problemas relacionados con el azar y la incertidumbre contribuyó a la comprensión de conceptos clave en estadística.

1.1.4. Comunidad científica

Pierre de Fermat vivió en una época en la que la comunidad científica estaba en proceso de consolidación y transformación. Aunque no estaba tan interconectada como la comunidad científica moderna, tenía sus propias redes y relaciones que eran cruciales para el intercambio de ideas y el desarrollo de la ciencia. A continuación, se describen algunos aspectos de la comunidad científica en la que Fermat estaba inmerso:

Fermat mantuvo correspondencia con varios matemáticos y científicos de renombre de su época. Uno de sus principales colaboradores fue Blaise Pascal, el matemático, físico e inventor francés. Fermat y Pascal trabajaron juntos en cuestiones relacionadas con la probabilidad y la teoría de la probabilidad, y sus intercambios de cartas son conocidos por ser valiosas contribuciones a la teoría de la probabilidad.

Fermat también tuvo amigos y compañeros de discusión en su ciudad natal de Toulouse, donde trabajaba como consejero en el Parlamento. Allí, interactuó con intelectuales locales y participó en conversaciones sobre diversos temas, incluyendo matemáticas y ciencia. Estas interacciones informales probablemente jugaron un papel en su desarrollo intelectual.

En términos de opositores, Fermat era conocido por su reluctancia a compartir sus demostraciones completas o detalladas de sus teoremas, lo que a veces generaba controversia. Algunos matemáticos contemporáneos, como René Descartes, mantuvieron correspondencia con Fermat y expresaron su deseo de comprender mejor sus métodos y demostraciones. La falta de publicación de Fermat y su enfoque en demostraciones breves y enigmáticas a menudo llevaban a desacuerdos y desafíos.

1.1.5. Reconocimientos

Pierre de Fermat, a pesar de sus notables contribuciones a las matemáticas, no recibió muchos reconocimientos significativos en vida ni títulos de nobleza. Fermat era un matemático autodidacta que trabajaba como consejero en el Parlamento de Toulouse y no se dedicaba a la investigación matemática como una profesión formal.

Sin embargo, su trabajo en matemáticas fue respetado por algunos de sus contemporáneos más cercanos, como Blaise Pascal, con quien mantuvo una colaboración en la teoría de la probabilidad. Además, Fermat fue elegido como miembro de honor en la Academia Real de Ciencias de París en 1663, lo que es un reconocimiento significativo en el mundo científico de la época.

La mayor parte del reconocimiento y la fama de Fermat se produjo póstumamente. Después de su muerte en 1665, sus escritos y trabajos matemáticos fueron redescubiertos y apreciados en su justa medida. Sus contribuciones a la teoría de números, la geometría analítica y la teoría de la probabilidad se volvieron fundamentales en la matemática y la ciencia, y su nombre se convirtió en uno de los más venerados en la historia de las matemáticas.

Hoy en día, Fermat es ampliamente considerado como uno de los grandes matemáticos de todos los tiempos. Aunque no recibió medallas ni títulos nobiliarios en su vida, su legado perdura en la matemática y su nombre es sinónimo de genialidad matemática y contribuciones fundamentales en una variedad de campos. Numerosos reconocimientos póstumos, honores académicos y eventos en su honor han sido organizados a lo largo de la historia en reconocimiento a su inmenso impacto en el mundo de las matemáticas y la ciencia.

1.1.6. ¿Por qué es importante?

El trabajo de Pierre de Fermat, aunque se centra principalmente en las matemáticas y la teoría de números, tiene un impacto significativo en nuestra vida cotidiana a través de sus contribuciones a la ciencia y la tecnología. Aquí hay algunas formas en las que su trabajo nos afecta:

(a) Comunicaciones y Criptografía: Fermat contribuyó a la teoría de números, que es fundamental en la criptografía moderna. Los métodos criptográficos, como la encriptación de datos en transacciones en línea y la seguridad de las comunicaciones, se basan en conceptos desarrollados en la teoría de números.

(b) Estadística y Probabilidad: Aunque no es tan conocido por sus contribuciones a la estadística, Fermat contribuyó a los fundamentos de la probabilidad. Esto es esencial en la vida cotidiana, desde la evaluación de riesgos hasta la toma de decisiones basadas en datos.

(c) Tecnología de la Información: La teoría de números es esencial en la informática y la teoría de la información. Fermat sentó las bases para muchos de los conceptos matemáticos utilizados en la programación y el almacenamiento de datos.

(d) Física y Óptica: Fermat también hizo contribuciones en óptica, lo que influyó en el desarrollo de tecnologías como la lente y la óptica moderna utilizadas en gafas, cámaras y telescopios.

(e) Educación Matemática: Su trabajo y su influencia en el desarrollo de la matemática avanzada enriquecen el campo de la educación matemática, lo que impacta en la formación de estudiantes y profesionales en matemáticas y ciencias.

(f) Resolución de Problemas: El enfoque de Fermat en la resolución de problemas matemáticos y su actitud perseverante son ejemplos inspiradores para cualquier persona que se enfrente a desafíos en su vida cotidiana.

(g) Innovación Tecnológica: A lo largo de la historia, las contribuciones matemáticas de Fermat han contribuido al progreso científico y tecnológico en general, lo que a su vez ha dado lugar a avances en medicina, ingeniería, astronomía y muchas otras áreas que afectan nuestras vidas.

1.1.7. ¿Qué debemos aprender de él?

La vida y obra de Pierre de Fermat nos brindan valiosas lecciones sobre cómo abordar el conocimiento, las limitaciones y la comunicación en nuestras propias vidas. Uno de los aspectos más notorios de la vida de Fermat fue su reluctancia a compartir demostraciones completas de sus teoremas. Aunque su enfoque en la resolución de problemas y la creación de teoremas era admirable, su falta de divulgación y su tendencia a dejar problemas sin resolver generaban frustración y obstaculizaban el progreso en la comunidad científica.

Aprender de Fermat significa reconocer la importancia de compartir conocimiento. En la era actual, el acceso a la información y la colaboración son esenciales para el avance de la ciencia y la sociedad. Debemos esforzarnos por compartir nuestros conocimientos y colaborar con otros para resolver problemas y promover el progreso. Fermat también nos enseña sobre la perseverancia. A pesar de enfrentar obstáculos y desafíos en su trabajo, como la falta de acceso a recursos educativos avanzados, perseveró y realizó contribuciones significativas a las matemáticas.

La perseverancia es fundamental en la búsqueda del conocimiento y el éxito en la vida. Debemos estar dispuestos a enfrentar obstáculos, aprender de nuestros errores y seguir adelante con determinación en la búsqueda de nuestros objetivos. Además, Fermat nos recuerda la importancia de contribuir al conocimiento colectivo. Aunque dejó una marca indeleble en la historia de las matemáticas, su legado habría sido aún más impactante si hubiera compartido sus demostraciones de manera más completa. Reconocer que el conocimiento tiene un valor intrínseco cuando se comparte y se utiliza para beneficio de la sociedad es una lección crucial que podemos extraer de su vida. En resumen, inspirarnos en la vida de Fermat implica no solo valorar la genialidad individual, sino también comprender que el verdadero impacto viene cuando compartimos nuestro conocimiento y trabajamos juntos para superar obstáculos en pos del avance y el progreso.

2. Generalidades

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Estadística (del alemán: Statistik, originalmente "descripción de un estado o un país") es la disciplina que se ocupa de la recopilación, organización, análisis, interpretación y presentación de datos (Romeijn, 2014; Steyer, 2001). Al aplicar la estadística a un problema científico, industrial o social, es convencional comenzar con una población estadística o un modelo estadístico que se estudiará. Las poblaciones pueden ser grupos diversos de personas u objetos, como "todas las personas que viven en un país" o "cada átomo que compone un cristal". La estadística abarca todos los aspectos de los datos, incluida la planificación de la recopilación de datos en términos del diseño de encuestas y experimentos (Dodge, 2003).

Cuando no se pueden recopilar datos de censo, los estadísticos recopilan datos desarrollando diseños de experimentos específicos y muestras de encuestas. El muestreo representativo asegura que las inferencias y conclusiones puedan extenderse razonablemente desde la muestra hasta la población en su conjunto. Un estudio experimental implica tomar medidas del sistema bajo estudio, manipular el sistema y luego tomar medidas adicionales utilizando el mismo procedimiento para determinar si la manipulación ha modificado los valores de las mediciones. En contraste, un estudio observacional no implica manipulación experimental.

Dos métodos estadísticos principales se utilizan en el análisis de datos: estadísticas descriptivas, que resumen datos de una muestra mediante índices como la media o la desviación estándar, y estadísticas inferenciales, que extraen conclusiones de datos que están sujetos a variación aleatoria (por ejemplo, errores de observación, variación de muestreo). Las estadísticas descriptivas se preocupan más a menudo por dos conjuntos de propiedades de una distribución (muestra o población): la tendencia central (o ubicación) busca caracterizar el valor central o típico de la distribución, mientras que la dispersión (o variabilidad) caracteriza el grado en que los miembros de la distribución se alejan de su centro y entre sí. Las inferencias en estadísticas matemáticas se hacen en el marco de la teoría de la probabilidad, que se ocupa del análisis de fenómenos aleatorios.

Un procedimiento estadístico estándar implica la recopilación de datos que lleva a una prueba de la relación entre dos conjuntos de datos estadísticos, o un conjunto de datos y datos sintéticos extraídos de un modelo idealizado. Se propone una hipótesis para la relación estadística entre los dos conjuntos de datos y se compara como alternativa a una hipótesis nula idealizada de ninguna relación entre dos conjuntos de datos. Rechazar o desaprobar la hipótesis nula se hace utilizando pruebas estadísticas que cuantifican en qué medida se puede demostrar que la nula es falsa, dados los datos que se utilizan en la prueba. Trabajando desde una hipótesis nula, se reconocen dos formas básicas de error: errores de Tipo I (se rechaza falsamente la hipótesis nula dando un "falso positivo") y errores de Tipo II (la hipótesis nula no se rechaza y se pasa por alto una relación real entre poblaciones, dando un "falso negativo"). A este marco se le han asociado múltiples problemas, que van desde obtener un tamaño de muestra suficiente hasta especificar una hipótesis nula adecuada.

Los procesos de medición estadística también son propensos a errores en cuanto a los datos que generan. Muchos de estos errores se clasifican como aleatorios (ruido) o sistemáticos (sesgo), pero también pueden ocurrir otros tipos de errores (por ejemplo, errores evidentes, como cuando un analista informa unidades incorrectas). La presencia de datos faltantes o censura puede dar lugar a estimaciones sesgadas y se han desarrollado técnicas específicas para abordar estos problemas.

3. Historia

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Las discusiones formales sobre inferencia se remontan a matemáticos y criptógrafos árabes durante la Edad de Oro Islámica, que abarcó desde el siglo VIII al XIII. Al-Khalil (717-786) escribió el Libro de Mensajes Criptográficos, que contiene uno de los primeros usos de permutaciones y combinaciones para enumerar todas las posibles palabras en árabe con y sin vocales (Broemeling, 2011). El Manuscrito de Al-Kindi sobre el Desciframiento de Mensajes Criptográficos proporcionó una descripción detallada de cómo utilizar el análisis de frecuencia para descifrar mensajes encriptados, ofreciendo un ejemplo temprano de inferencia estadística para descifrar. Ibn Adlan (1187-1268) posteriormente realizó una importante contribución sobre el uso del tamaño de muestra en el análisis de frecuencia (Broemeling, 2011).

Figura 3.1. Al-Kindi, cuyo nombre completo era Abu Yusuf Ya'qub ibn Ishaq al-Kindi, fue un destacado filósofo, científico y matemático árabe. Nacido en el año 801 en Bagdad, que en ese entonces formaba parte del califato abasí, Al-Kindi se destacó por su contribución a la traducción de textos griegos clásicos al árabe, especialmente obras de filosofía y ciencia. Fue conocido como el "filósofo de los árabes" y desempeñó un papel crucial en la preservación y transmisión del conocimiento antiguo a la civilización islámica. Sus escritos abarcaron una amplia gama de temas, incluyendo la filosofía, la astronomía, las matemáticas y la medicina. Su legado perdura como una figura influyente en la historia del pensamiento islámico y la contribución árabe al desarrollo de la ciencia y la filosofía. Falleció en el año 873 en Bagdad.

3.1. Estadística clásica

Aunque el término 'estadística' fue introducido por el erudito italiano Girolamo Ghilini en 1589 en referencia a una colección de hechos e información sobre un estado, fue el alemán Gottfried Achenwall en 1749 quien comenzó a utilizar el término como una colección de información cuantitativa, en el uso moderno para esta ciencia (Bruneau, 2022; Ostasiewicz, 2014). Los escritos más antiguos que contienen estadísticas en Europa datan de 1663, con la publicación de "Observaciones Naturales y Políticas sobre los Registros de Mortalidad" de John Graunt (Willcox, 2018) . Las primeras aplicaciones del pensamiento estadístico giraban en torno a las necesidades de los estados para fundamentar políticas en datos demográficos y económicos, de ahí su etimología relacionada con "stat" (estado). El alcance de la disciplina de la estadística se amplió a principios del siglo XIX para incluir la recopilación y análisis de datos en general. Hoy en día, la estadística se emplea ampliamente en el gobierno, los negocios y las ciencias naturales y sociales.

Los fundamentos matemáticos de la estadística se desarrollaron a partir de discusiones sobre juegos de azar entre matemáticos como Gerolamo Cardano, Blaise Pascal, Pierre de Fermat y Christiaan Huygens. Aunque la idea de probabilidad ya se había examinado en la antigua y medieval ley y filosofía (como el trabajo de Juan Caramuel), la teoría de la probabilidad como disciplina matemática solo tomó forma a finales del siglo XVII, particularmente en la obra póstuma de Jacob Bernoulli, "Ars Conjectandi" (Franklin, 2001). Este fue el primer libro en el que se combinaron el ámbito de los juegos de azar y el ámbito de lo probable (que se refería a opiniones, evidencia y argumento) y se sometieron a análisis matemático (Schneider, 2005; Sylla, Bernoulli, & Jacob, 2006).. El método de los mínimos cuadrados fue descrito por primera vez por Adrien-Marie Legendre en 1805, aunque Carl Friedrich Gauss presumiblemente lo utilizó una década antes, en 1795 (Lim, 2021).

Figura 3.2. Carl Friedrich Gauss, matemático, astrónomo y físico alemán, nació el 30 de abril de 1777 en Brunswick, Alemania. Conocido como el "Príncipe de los Matemáticos", Gauss hizo contribuciones significativas en diversos campos de las matemáticas y la ciencia. A una edad temprana, demostró su genialidad resolviendo el problema de la construcción de un polígono regular de 17 lados con regla y compás. En matemáticas, formuló el teorema fundamental del álgebra y desarrolló la teoría de los números. También hizo avances en astronomía, calculando las órbitas de asteroides y contribuyendo a la teoría de los errores en la estadística. Su trabajo en geodesia sentó las bases para el sistema de coordenadas geodésicas y el GPS. Gauss murió el 23 de febrero de 1855 en Gotinga, Alemania, dejando un legado perdurable en la ciencia y las matemáticas.

3.2. Estadística moderna

El campo moderno de la estadística surgió a finales del siglo XIX y principios del siglo XX en tres etapas (Walker, 1975).

3.2.1. Etapa 1

La primera ola, a principios del siglo, fue liderada por el trabajo de Francis Galton y Karl Pearson, quienes transformaron la estadística en una disciplina matemática rigurosa utilizada para el análisis, no solo en la ciencia, sino también en la industria y la política. Las contribuciones de Galton incluyeron la introducción de conceptos como la desviación estándar, la correlación, el análisis de regresión y la aplicación de estos métodos al estudio de diversas características humanas, como la altura, el peso y la longitud de las pestañas, entre otros. Pearson desarrolló el coeficiente de correlación producto-momento de Pearson, definiéndolo como un producto-momento, el método de momentos para el ajuste de distribuciones a muestras y la distribución de Pearson, entre muchas otras cosas. Galton y Pearson fundaron Biometrika como la primera revista de estadísticas matemáticas y bioestadísticas (entonces llamada biometría), y este último fundó el primer departamento de estadísticas universitarias en University College London.

3.2.1. Etapa 2

La segunda ola, en las décadas de 1910 y 1920, fue iniciada por William Sealy Gosset y alcanzó su punto culminante en las ideas de Sir Ronald Fisher, quien escribió los libros de texto que definieron la disciplina académica en universidades de todo el mundo. Las publicaciones más importantes de Fisher fueron su influyente artículo de 1918 "La correlación entre parientes bajo la suposición de la herencia mendeliana" (que fue el primero en utilizar el término estadístico "varianza"), su obra clásica de 1925 "Métodos estadísticos para investigadores" y su libro de 1935 "El diseño de experimentos", donde desarrolló modelos rigurosos de diseño de experimentos.

Fisher originó los conceptos de suficiencia, estadísticas auxiliares, discriminador lineal de Fisher e información de Fisher. También acuñó el término "hipótesis nula" durante el experimento de la dama que degustaba té, que "nunca se prueba o establece, pero posiblemente se refuta en el transcurso del experimento". En su libro de 1930 "La teoría genética de la selección natural", aplicó la estadística a varios conceptos biológicos, como el principio de Fisher (que A. W. F. Edwards llamó "probablemente el argumento más célebre en biología evolutiva") y el fugitivo loco de Fisher, un concepto de selección sexual sobre un efecto de retroalimentación positiva que se encuentra en la evolución.

Figura 3.3. Sir Ronald Aylmer Fisher, estadístico y genetista británico, nació el 17 de febrero de 1890 en Londres, Reino Unido. Fue una figura influyente en el desarrollo de la estadística y la genética, considerado uno de los fundadores de la estadística moderna. Sus contribuciones revolucionarias incluyen el desarrollo del análisis de varianza, el diseño experimental y la inferencia estadística. Fisher también introdujo conceptos fundamentales como la "hipótesis nula" y la "varianza". Sus obras, como "Métodos estadísticos para investigadores" y "El diseño de experimentos", siguen siendo fundamentales en la estadística y la investigación científica. Además, Fisher desempeñó un papel crucial en la genética al combinar estadísticas con la teoría de la evolución. Falleció el 29 de julio de 1962 en Adelaida, Australia.

3.2.2. Etapa 3

La última ola, que principalmente vio el perfeccionamiento y la expansión de desarrollos anteriores, surgió del trabajo colaborativo entre Egon Pearson y Jerzy Neyman en la década de 1930. Introdujeron los conceptos de "error de Tipo II", poder de una prueba e intervalos de confianza. Jerzy Neyman en 1934 demostró que el muestreo estratificado aleatorio era, en general, un mejor método de estimación que el muestreo intencional (por cuotas).

Hoy en día, los métodos estadísticos se aplican en todos los campos que implican la toma de decisiones, para realizar inferencias precisas a partir de un conjunto de datos recopilados y para tomar decisiones en medio de la incertidumbre basadas en la metodología estadística. El uso de computadoras modernas ha acelerado los cálculos estadísticos a gran escala y también ha hecho posible nuevos métodos que son impracticables de realizar manualmente. La estadística sigue siendo un área de investigación activa, por ejemplo, en el problema de cómo analizar grandes conjuntos de datos.

4. Tipos de variables

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Toda matemática aplicada a las ciencias de la naturaleza se basa en mediciones, ya hemos visto algunos aspectos de los problemas de la medición tanto en física como en química en el capítulo de unidades y medidas, sin embargo, enfocaremos su homólogo en biología un poco más adelante. Uno de los primeros pasos antes de realizar un proceso estadístico es la necesidad de determinar el tipo de variable que estamos midiendo, de forma tal que podemos identificar o proponer las hipótesis de forma apropiada y dar una respuesta sólida. No todas las variables son iguales, y típicamente podemos clasificarlas en tres categorías principales: variables de medición, variables nominales, y variables de rango.

4.1. Variables de medición o variables continuas

Como su nombre implica son cosas que pueden medirse con un instrumento adecuado con un patrón de medida estandarizado. Los valores siempre estarán expresados con un número y una unidad, inclusive algunas veces pueden tener sentido o dirección. Algunos ejemplos de medidas son la masa, el pH o la densidad ósea. Las variables de medida se caracterizan por la posibilidad teoría de poder asignar una cantidad infinita, o al menos en la práctica, una cantidad grande de valores posibles, y eso solo se logra cuando el nivel de precisión del instrumento de medida es adecuado para lo que se está midiendo. En este sentido hablamos de una variabilidad continua, por lo que estas variables de medición también son conocidas como variables continuas. Si se emplean instrumentos con escalas muy grandes para lo que se está midiendo, la cantidad de resultados posibles para la medición disminuye, lo cual disminuye la continuidad de la variable a medir. Es importante reconocer la diferencia, ya que algunos instrumentos estadísticos están diseñados para variables continuas, y otros para variables discontinuas.

4.2. Variables nominales o variables discretas

Estas son variables de atributo, variables categorías o variables de adjetivo. Estamos tratando con adjetivos categóricos como blanco o negro, alto o bajo, verde o amarillo, macho o hembra. Las variables de adjetivo son por lo general una palabra o un símbolo no matemático, pero en ocasiones pueden ser transformadas a variables continuas si el número de categorías intermedias es alto, o si las categorías pueden expresarse numéricamente. Por ejemplo, los colores pueden expresarse como una variable de medida cuando se emplea el concepto de radiación lumínica, donde los diferentes colores pueden medirse en unidades de longitud de onda. Nuevamente la diferencia fundamental radica en la cantidad de categorías de clasificación posibles, si los resultados posibles son bajos, será una variable nominal aun cuando la expresemos numéricamente. Las variables categóricas o nominales pueden expresarse fácilmente en diagramas de torta o en porcentajes. Lo cual de hecho marcó el inicio de la estadística como ciencia.

4.3. Variables de rango

Las variables de rango son aquellas en las que la medición no puse ser realizada con un instrumento, ya sea porque no existe, porque es impráctico o porque se ha averiado. En este sentido la medición se realiza en términos de quien logra alcanzar cierta categoría, como el primero, el segundo, el tercero, etc. Las variables de rango no son muy comunes, pero emplean instrumentos matemáticos de análisis más robustos llamados estadísticos no paramétricos.

4.4. Ciclos

Un tipo especial de medida es la variable circular o variable que repite en ciclos. Estas variables son por ejemplo las horas del día, los meses o estaciones del año etc. Si solo consideras parte de un ciclo, es decir si no mides como se repiten los eventos en más de un ciclo, la variable circular se convierte en una variable de medición normal. Sin embargo, si la variable es circular, existen estadísticos especiales y bastante oscuros diseñados para ellos.

4.5. Variables oscuras

Aunque anteriormente mencionamos que la diferencia entre la variable de medida continua y la variable categoría discontinua es el número de posibles puntos de medición, siendo para la variable de medida muchas respuestas posibles y para la categoría pocas, el problema es que no hemos definido un punto de corte, no hemos dicho cuanto es muchas y cuanto es pocas. No existe un punto de corte, pero por lo general cuando poseemos más de 6 puntos medidos para una sola variable ya podremos tratarla como una variable continua, mientras que, si tenemos dos o tres la podremos tratar como una variable categórica, las de cuatro o cinco ya quedarían a discreción del investigador.

4.6. Variables de gusto “cuestionario Likert”

En ciencias sociales se emplean mucho los instrumentos Likert, los cuales son listas en las que se emplea un grupo de afirmaciones o categorías que van de una a tres o de una a cinco. Cada categoría viene con una afirmación sobre la cual el encuestado debe anotar en cual se siente más gustó “to like”. Algunas de esas afirmaciones son “nunca”, “a veces”, “generalmente”, “siempre” etc. Existe mucha controversia sobre como analizar los cuestionarios Likert, una opción es tratarlos como variables nominales o categóricas, y luego analizarlo por chi cuadrado o test G. Sin embargo, esto ignora que cada categoría está relacionada con las demás. Otra opción es tratarla como una variable continua, lo cual permite la obtención de promedios, y desviaciones. Sin embargo, la mejor opción para trabajar un cuestionario Likert como una variable de medida es aumentar la cantidad de posibles resultados a más de 6, con lo cual se obtiene un conjunto de datos con distribución normal.

4.7. Variables dependientes e independientes

Es uno de los modos más antiguos de distinguir las variables, en esta se tienen dos categorías o dimensiones de medición, una de ellas es una variable que se le dan valores prefijados, mientras que la otra cambia en función de la primera, por lo que se la llama dependiente. En física y química muchas variables dependientes son funciones simples, por medio de multiplicaciones con constantes de proporcionalidad, como en el caso de la ley de Hooke o de la ley de Boyle. Cuando se generaliza esto a variables biológicas por lo general se emplean métodos de regresión para obtener funciones matemáticas que relacionen las variables, siendo la más común, la regresión lineal, la cual arroja los valores de las respectivas constantes de proporcionalidad. En otras ocasiones es difícil distinguir cual es la variable dependiente y cuál es la independiente, por lo que se emplean otras técnicas estadísticas para su correlación.

Referencias generales: (McDonald, 2015)

5. Incertidumbres

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Cuando realizas una media, empleas algún tipo de instrumento de medición. Por ejemplo, puedes emplear un metro para medir una altura, una balanza para determinar un peso, o un termómetro para determinar una temperatura. Este proceso generalmente presenta dos problemas. El primero si el instrumento emplea un sistema de medición analógico, se requiere de entrenamiento para saber leer el instrumento, este problema se evita con un sistema de medida digital que siempre arroja valores claros. El siendo problema es que por lo general los valores medidos directamente deben ser empleados en cálculos matemáticos que no siempre arrojan números enteros. Para poder controlar la cantidad de decimales obtenidos en dichos cálculos se emplea una serie de reglas que se denominan en su conjunto como cifras significativas. Las cifras significativas son una serie de valores que portan un significado verdadero al interior del número. Antes de aprender a operar empleando las cifras significativas, es esencial aprender a reconocerlas en diferentes tipos de números. El aparato que empleamos para medir una determinada cantidad física es denominado instrumento de medición. Tal vez el instrumento de medición más simple de todos es la regla, pero no por eso, saber medir con una regla es algo intuitivo. Existen otros instrumentos de medida que pueden llegar a ser importantes al medir valores trascendentales en nuestra vida cotidiana como la temperatura, la humedad, la presión, la corriente eléctrica, el volumen de agua entre muchos otros.

5.1. Incertidumbre

En la filosofía de las ciencias de la naturaleza se tiene presente la diferencia entre el valor medido y el valor real. El valor medido siempre será una aproximación al valor real debido a la existencia intrínseca de errores observacionales o de medición, que dependen de la accesibilidad del fenómeno, la precisión del instrumento, y la precisión del operario. Los errores de medición pueden dividirse en dos categorías, los errores aleatorios y los errores sistemáticos (BIPM, IFCC, & IUPAC, 2008).

5.1.1. Errores aleatorios

Los errores aleatorios son errores de medición que conllevan a valores que no son consistentes entre una repetición y otra aun cuando estamos midiendo magnitudes que se consideran constantes universales. Las causas de los errores aleatorios se desconocen u obedecen a fenómenos físicos que interactúan de forma homogénea con el experimento causado todo tipo de desviaciones al interior de un rango de precisión. Estos cambios pueden ocurrir en el instrumento de medida o en las condiciones ambientales (Taylor, 1997).

Algunas causas propuestas para los errores aleatorios es el ruido electrónico al interior de los circuitos electrónicos de los instrumentos digitales. Cambios irregulares en el flujo de calor de los instrumentos, que causa dilatación o contracción de las partes instrumentales, causando desviaciones entre una y otra medida que no pueden ser reguladas por medio de la calibración. Otra posibilidad es a cambios mínimos que hace el operario cada vez que manipula el instrumento, aun cuando se trate de un excelente operario siempre existirán alteraciones mínimas que afectan la dispersión de datos en cada repetición. Cabe anotar que este tipo de error no implica que el procedimiento experimental esté mal hecho, ellos siempre estarán presentes y por ende hay que buscar la forma de informar sobre estos errores en los informes de laboratorio.

El error aleatorio puede describirse en términos matemáticos empleando el modelo de normalidad de obtención de datos que se grafica por medio de la curva de Gauss y en consecuencia pueden ser analizados por instrumentos estadísticos como el promedio aritmético, la desviación estándar y otros estadísticos de inferencia. Los errores aleatorios estarán relacionados con el concepto de precisión. La precisión es la medida de respetabilidad de un fenómeno, un fenómeno que se repite de forma consistente en cada ronda experimental, es decir cuyos datos son concordantes cada vez que se experimenta es un dato preciso.

5.1.2. Los errores sistemáticos

Los errores sistemáticos emergen de problemas de calibración del instrumental que siempre desvían los datos de manera consistente en una dirección específica de manera no azarosa. Este error sistemático se evalúa por medio de experimentos control donde se conoce el valor de la variable a medir, y se determina que tan cerca o lejos se está del dato conocido antes de abordar los datos no conocidos.

En la presente sección analizaremos algunos ejemplos para poder realizar el análisis de datos. Tenga en cuenta que los estadísticos aplicados se consideran herramientas o instrumentos de análisis, por lo que entre más automatizado sea el proceso mejor, por lo que realizaremos mucho énfasis en el uso de Excel para realizar las pruebas. A continuación, nos enfocaremos en identificar y cuantificar los errores sistemáticos que se asocia a la incertidumbre en la medición de los instrumentos.

5.2. Instrumentos analógicos

Existen dos tipos de instrumentos, los instrumentos analógicos y los instrumentos digitales. Los instrumentos analógicos indican la magnitud medida mediante la comparación directa con la entidad física, que es el caso de las reglas o los transportadores, o mediante agujas que se mueven en torno a una determinada escala, que es el caso de los relojes de manecilla. Debido a que la escala es fija se puede tener dificultades cuando el valor queda en medio de los segmentos numerados de la escala. Esto hace necesario aproximar los valores dependiendo del instrumento que empleemos, lo cual hace que el valor decimal consignado no sea del todo preciso.

Figura 5.1: El lector de un instrumento análogo es similar a una regla, ya sea recta o circular, en su función principal de medir longitudes, ángulos u otras magnitudes físicas de manera visual. Estos instrumentos son comunes en diversas aplicaciones, desde la medición de longitudes en la construcción hasta la determinación de ángulos en la navegación. A menudo, cuentan con una escala graduada que permite al usuario alinear el indicador o puntero con la magnitud que se está midiendo. Esto facilita una lectura precisa en la escala, permitiendo una medición con alta precisión. A pesar de los avances en la tecnología digital, los instrumentos analógicos siguen siendo valiosos en muchas situaciones debido a su simplicidad y facilidad de uso.

Figura 5.2: El problema de los instrumentos análogos es que a veces la medida es ambigua. Cuando se utiliza un lector análogo, la interpretación exacta puede ser difícil, especialmente cuando la magnitud a medir se encuentra entre dos marcas de la escala. Esta ambigüedad puede llevar a errores de medición si no se tiene cuidado. Aunque los instrumentos digitales han mitigado en gran medida este problema al proporcionar lecturas numéricas precisas, los instrumentos análogos todavía tienen su lugar en aplicaciones específicas donde su simplicidad y costo los hacen preferibles.

Un problema común con los instrumentos analógicos, y mucho más con aquellos cuya escala de medida está debajo de alguna superficie transparente, es que la luz se tuerce cuando atraviesa el material transparente, lo cual a su vez hace que veamos la raya de la medida donde no está realmente, este es denominado el error de Parallax. Por lo general se aconseja observar la escala desde un ángulo derecho, de esta forma si hay un error intrínseco a la observación, todos cometerán el mismo error y al menos todos estarán de acuerdo en ese mismo error. Algunos instrumentos profesionales como viejos multímetros caros emplean lupas para mejorar la visibilidad de la aguja. El límite de precisión de un instrumento analógico será exactamente igual a la mitad de su escala más pequeña. Esto implica que si la aguja o marca de medida nos queda por fuera de los segmentos de la escala más pequeña reportaremos el dato como si estuviera a la mitad, pero sabemos que no está a la mitad. Esto se conoce como intervalo de confianza, es decir, aunque expresemos el dato como la mitad de la escala más pequeña, inmediatamente adicionaremos a la derecha un valor de límites de confianza igual a la mitad de la escala más pequeña, sé que suena enredado, pero miremos el ejemplo de la regla. En la imagen vemos que la línea de marca queda en la zona no marcada por los milímetros, aunque no exactamente en el medio, si eso nos pasa lo reportamos como si estuviera en el medio 5.35 con un intervalo de confianza de ±0.05, de forma tal que el valor se expresa como 5.35±0.05 cm o 53.5±0.5 mm.

5.3. Instrumentos digitales

Los instrumentos digitales no tienen una escala prefijada, así que expresan sus resultados en magnitudes legibles directamente hasta su última cifra con significado de precisión. Esto hace que no sea necesario un entrenamiento previo para leer dicho instrumento, además muchos de ellos poseen menos partes móviles que los instrumentos analógicos, lo cual los hace más durables. Dado que hay menos error humano y de ingeniería en estos instrumentos, sus valores son mucho más confiables, pero el problema es que también son más costosos. Muchos de los instrumentos de la vida cotidiana o de un laboratorio escolar son instrumentos analógicos. A continuación, hablaremos de la medición con instrumentos simples.

Figura 5.3: El lector de un instrumento digital presenta una solución a la ambigüedad asociada con los instrumentos análogos. En lugar de depender de una escala graduada, muestra mediciones de manera numérica en una pantalla digital. Esto elimina la necesidad de interpretar visualmente una posición en la escala y proporciona lecturas precisas y sin ambigüedad. Los instrumentos digitales se utilizan ampliamente en campos donde la precisión y la facilidad de lectura son críticas, como la electrónica, la ingeniería y la medicina, permitiendo mediciones rápidas y confiables.

A menos que en el empaque se diga otra cosa, el papel del último digito con significado ambiguo lo asume precisamente el último digito más pequeño. Por ejemplo, un reloj digital posee cifras para decenas de horas, horas, decenas de segundos, segundos, décimas de segundo y centésimas de segundo. En este caso las centésimas de segundo se convierten en la última cifra que determina el intervalo de confianza de la medida del tiempo. Por ejemplo, si medimos los reflejos de un estudiante como lo rápido que son capaces de detener el cronómetro cuando ven determinada marca, se debe reportar que el instrumento tiene un intervalo de confianza de ±0.1 cs. A este error lo llamaremos límite de precisión del instrumento.

6. Estadísticos descriptivos

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Los estadísticos descriptivos describen cuantitativamente una serie de datos resumiendo comportamiento general. El enfoque de los estadísticos descriptivos es resumir una muestra, lo cual los diferencia de los esdísticos de inferencia que permiten juzgar el comportamiento de la población.

6.1. Tendencia central

La tendencia central resume donde se encuentra un punto medio en una colección de medidas. La media aritmética es la más común, pero existen otras variables de tendencia central que son útiles. Solo en el caso de que las variables se hayan medido de forma aleatorizada, en la cual no existen sesgos, algunas medidas de tendencia central se unifican en lo que conocemos como promedio.

6.1.1. Media aritmética o promedio simple

(a) Promedio de la muestra \(\overline{x}\): La media aritmética es lo que vulgarmente conocemos como promedio y es la medida de tenencia central más empleada. Aunque la definición típica del promedio se representa con una "x" con barra, es importante destacar que esta "x" puede ser reemplazada por cualquier otro parámetro físico: \[ \bar{x} = \frac{1}{n} \cdot \sum_{i=1}^{n} (x_i) \]. Eq 6.1. Definición del promedio aritmético, que normalmente se traduce a sume los elementos de la serie de datos y divida entre el número de datos. Su fórmula para Excel es [=promedio(celda-inicial:celda-final)].

En estas fórmulas \({x}_i\) representa la variable medida; \(\i\) representa la posición a reemplazar con las medinas (1, 2, 3 hasta la medida final llamada \(\n\)); \(\n\) representa la medida final o total de medidas tomadas en la muestra. El promedio es solo útil cuando trabajamos con poblaciones de datos que concuerdan con una distribución normal, y es muy insensible a los valores extremos, por lo que el promedio no nos dirá mucho sobre cómo se comportan los máximos y los mínimos. Para Excel \(\overline{x}\), la fórmula es:

(b) Promedio del universo o promedio verdadero \(\mu\): En estadística se suele diferenciar entre dos tipos de promedios aritméticos, el promedio del universo o toda la población completa que se simboliza como \(\mu\) y el promedio de una muestra de ese universo que si tiene el símbolo más común x-barra \(\overline{x}\). La principal diferencia en las ecuaciones radica en el número de elementos, para la población completa se emplea el símbolo \(N\) que representa la totalidad del universo, mientras que \(\mu\) representa solo una fracción o muestra. \[ \mu = \frac{1}{N} \cdot \sum_{i=1}^{n} (x_i) \]Eq 6.2. Definición del promedio aritmético, que normalmente se traduce a sume los elementos de la serie de datos y divida entre el número total de elementos en el universo de datos.

(c) Media geométrica: tiene algunas aplicaciones en economía, involucrando las tasas de interés, pero tiene raras aplicaciones en la biología. Su fórmula es la siguiente: \[ \bar{x} = \frac{1}{n} \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}} \]Eq 6.3. Definición del promedio geométrico, que normalmente se traduce a multiplique los elementos de la serie de datos, poténcienlos a un valor igual a 1/n y divida entre el número total de elementos en el universo de datos n. Su fórmula en Excel es [=media.geom(celda-inicial:celda-final)]

6.1.2. Media harmónica

La media harmónica tiende a presentar errores o valores de dispersión menores, sin embargo, cuando hay un valor en cero se vuelve no-definida matemáticamente. No es muy empleada en la biología: \[ H = \frac{n}{\left( \frac{1}{x_1} + \frac{1}{x_2} + \ldots + \frac{1}{x_n} \right)} = \frac{n}{\sum_{i=1}^{n} \left( \frac{1}{x_i} \right)} \]Eq 6.4. Definición de la media armónica, su fórmula en Excel es [=mesia.armo(celda-inicial:celda-final)]

La media armónica \(H\) es útil y apropiada en situaciones en las que se trata con datos que representan tasas, ratios o proporciones. A diferencia de la media aritmética, que da igual peso a todos los valores, la media armónica da más peso a los valores más pequeños en el conjunto de datos. Por lo tanto, es especialmente útil en los siguientes casos:

(a) Velocidades y tasas: La media armónica se utiliza con frecuencia para calcular velocidades promedio, tasas de flujo o rendimientos cuando se trata de datos que involucran tiempo y distancia. Por ejemplo, para calcular la velocidad promedio de un viaje cuando la distancia es constante pero el tiempo varía.

(b) Problemas de trabajo conjunto: En problemas que involucran el trabajo conjunto de varias personas o máquinas, la media armónica se utiliza para calcular el rendimiento conjunto. Se aplica cuando la velocidad o la tasa de trabajo de cada componente son factores importantes.

(c) Finanzas y economía: En el campo de las finanzas y la economía, la media armónica se utiliza en cálculos relacionados con índices, tasas de retorno y ratios financieros.

(d) Problemas de inversión y negocios: En situaciones en las que se evalúan inversiones o se analizan ratios financieros, la media armónica puede ser relevante.

6.1.3. Mediana

La mediana se define como el punto medio de una serie de datos organizados por rango, desde el menor al mayor. Para una serie impar se elige el número en medio y para una serie par se obtiene suma y divide entre dos a los dos dígitos del punto medio: \[ \tilde{x} = \begin{cases}

x_{\left(\frac{n+1}{2}\right)} & \text{si } n \text{ es impar} \\

\frac{1}{2} \left( x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)} \right) & \text{si } n \text{ es par}

\end{cases}

\]Eq 6.5. Definición de la mediana, su fórmula en Excel es [=mediana(celda-inicial:celda-final)]

La mediana es una medida estadística que se utiliza en diversas situaciones para resumir y analizar datos. A continuación, se describen algunos de los usos más comunes de la mediana:

(a) Resumen de datos centrados: La mediana se utiliza para resumir un conjunto de datos al proporcionar un valor central o típico. A diferencia de la media aritmética, que puede verse afectada por valores extremos (outliers), la mediana es menos sensible a estos valores atípicos y, por lo tanto, a menudo proporciona una mejor representación de la tendencia central de los datos.

(b) Distribuciones sesgadas: Cuando se trabaja con distribuciones sesgadas o asimétricas, la mediana puede ser una medida más representativa de la ubicación central de los datos que la media. Esto es especialmente útil en estadísticas aplicadas a campos como la economía, donde las distribuciones pueden ser sesgadas.

(c) Ordenación y clasificación: La mediana se utiliza comúnmente para ordenar y clasificar datos. Por ejemplo, en la estadística de salud, se utiliza para clasificar pacientes según su edad, ingresos o tiempo de recuperación.

(d) Datos ordinales: En casos en los que los datos son ordinales o no tienen una escala de intervalo o razón, la mediana es una medida apropiada para describir la tendencia central. Esto es común en encuestas de opinión, donde las respuestas se pueden ordenar, pero no se pueden tratar como valores numéricos precisos.

(e) Comparación de distribuciones: La mediana se utiliza para comparar y contrastar diferentes distribuciones de datos. Puede ayudar a identificar si una distribución está desplazada hacia la izquierda o hacia la derecha en comparación con otra.

(f) Datos agrupados: Cuando se trabaja con datos agrupados en intervalos, la mediana es una medida útil para estimar la ubicación central de los datos.

(g) Robustez frente a valores atípicos: La mediana es una medida resistente a valores atípicos, lo que significa que no se ve afectada en gran medida por valores extremos en el conjunto de datos. Esto la hace valiosa en situaciones donde la presencia de valores atípicos podría distorsionar la media.

6.1.4. Moda

La moda es una función de valor medio que aplica a una serie de variables categóricas, en la cual se expresa como el valor que es más común de encontrar. Las variables continuas no poseen una moda como tal, y para obtenerla hay que redondear los valores continuos a categorías discretas [=moda(celda-inicial:celda-final)].

6.2. Normalidad

Si bien cuando se tiene un solo set de números aleatorios, la probabilidad de que cualquiera aparezca es la misma, cuando vas aumentando la cantidad de variables aleatorias, la curva deja de ser una línea horizontal recta, sino que aparece una tendencia central llamada curva de Gauss, en la que el pico representa el valor más probable asumiendo un sistema aleatorio con muchas variables involucradas. Las curvas gaussianas son simétricas y por eso también se las denomina campanas de gauss. Cuando tenemos una serie de datos con algún sesgo las tres medidas de tendencia central son muy distintas y en términos prácticos la única medianamente útil seria la moda. Por otro lado, una distribución simétrica arrojará valores iguales entre moda, media y mediana, en ese sentido la curva de gauss cumple tal condición, pero no es la única. Sin embargo, el promedio es muy fácil de obtener, sobre todo en hojas de cálculo como Excel donde solo debes colocar [=promedio(celda-inicial:celda-final)].

Figura 6.1. En la gráfica anterior tenemos dos curvas, una curva con sesgo a la derecha en líneas segmentadas y una gaussiana completamente simétrica.

Por tal razón uno de los primeros pasos antes de analizar una serie de datos es corroborar que estos se distribuyan aleatoriamente, es decir, mediante pruebas de normalidad. Martinez (2014) nos muestra una serie de herramientas en Excel que nos permitirá corroborar la normalidad de una serie de datos antes de ponernos a aplicar estadísticos que requieran de una serie de datos normal (YouTube 1 / YouTube 2 / YouTube 3):

6.3. Dispersión

Los estadísticos de dispersión nos permiten determinar qué tan cerca se encuentran los valores reales del valor de tendencia central. Por lo general el más común de estos es la desviación estándar, pero existen otros.

6.3.1. Rango

El rango representa la diferencia entre el valor más alto y el valor más pequeño de una serie de datos. El rango no es muy informativo para propósitos estadísticos, ya que no te dice cómo es que se distribuyen los datos individuales al interior del rango:\[\Delta r=r_{max}- r_{min}\]. Eq 6.6. Definición del rango de datos, su fórmula en Excel es [=MAX(celdas de la serie de datos) - MIN(celdas de la serie de datos)].

La diferencia aquí es específica, el rango de un conjunto de datos es el resultado de restar el valor más pequeño del valor más grande. Sin embargo, en estadística descriptiva, este concepto de rango tiene un significado más complejo. El rango es el tamaño del intervalo más pequeño (estadísticas) que contiene todos los datos y proporciona una indicación de dispersión estadística. Se mide en las mismas unidades que los datos. Como solo depende de dos de las observaciones, es más útil para representar la dispersión de pequeños conjuntos de datos o para determinar la escala de una gráfica.

6.3.2. Error absoluto y error relativo

El error absoluto nos da una medida de la desviación, en términos absolutos, respecto al valor “verdadero”. No obstante, en ocasiones nos interesa resaltar la importancia relativa de esa desviación. Para tal fin, se usa el error relativo. Podemos calcular el error absoluto como la distancia entre un dato o un promedio con respecto al valor verdadero. El error relativo se define como el cociente entre el error absoluto y el valor “verdadero”.

\[ E = |\mu - \bar{x}| \]

Eq 6.7. Error absoluto.

\[ \epsilon = \frac{|\mu - \bar{x}|}{\mu} \]

Eq 6.8. Error relativo.

6.3.3. Suma de diferencias al cuadrado

La suma de cuadrados \(dc\) no es un estadístico por sí mismo, pero forma la base de otros como la varianza o la desviación estándar. La suma de cuadrados permite acumular las desviaciones de una serie de datos con respecto al promedio, omitiendo su direccionalidad, de esta forma se pueden incorporar datos positivos o negativos en un mismo sistema de acumulación. \[ dc = (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2 = \sum_{i=1}^{n} (x_i - \bar{x})^2 \]Eq 6.9. Suma de diferencias cuadráticas.

6.3.4. Varianza

Es una de las medidas de desviación con respecto a la tendencia central más empleadas, sin embargo, hay que tener cuidado en diferenciar dos conceptos, la varianza de toda la población o universo llamada varianza paramétrica; y la varianza de una muestra.

6.3.4.1. Varianza paramétrica

La variaba paramétrica emplea únicamente cuando se obtiene un muestreo de \(N\) completo, lo cual implica determinar la propiedad de medida de todos los miembros de una población, lo cual generalmente no es el caso. La varianza paramétrica se obtiene dividiendo la suma de cuadrados entre el número de observaciones total \(N\).\[ \sigma^2 = \frac{dc}{N} \] Eq 6.10. Varianza paramétrica, su fórmula en Excel es [=var.p((celda inicial:celda final)) ]

6.3.4.2. Varianza de una muestra

También conocida como la varianza maestral se obtiene dividiendo la suma de diferencias entre \(n – 1\) lo cual permite realizar estimados de muestras poblacionales y no de la población completa. \).\[ \sigma^2 = \frac{dc}{n-1} \] Eq 6.11. Varianza de una muestra su fórmula en Excel es [=var.s((celda inicial:celda final)) ]

6.3.5. Desviación estándar

El problema con la varianza es que sus unidades se encuentran al cuadrado, por lo que es difícil relacionarla con la medida de tendencia media, en ese sentido lo más conveniente es obtener una raíz cuadrada que normaliza las unidades a una escala semejante a la medida de tendencia media. La desviación estándar en consecuencia es una de las medidas de dispersión más comunes y se divide en dos categorías.

\[ \sigma = \sqrt{\frac{dc}{N}} \]

Eq 6.12. Desviación estándar de la población su fórmula en Excel es [=desvestp((celda inicial:celda final)) ]

\[ s = \sqrt{\frac{dc}{n-1}} \]

Eq 6.13. Desviación estándar de la muestra su fórmula en Excel es [=desvest((celda inicial:celda final)) ]

6.3.6. Coeficiente de variación

El coeficiente de variación \(cv\) es un parámetro estadístico que se utiliza para evaluar la variabilidad relativa en un conjunto de datos. Se calcula dividiendo la desviación estándar de una muestra por el promedio aritmético de la misma muestra. En términos de fórmula, se expresa como:\[cv=\frac{\sigma}{\overline{x}}\]Eq 6.14. Coeficiente de variación.

La asignación de categorías a los niveles de coeficiente de variación (CV) puede variar según el contexto y las convenciones específicas de la disciplina en la que se aplique. Sin embargo, aquí hay una guía general que puede ayudarte a interpretar el CV:

\(cv\) menor al 5%: Muy bajo, indicando una alta consistencia y previsibilidad en los datos, es decir un alto nivel de presición.

\(cv\) menor al 10%: Generalmente se considera bajo y sugiere una baja variabilidad relativa en los datos.

\(cv\) entre 10% y 30%: Es un rango moderado y sugiere una variabilidad moderada en los datos en relación con el promedio aritmético. Esto es común y aceptable en muchas aplicaciones.

\(cv\) mayor que 10% y 30%: indica una alta variabilidad relativa en los datos en comparación con el promedio aritmético. Los datos son menos consistentes y más dispersos.

Estos son solo rangos generales y pueden variar según la disciplina y los estándares específicos. Es importante considerar el contexto en el que se aplica el coeficiente de variación y los objetivos del análisis de datos. Por ejemplo, en ciertos campos, un \(cv\) del 20% puede considerarse alto, mientras que en otros campos puede considerarse aceptable. La interpretación del \(cv\) se basa en las necesidades y estándares de la aplicación específica.

El coeficiente de variación se expresa típicamente como un valor porcentual, multiplicando el resultado por 100 para obtener el porcentaje. Este valor permite expresar la variabilidad relativa en términos porcentuales.

El \(cv\) se utiliza comúnmente en diversas áreas, como la ciencia, la economía, la investigación de mercado y la ingeniería, para comparar la dispersión o variabilidad en diferentes conjuntos de datos. Algunos usos típicos del coeficiente de variación incluyen:

(a) Comparación de la variabilidad: Permite comparar la dispersión relativa de datos en diferentes conjuntos, lo que es especialmente útil cuando los conjuntos de datos tienen diferentes unidades de medida o escalas.

(b) Evaluación de la estabilidad: Ayuda a determinar cuán estables o consistentes son los datos a lo largo del tiempo. Un \(cv\) bajo sugiere que los datos tienden a ser más consistentes, mientras que un \(cv\) alto indica mayor variabilidad.

(c) Selección de variables: En análisis de datos y modelado estadístico, el \(cv\) puede ayudar a seleccionar variables o características que tienen un impacto relativamente constante en comparación con otras.

(d) Comparación de rendimiento: En la investigación de mercado y la evaluación de productos, se utiliza para comparar la variabilidad de las respuestas de diferentes grupos de muestra.

7. Incertidumbre e intervalos de confianza

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Anova de dos factores] [13 Regresión lineal] [Referencias]

El objeto de un intervalo de confianza es que dados datos limitados de una muestra se obtenga un estimado que contenga al promedio de la población y en intervalo de variación o incertidumbre debido a factores azarosos como el operario o factores microambientales que se escapan del control del diseño experimental y que no se deben a la incertidumbre propia del instrumento experimental.

7.1. Midiendo la dispersión

En general se emplea la desviación estándar del siguiente modo: La fórmula \(\mu \pm \sigma \) es el intervalo de confianza para toda la población o universo de estudio, mientras que \(\overline{x} \pm \sigma s \)es el intervalo de confianza para la muestra estudiada, recuerde que los significados de estos símbolos se encuentra en la sección de estadísticos descriptivos.

7.2. Comparando con respecto a algún valor teórico

Existen otros intervalos de confianza que no buscan medir la dispersión, sino ver que tan probable es que un valor dado \(\mu\) se encuentre dentro del rango de nuestro intervalo. Por ejemplo, si fabricamos un objeto con una medida teórica que en el papel debe tener todos los objetos, ese valor teórico será el \(\mu\). Luego, por medio de una muestra pequeña mediremos objetos reales y el promedio de esa muestra \(\overline{x}\) se comparará contra el \(\mu\) por medio de un intervalo de confianza.

7.2.1. Prueba de hipótesis

👉 Hipótesis nula: \(\mu\) se encuentra dentro del rango del intervalo de confianza construido por medio de técnicas estadísticas y una muestra.

👉 Hipótesis alternativa: \(\mu\) no se encuentra dentro del rango del intervalo de confianza construido por medio de técnicas estadísticas y una muestra.

7.2.2. Estadístico Z

El estadístico \(Z\) (25) se emplea cuando se conoce la desviación estándar de la población completa \(sigma\) y el número de individuos de la población completa \(N\), de forma tal que el error estándar ±\(\epsilon^o\) adquiere la forma que describe la población completa de datos. \[ \pm \epsilon^o = \pm Z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{N}} \].Eq 7.1. Definición del error estándar ±\(\epsilon^o\) con el estadístico \(Z\).

El problema es que es improbable que conozcamos a \(\sigma\) y que podamos contar a todos los individuos de la población \(N\), si estamos hablando de una población de leones, estaríamos hablando de una medida en todos los leones del universo. Dado que un investigador tiene recursos limitados, no puede ni controlar ni medir todo el conjunto de datos posibles, por lo que debe elegir una muestra representativa de la población, la pregunta es ¿entonces no puede usarse el estadístico \(Z\)? En realidad, no, sin embargo, hay que realizar una aproximación que se traducirá a tener una población grande. El problema es definir qué tan grande. Sí la población sumara las 30 mediciones se dice que es suficientemente grande para emplear el estadístico \(Z\), de forma tal que la desviación estándar de la muestra será lo suficientemente grande para aproximarse significativamente a la desviación estándar de la población.

Ejemplo. Si la muestra es de 30 \(n= 30 \) entonces \( \sigma \approx s \); \( N \approx m \); y \( \overline{x} \approx \mu \), por lo tanto, en términos prácticos la ecuación queda como \[ \pm \epsilon^o = \pm Z_{\frac{\alpha}{2}} \cdot \frac{s}{\sqrt{n}} \].Eq 7.2. Definición del error estándar ±\(\epsilon^o\) con el estadístico \(Z\).

Y el intervalo de confianza se calcula como \(\overline{x}\pm \epsilon^o \). Ahora el problema se traslada a la estimación del valor \(Z(\alpha/2)\). Para hacerlo tenemos dos opciones principales, buscar el valor en una tabla, que normalmente traen los libros de texto de estadística; o generarla en Excel.

(a) Valor \(Z\) en una tabla: La tabla \(Z\) que debemos emplear y las que encontramos difieren, de hecho, existen tres tablas de la \(Z\). La que debemos emplear se denomina “Cumulative from mean (0 to \(Z\))” o acumulación desde la \(Z\) desde 0 hasta \(Z\). Si no tiene el nombre se reconoce porque su esquema de normalidad sombrea desde 0 hasta \(Z\). La forma en que buscamos en esta tabla difiere fuertemente del uso de otras tablas. En otras tablas buscas en la primera fila y la primera columna para encontrar un valor en el “relleno” de la tabla.

Figura 11‑1. Esquema de normalidad asociado a la tabla Z.

Aquí es, al contrario, debemos encontrar el valor en el relleno de la tabla inicialmente. El relleno de la tabla posee una gran variedad de valores que conocemos colectivamente como alfa medios \(\alpha/2\). Alfa medios \(\alpha/2\) se calcula a través del alfa porcentual con la siguiente fórmula. \[(\alpha/2)_ \% =\frac{\alpha}{200%}\] Eq 7.3. definición del alfa crítico.

Ejemplo: Recuerde que en esta fórmula empleamos valores de alfa como 95% o 99%, de lo contrario hay que hacerle modificaciones. Para un alfa del 95%, alfa medios vale 0.475: \[(\alpha / 2)_ {95\%} =\frac{95%}{200%}=0.475\]

Tabla 7.1. Tabla de distribución Z.

Por lo que procedemos a buscarlo en el relleno de la tabla \(Z\) (Tabla 1). Una vez encontramos alfa medios en la tabla debemos “armar” el valor Z correspondiente mirando la primera fila y la primera columna. En la primera columna nos dan los primeros dos dígitos del valor de \(Z\), y en la primera fila el tercer dígito. En el ejemplo anterior la primera columna nos dio 1.9 y la primera fila +0.06 por lo que \(Z_{\alpha/2}=1.96\)

(b) Valor Z en Excel: A veces es más fácil contar con Excel, especialmente cuando ya has terminado tus cursos de estadística y arrojado las tablas físicas a la basura. La ventaja de Excel es que nos arrojará el valor de Z a un alfa que deseemos. \(Z_{\alpha/2}\) =-distr.norm.estand.inv((100-alfa)/200).

(c) Interpretación: El error estándar de la prueba \(Z\) nos ayuda a determinar en medio de que valores de medición se encuentra el promedio real del universo μ sin tener que medir todo el universo de variables. Esto es útil cuando estas comparando su muestra experimental con respecto a un valor teórico o estandarizado con otros métodos. Si μ es un valor al interior del intervalo de confianza, podremos decir que el promedio medible es igual al promedio que debería tener con un nivel de confianza del 95%. ¿Cuál es la gracia? No hace falta medir todos los objetos fabricados. Sólo necesitas coger una muestra pequeñita de más de 30. Calculas la media y la desviación estándar de la muestra y sabrás dónde estará la media del universo μ de todos los objetos con un 95% de posibilidades.

7.2.3. Estadístico t

El estadístico t se emplea cuando no se conoce la desviación estándar de la población “pero si se conoce la desviación estándar de la muestra”. En este orden de ideas el error estándar toma la siguiente forma: \[ \pm \epsilon^o = \pm t_\alpha \cdot \frac{s}{\sqrt{n}} \] Eq 7.4. Ecuación del error estándar empleando el estadístico t de student.

En la práctica diremos que no conocemos la desviación estándar de la población cuando no es adecuado aproximar la desviación de la población y de la muestra. ¿Cómo reconocerlo dicho punto? Pues cuando el tamaño de la muestra sea inferir a 30 repeticiones. Debido a que muchos experimentos hacen incluso menos de 10 repeticiones, siendo 3 uno de los valores más empleados, el intervalo de confianza más empleando se genera con el estadístico \(t\) de student.

(a) Valor \(t\) de una tabla: La tabla \(t\) de Student se usa normalmente, en la primera fila se identifica el punto crítico alfa que normalmente sería 95%/0.05 y en la primera columna se busca el valor igual al \(n – 1\) que siempre será menor a 30, luego en la intersección se obtiene la \(t\) crítica.

Tabla 7.2. Tabla de distribución t.

Por ejemplo, si tenemos una probabilidad del 95% y 11 réplicas, buscaremos en la columna (100%-95%=0.05%) y en la columna 11-1=10 (Tabla 7.2), siendo el valor igual a 1.8125. Para calcular el \(t_{\alpha} en Excel aplicaremos [=inv.t(alfa/100;n-1]. Referencias generales: (McDonald, 2015)

(b) Prueba \(t\) para una muestra de más del 5%: La distribución t supone que la población está distribuida normalmente. Esta suposición es particularmente importante para \(n\) menor que 30. Pero cuando la población es finita (\(N\) es conocido) y el tamaño de la muestra constituye más del 5% de la población, se debe usar el factor finito de corrección para modificar las desviaciones estándar. Por lo tanto, si cumple:\[\frac{n}{N} \cdot 100% < 5%\] Eq 7.4. Prueba para establecer si se debe cambiar la definición del error estándar empleando el estadístico \(t\).

Siendo \(N\) el tamaño de la población y \(n\) el tamaño de la muestra, la fórmula para construir el intervalo de confianza cambia a: \[ \pm \epsilon^o = \pm t_\alpha \cdot \frac{s}{\sqrt{n}} \cdot \sqrt{\frac{N - n}{N - 1}} \]Eq 7.5. Fórmula para calcular un intervalo de confianza ajustado para poblaciones finitas.

(c) Interpretación: Los intervalos de confianza cumplen la misma función que los construidos con el estadístico \(Z\), nos permiten comparar el rango del intervalo con posibles promedios reales \(\mu\). Así pues, si el valor teórico/real se encuentra dentro del rango del intervalo, se concluye que \(\mu\) puede ser el promedio de la población total o universo, medida a través de una muestra pequeña.

8. Introducción a la probabilidad

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Resulta extraño como la gente niega la presencia del azar en la biología cuando este se inmiscuye a tantos niveles y procesos. Y eso es lo que nos trae el día de hoy a este tema. Mendel describió sus resultados en términos del azar y su medida por medio de probabilidades. En otras palabras, el funcionamiento matemático de la genética de Mendel toma en cuenta fenómenos azarosos. Por lo anterior, para matematizar correctamente el trabajo básico de los genetistas y biólogos evolutivos, primero conoceremos las definiciones básicas de azar, probabilidad y estadística, y luego procederemos a repasar las herramientas matemáticas básicas empleando un modelo experimental. El estudio de las probabilidades abarca tres definiciones fundamentales:

Azar: Falta de predictibilidad de un evento dado a partir de una variedad de eventos posibles.

Probabilidad: Una medida de que un evento aleatorio se dé, o no se dé. Las probabilidades tienen diferentes modos de expresión matemático, pero los casos comunes son: radios, fracciones, frecuencias y porcentajes.

Estadística: Es la rama de las matemáticas que se encarga del estudio de las probabilidades y del azar. Porque como siempre digo, el azar no es un chiste cósmico, el azar puede ser descrito hasta cierto punto de manera matemática.

La probabilidad es un tema implícito a la hora de estudiar la genética clásica. Antes que nada, es importante resaltar que, aunque la mayoría de los conceptos biológicos en los exámenes de estado no necesitan ser memorizados ya que aparecen en textos de apoyo, en otras palabras, para encontrar la respuesta solo hay que leer analíticamente, pero en la genética no sucede lo mismo. En los exámenes de estado aparecen ejercicios de genética clásica y se asume que el estudiante es capaz de resolver estos ejercicios sin la necesidad de una calculadora. Para esto es necesario que el estudiante sepa manipular números fraccionarios.

8.1. Modelos estadísticos básicos.

Debido a que históricamente la estadística se diseñó para ser aplicada a los juegos de azar por algunos tahúres y ludópatas que casualmente resultaron ser matemáticos, emplearemos primero los modelos de la moneda y el dado para entender algunos conceptos clave de la estadística. De hecho, es más que evidente que los primeros estudiosos de la estadística debieron aplicar sus conclusiones a los juegos de azar que empleaban dados. Existen varios tipos de dados, por ejemplo los de 4 caras (Figura 8.1 amarillo), los de 6 caras (normal), los de 8 caras (F Figura 8.1 negro), los de 12 caras (Figura 8.1 azul) y los de 100 caras. A medida que se incrementa la cantidad de caras, el sistema de estudio se hace más complejo. Otra forma de hacer más complejo el sistema de estudio es analizando tiradas simultáneas de dos o más dados.

Figura 8.1. La moneda y los dados son los modelos de trabajo más simples para iniciar nuestro estudio de la probabilidad.

8.2. Categorías

La probabilidad depende de poder identificar una categoría dada \(i\) entre el total de categorías. Matemáticamente se expresa del siguiente modo: \[ N = \sum_{i=1}^{n} n_i = n_1 + n_2 + \ldots + n_{\text{final}} \]Eq 8.1. Definición del número de entidades total.

Donde \(N\) representa el total de categorías sin distinción que pueden o no aparecer. Por ejemplo, para un dado de 6 caras, el total de caras es de 6, por lo tanto, su \(N\) = 6; para un nado de 12 caras tendremos un \(N\) =12. El valor \(N\) es por lo tanto la suma de todas las categorías, desde la inicial, hasta la final. Por otro lado, cata categoría tendrá un número de repeticiones propio \(n_i\), donde el símbolo (\(i\) indica la categoría concreta. Por ejemplo, la cantidad de caras 3 en un dado de 6 caras será de \(n(cara III)\) =1, porque normalmente un dado solo tiene una cara 3 pintada. ¿Qué pasa si en un dado de 6 caras hay dos caras pintadas con la marca 3? La respuesta es que su valor cambiará a \(n(cara III)\) =2.

8.3. Expresando una probabilidad

Las probabilidades se simbolizan analíticamente con el símbolo \(P\) mayúscula en cursiva y se emplean subíndices para indicar el símbolo de categoría de evento que está ocurriendo \(P_{i}\) o \(P(i)\). Numéricamente una probabilidad es el producto de la división de un número de eventos de una categoría \(n_{i}\) entre el número total de eventos de todas las categorías posibles:\[P_i = \frac{n_i}{N}\]Eq 8.2. Definición fundamental de la probabilidad experimental.

La expresión anterior tiene varias formas de expresarse, siendo estas:

8.3.1. Radios, tasas, proporciones o razones

Son relaciones entre dos o más números que indica cuántas veces el primer número contiene el segundo, o más números. Por ejemplo, si un tazón de fruta contiene ocho naranjas y seis limones, entonces la proporción de naranjas a limones es de ocho a seis (es decir, 8∶6, que es equivalente a la proporción 4∶3). Del mismo modo, la proporción de limones a naranjas es 6∶8 (o 3∶4) y la proporción de naranjas a la cantidad total de fruta es 8∶14 (o 4∶7). Los números en una relación pueden ser cantidades de cualquier tipo, como conteos de personas u objetos, o como medidas de longitudes, pesos, tiempo, etc. En la mayoría de los contextos, ambos números están restringidos a ser positivos y adimencionales. La proporción o radio generalmente se expresa en términos de las categorías que componen al sistema, y no en términos del total

8.3.2. Frecuencias fraccionarias

La fracción es un modo de expresar la probabilidad basada en su definición como Eq 8.2, recuerde que toda fracción es básicamente una división. La ventaja de expresar fracciones como divisiones es que es más fácil hacer operaciones.

8.3.3. Frecuencias decimales

Cuando se resuelve la división de una fracción obtenemos valores menores a 1 y mayores de 0, que se expresan como un valor decimal. Un evento \(i\) será más probable en cuanto más cercano sea de 1 y más improbable cuanto más se acerque a 0.

8.3.4. Porcentaje

La expresión de una frecuencia suele ser difícil de interpretar para la mayoría de las personas. Por lo tanto, es común utilizar la analogía de imaginar 100 oportunidades para comprender cuántas veces se repetirá una determinada categoría de cada 100 conteos. Es importante recordar que el símbolo '%' equivale a 10-2, lo que significa que al multiplicar por 100 %, en realidad estamos multiplicando por 1. En otras palabras, al expresar un parámetro en términos porcentuales, no se altera su identidad matemática; simplemente estamos cambiando la forma en que se visualiza el número, de manera similar a cuando se utilizan notaciones científicas.

8.4. Probabilidades teóricas y experimentales

Para distinguir entre probabilidades teóricas y experimentales, utilizaremos la notación estándar con el superíndice "o". Cualquier parámetro afectado por la notación "o" se considerará teórico, mientras que cualquier parámetro sin esta marca será experimental. Esto evita la necesidad constante de utilizar subíndices como "teo" y "exp". Así la probabilidad teórica \(P^o_i\), el número total teórico \(N^o\) y el número de elementos en una categoría i-ésima teórica \(n^o_i\) serán se distinguirán de sus equivalentes probabilidad experimental \(P_i\), el número total experimental \(N\) y el número de elementos en una categoría i-ésima experimentales \(N_i\).

Existe cierta ambigüedad en un parámetro \(n^o_i\), ya que a veces puede calcularse empleando \(N_i\) que se espera sea el valor experimental, en lugar del \(N^o\). Por ejemplo, para un dado de 4 caras \(N^o\) = 4 y \(n^o_i\)=1, pero ¿cual será el número de veces que aparezca una cara si se lanzan 1000 dados de 4 caras? En tal caso deberemos aplicar:\[ n^o_i = P^o_i \cdot N \]Eq 8.3 número de veces que se espera aparezca un evento i-ésimo en un número total de eventos.

8.5. Interpretación de la probabilidad

Tenga en cuenta que el hecho de que una probabilidad sea muy baja, no implica que el evento de categoría \(i\) sea imposible de encontrarse, pues la probabilidad y el conteo de ocurrencia del evento son categorías matemáticas diferentes como precisamente se ve en la ecuación 8.3. El número de veces que debe ocurrir un evento \(n^o_i\) no solo depende de la probabilidad \(P^o_i\) sino también del número de veces que el sistema cambia \(N\), en consecuencia, aun eventos que sean altamente improbables ocurrirán si el sistema cambia un número muy elevado de veces. En otras palabras, que un evento sea improbable no implica que sea imposible, solo implica que ocurrirá pocas veces y que se debe intentar mucho para conseguirlo.

9. Comparando variables categóricas

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Las pruebas para variables categóricas, discretas o no continuas se emplean para comparar dos series de datos. Dependiendo de la naturaleza de las series de datos se las clasifica como de concordancia o de independencia. En una prueba de concordancia una serie de datos será experimental y la otra serie será teórica, por lo que la hipótesis se relaciona a si la serie de datos experimentales concuerdan con la serie de datos teórica. En una prueba de independencia tenemos dos series de datos teóricas y el objetivo es determinar si los conjuntos de datos son semejantes o diferentes. Debido a que planteamos este capítulo como aplicado a la biología, no nos detendremos demasiado en la teoría o fundamento matemático de estas pruebas, sino en su modo de uso. Recuerde que las variables categóricas son aquellas en las que las categorías medidas no superan los 6. Por ejemplo, en los sistemas mendelianos monohíbridos tenemos 2 categorías fenotípicas en los dihíbridos 4 categorías fenotípicas.

Analizaremos pues un ejemplo para un sistema de cuatro categorías: Sea el caso de un sistema dihíbrido con 4 categorías vinculadas llamadas 1, 2, 3 y 4. Que cumplen las siguientes condiciones: La probabilidad total es igual a 1 e igual a la suma de todas las categorías del sistema \(P=\Sigma P_i=P_1+ P_2+...+ P_n\); El número total de entidades es igual a la suma de cada entidad \(N=\Sigma n_i=n_1+ n_2+...+ n_n\). ¿La pregunta aquí es cómo podemos hacer la comparación?

Para poder comprar una serie de probabilidades teóricas con una serie de conteos experiméntales, es necesario tener en cuenta que la comparación solo se puede llevar a cabo entre variables de un mismo tipo. Por ejemplo, solo podríamos comprar probabilidades teóricas con probabilidades experimentales; O conteos teóricos contra conteos experiméntales. Lo que no podemos hacer es, comparar probabilidades contra conteos. Así pues, nuestra primera labor es homogeneizar las variables. La estraga más común es convertir las probabilidades teóricas en conteos teóricos. Para ello vamos a necesitar el número total de conteos experiméntales y aplicar la siguiente formula :\( n^o_i = P^o_i \cdot N \). Una vez convertidas las probabilidades teóricas a números de contenidos teóricos podemos expresar los resultados entablas o en gráficas.

9.1. Tabla de conversiones

La Tabla 3 nos permite visualizar el proceso de conversión, En la primera columna tenemos las probabilidades teóricas, Y en la segunda columna el número de conteos experiméntales para cada una de las 4 categorías. Con eso lo primero que debemos hacer es, sumar todos los conteos experiméntales para obtener el total de conteos experiméntales que en este caso es 501. Con este valor podemos calcular la tercera columna, en este caso multiplicando este total por cada una de las probabilidades teóricas. El resultado de la multiplicación son los conteos teóricos o esperados.

Tabla 9.1. Tabla de conversión de probabilidades teóricas a conteos teóricos empleando el número total de conteos experimentales.

Categorías

Probabilidades teóricas

\(P^o_i\)

Conteos experimentales

\(n_i\)

Conteos teóricos

\(n^o_i\)

1

9/16

285

281,8125

2

3/16

92

93,9375

3

3/16

97

93,9375

4

1/16

27

31,3125

Totales

\(P^o\) = 16/16

\(N\) = 501

501

9.2. Gráfico de columnas

Empleando los datos de conteos experiméntales y conteos teóricos de la tabla anterior podemos graficar los resultados en una figura de barras. Para ellos nos valdremos de la función de Excel para gráfica de barras cuyo resultado pueden ver en:

Figura 8.1. Comparación del número de semillas amarillas-lisas (1), verdes-lisas (2), amarillas-rugosas (3) y verdes-rugosas (4) en un cruce mendeliano a nivel de teóricos y experimentales.

Cómo podemos ver la tendencia de ambas series es semejante, aunque hay leves diferencias. La pregunta realmente consiste es ¿hasta qué punto podemos tolerar las diferencias entre las series experiméntales las series teóricas? Para resolver esa pregunta se han desarrollado una serie de metodologías estadísticas, de las cuáles la única que consideraremos numéricamente es la chi cuadrado de Pearson.

9.3. Chi cuadrado

La chi cuadrado es una prueba de hipótesis entre dos sistemas numéricos, generalmente la usamos en genética para corroborar si un sistema de números corresponde a algún modelo matemático y en tal caso se hablaría de una prueba de concordancia.

9.3.1. Hipótesis y fórmulas

El término "hipótesis nula" fue introducido por Jerzy Neyman y Egon Pearson en la década de 1920, aunque Fisher desempeñó un papel importante en su desarrollo y promoción. La razón detrás del término "hipótesis nula" es principalmente histórica y conceptual. Aquí hay algunas consideraciones:

La hipótesis nula se plantea como una afirmación que se espera que sea falsa o que no haya un efecto o diferencia real en los datos. Al formularla de esta manera, se establece un marco para probar si los datos recopilados proporcionan evidencia suficiente para rechazar la hipótesis nula a favor de la hipótesis alternativa, que generalmente representa la expectativa del investigador (la hipótesis que se espera que sea respaldada por los datos).

El enfoque de Fisher se centraba en la refutación de la hipótesis nula mediante pruebas estadísticas. Argumentaba que el objetivo principal de las pruebas de hipótesis es evaluar si los datos proporcionan evidencia suficiente para descartar la hipótesis nula. Si los datos no proporcionan evidencia convincente para rechazarla, entonces los investigadores pueden concluir que no hay suficiente evidencia para afirmar que la hipótesis nula es falsa.

El término "hipótesis nula" proporciona una etiqueta clara y concisa para la hipótesis que se está probando, lo que facilita la comunicación y la comprensión en el campo de la estadística y la investigación.

(a) Hipótesis de concordancia: Se compara una serie experimental con una serie teórica. Para una serie de x categorías la fórmula es: \[\chi^2_{cal} = \sum_{i=1}^{n} \frac{(n_i - n_i^o)^2}{n_i^o}\]Eq 9.1. Prueba de hipótesis chi cuadrado calculada para una concordancia, este parámetro debe compararse con el valor crítico o de la tabla.

La hipótesis nula será que los números experimentales y los teóricos concuerdan, y en tal caso el valor que calculemos con la fórmula \(\chi_{cal}^2\) es menor que el que se establece como valor crítico en la tabla para los grados de libertad del sistema \(\chi_{tab}^2\).La hipótesis alternativa será que no concuerdan y por lo tanto hay que buscar otro modelo matemático, esto ocurre cuando \(\chi_{cal}^2\) es mayor que \(\chi_{tab}^2\). Es importante tener en cuenta que, cuando no concuerdan es muy evidente ya que los valores calculados son muy altos, del orden de los cientos de unidades, mientras que los valores de la tabla oscilan entre 1 y 20 para sistemas sencillos, como los de un cruce mendeliano clásico.

(a) Hipótesis de independencia: Se comparan dos series experimentales para ver si se las puede tratar como una sola, dado que las dos series tienen una identidad aparente o real, las denominamos conjuntos A y B, los cuales deben estar designados en la fórmula: \[\chi_{cal}^2 = \sum_{i=1}^{n} \frac{(n_{iA} - n_{iB})^2}{n_{A}}\]Eq 9.2. Prueba de hipótesis chi cuadrado calculada para una independencia, este parámetro debe compararse con el valor crítico o de la tabla.

La hipótesis nula será que las dos series de datos concuerdan, y la hipótesis alternativa será que no concuerdan. Nuevamente la hipótesis nula se acepta si los valores de \(\chi_{cal}^2\) son bajos para los grados de libertad planteados.

En este orden de ideas la chi cuadrada calculada \(\chi_{cal}^2\) es igual a la suma de las diferencias al cuadrado de un valor experimental y un valor teórico respectivos dividido entre el valor teórico respectivo. Usted puede visualizar el valor de \(\chi_{cal}^2\) como un acumulador de diferencias entre la serie teórica y la serie experimental, cuando \(\chi_{cal}^2\) es cercano a cero las dos series serán semejantes, y si es alto entonces no concuerdan. La pregunta es ¿hasta qué punto nos aguantamos las diferencias?

9.3.2. El punto de exclusión crítico

La chi cuadrado se genera con una fórmula y una comparación en una tabla que generalmente se hace en límites de exclusión. Los límites empleados o alfa son generalmente el 5% (0.05) y el 1% (0.01), entre más pequeño significa que la correspondencia entre experiencia y teoría es mayor. Otro factor de chi cuadrado es la cantidad de estados del sistema. El nombre que recibe esta variable es grados de libertad. El número de grados de libertad es igual al número de categorías menos uno.

Tabla 9.2. Tabla de chi cuadrado calculado, en caso de no tener la tabla puede usar la siguiente fórmula en Excel [=inv.chicuad(1-alfa;gl)].

Donde es el número de categorías. Una vez seleccionado el límite de exclusión y los grados de libertad se busca en la tabla el chi cuadrado de la tabla. Si el chi cuadrado calculado es más grande que el chi cuadrado de la tabla, las dos series de datos no concordaran, en consecuencia, si es una prueba se concordancia significa que nuestro modelo no representa los datos, mientras que si es una prueba de independencia significa que los datos no concuerdan uno con otro. La prueba de Chi cuadrado es útil cuando el espacio muestral o sea es mayor a 1000 unidades, cuando el valor es pequeño se emplea el test exacto de Fisher.

Ejemplo: Calcular el valor de \(\chi_{cal}^2\) para un cruce mendeliano para cuatro categorías que tuvieron los siguientes valores experimentales 285, 92, 97, y 27, asumiendo que estos datos son representados por una probabilidad de 9:3:3:1.

9.4. Test exacto de Fisher

El test exacto de Fisher comparte características con la chi cuadrado, pero es mucho más preciso y aplica para muestras pequeñas y para muestras grandes. La hipótesis nula y alternativa son las mismas que en chi cuadrado, siendo la concordancia o la no concordancia de las proporciones de dos series de datos. El problema con el test exacto de Fisher es que es muchísimo más complejo de obtener solo para una tabla de dos parejas, por lo que en la práctica usaremos la chi cuadrada a menos que tengamos un paquete estadístico más potente. Existen otros estadísticos que sirven para lo mismo, pero en esencia podemos trabajar con las dos anteriores; y en la práctica las evaluaciones nos piden es realizar una Chi cuadrada de Pearson. Referencias generales: (McDonald, 2015)

10. Comparando variables continuas

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

Cuando no podemos separar las parejas de datos en categorías claras o cuando las categorías son muchas, (más de seis), debemos emplear técnicas de análisis para variables continuas. Las variables continuas se describen por medio de una medida de punto medio como el promedio aritmético \(overline{x}\) y una medida de dispersión como la desviación estándar \(\pm s\). Al igual que con las variables categóricas, evaluaremos dos casos generales, la hipótesis de concordancia y la hipótesis de independencia.

(a) Hipótesis de concordancia: compara una muestra con un valor dado que se asume como verdadero, su símbolo será \(\mu\). Adicionalmente, se pueden hacer modificaciones para ver si la muestra es igual, menor o mayor que \(\mu\).

(b) Hipótesis de independencia: compara dos muestras, y al igual que en el anterior, se pueden hacer modificaciones para ver si son iguales, o una es mayor que la otra.

Los estadísticos de inferencia de emplean para responder preguntas de inferencia entre series de datos. Existen muchos tipos de estadísticos de inferencia, pero el principal problema es que involucran fórmulas complejas y gastan mucho tiempo, aunque afortunadamente Excel los trae compilados, por lo que solo emplearemos dos. El estadístico t de Student, y el estadístico \(Z\). Para estratificar cada pareja de serie de datos por mayor o menor podemos emplear dos estadísticos dependiendo de la cantidad de réplicas, siendo estos el estadístico t para menos de 30 réplicas y el estadístico \(Z\) para más de 30 réplicas.

A veces las funciones estadísticas de Excel no están activas, por lo que en este video aprenderemos como (Enlace)

A continuación, veremos cómo emplear estos estadísticos para resolver preguntas típicas de laboratorio.

10.1. La prueba de t de student

Para resolver esta comparación se realiza una prueba de t de student, debido a que rara vez tendremos acceso a más de 30 réplicas, en esta prueba se contrastan los estadísticos descriptivos de la serie de datos como el número de datos o réplicas promedio y la desviación estándar con respecto al valor que se asume como verdadero o teórico . Existen dos alternativas para esta prueba llamadas de dos colas y de una cola.

10.1.1. Las hipótesis

Las prueba de una cola solo me responde si el promedio es semejante a valor teórico \(\overline{x} = \mu\) o si no lo es \(\overline{x} \neq \mu\)

Las pruebas de dos colas me responden dos preguntas,

la primera nuevamente es si el promedio es semejante al valor teórico \(\overline{x} = \mu\)

la segunda pregunta es si el promedio es mayor o menor realmente que el valor teórico \(\overline{x} > \mu\) o \(\overline{x} < \mu\).

10.1.2. Dos valores \(t\) de la tabla

Las pruebas estadísticas como la \(t\) de student son básicamente acumuladores de diferencias significativas entre los datos experimentales y los datos teóricos, los cuales se comparan con un valor de frontera o crítico que se encuentra asignado en una tabla que viene generalmente al final de los libros de estadística, sin embargo, en Excel dichas tablas vienen incorporadas, por lo que solo es necesario conocer la fórmula para poder obtener el valor. De lo anterior se concluye que el procedimiento radica en calcular dos valores, uno llamado \(t\) calculada y otro \(t\) de la tabla.

La \(t\) de la tabla de una cola se obtiene mediante la siguiente fórmula de Excel [=-inv.t(0.05;(n-1)], donde n es la celda donde colocamos el número de réplicas. La \(t\) de la tabla de dos colas se obtiene mediante la siguiente fórmula de Excel [=-inv.t(0.05;(n-1)]. La respuesta de la fórmula arroja un valor positivo que indica el punto crítico de diferencias que podremos aceptar y será denominado como valor \(t\) de la tabla o \(t_{tab}\). El valor 0.05 se denomina alfa y debe presentarse en los resultados finales.

10.1.3. Fórmula de la \(t\) calculada para una prueba de concordancia

La prueba de concordancia \(t\) (también conocida como prueba \(t\) de una muestra o prueba \(t\) de una cola) se utiliza para comparar una sola serie de datos numéricos con un valor conocido o hipotético, generalmente denotado como \(mu\), que representa el valor verdadero de la media. Esta prueba se utiliza para determinar si la media de la muestra es significativamente diferente de ese valor de referencia \(mu\).

La prueba de concordancia \(t\) se usa comúnmente para responder preguntas como si una muestra tiene una media significativamente diferente de cierto valor esperado o si un tratamiento ha tenido un impacto significativo en la media de una muestra.

Dado que ya sabemos como obtener \(t_{tab}\), ahora debemos encontrar el valor experimental o \(t_{cal}\) con la fórmula: \[t_{\text{cal}} = \frac{\sqrt{n}}{s} | \bar{x} - \mu | \]Eq 10.1. Prueba t de student de una cola aplicada a una prueba de concordancia con un valor de referencia \(\mu\), su expresión en Excel es [=(raíz(n)/s)*abs(promedio-μ], donde \(n\) es el tamaño de la muestra y \(s\) es la desviación estándar de la muestra.

Después de aplicar la prueba de concordancia y rechazar la hipótesis nula, puedes realizar una prueba \(t\) de una sola cola para determinar si la muestra es mayor o menor que \(\mu\). La modificación en la fórmula, usando la resta:

\(\overline{x}-\mu\) se usa si estás interesado en probar si la media de la muestra es mayor que el valor verdadero. Su correspondiente valor crítico \(t_{tab}\) se obtiene con [=INV.T.DIST(α; grados_de_libertad)].

\(-(\overline{x}-\mu)\) se usa si estás interesado en probar si la media de la muestra es menor que el valor verdadero. Su correspondiente valor crítico \(t_{tab}\) se obtiene con [=INV.T.DIST(α/2; grados_de_libertad)].

Las comparaciones finales son iguales, si \(t_{tab}\) es mayor que \(t_{cal}\) rechazamos las hipótesis de superioridad e inferioridad con respecto a \(mu\).

10.1.4. Fórmula de la t calculada para una prueba de independencia

La prueba de independencia es una herramienta estadística esencial utilizada para evaluar si existe una asociación significativa entre dos conjuntos de datos. Permite determinar si los dos conjuntos de datos están relacionados de manera significativa o si sus relaciones son consistentes con la independencia. Esta prueba es ampliamente utilizada en diversos campos para comprender la relación entre variables, lo que puede proporcionar información valiosa en la toma de decisiones y la investigación. En este contexto, exploraremos cómo realizar y analizar una prueba de independencia y su importancia en el análisis de datos. \[t_{\text{cal}} = \frac{|\bar{x}_1 - \bar{x}_2|}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\]Eq 10.2. Prueba \(t_{cal}\) para dos series de datos, su forma en Excel es [=ABS(PROMEDIO(rango1)-PROMEDIO(rango2)) / RAIZ((desvest(rango1)/CONTAR(rango1)) + (desvest(rango2)/CONTAR(rango2)))]

Para probar la hipótesis de igualdad de medias entre dos muestras utilizando la prueba \(t\) en Excel, debes calcular el valor crítico con [==T.INV.2T(alfa, grados_de_libertad)].

Si deseas probar la hipótesis de que la serie experimental 1 es mayor que la serie 2, debes realizar una prueba de una cola (cola derecha). En este caso, puedes utilizar la función [==T.INValfa, grados_de_libertad)].

Nuevamente, siempre que el valor de la tabla sea superior, las hipótesis nulas se van a aceptar.

11. Anova de un factor o tratamiento

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.

La ANOVA de una vía es matemáticamente idéntica a la prueba t de student de dos series de datos, pero puede analizar una cantidad n de series de datos, por lo que es más general. En ambos casos se trata de comparar una variable continua con una variable discreta. La variable discreta divide a la variable continúa en dos grupos. Como siempre debemos analizar dos hipótesis:

(a) Hipótesis nula: no existen diferencias significativas entre las varianzas de los tratamientos.

(b) Hipótesis alternativa: si existen diferencias significativas entre los tratamientos.

Los tratamientos se ubicarán en las columnas de la matriz, de ellos no sabemos si dan valores iguales o diferentes en promedio y eso es lo que pretendemos identificar, mientras que en las filas colocamos los individuos tratados, de ellos asumimos a priori que son diferentes, en el sentido de identidad, por ejemplo las ratas del experimento, aunque todas son ratas, son individuos diferentes.

Antes de enunciar las fórmulas miremos su empleo con un ejemplo.

11.1. Procedimiento.

El cálculo de las ANOVAS no es para nada simple, así de lo deberemos trabajar paso a paso. Inicialmente tendremos una tabla que posee (k) cantidad de variables discretas k-numero de tratamientos, cada una medida (n) veces de forma continua. En consecuencia, será una tabla con (k) cantidad de columnas y (n) cantidad de filas. Posteriormente procedemos a identificar los dos tipos de grados de libertad, los grados de libertad entre las variables y los grados de libertad internos.

Tabla 11.1. Tabla de datos original.

 s 
 

\(x_1\)

\(x_2\)

\(x_3\)

\(x_4\)

\(x_k\)

\(y_1\)

\(l_{1,1}\)

\(l_{2,1}\)

   

\(l_{k,1}\)

\(y_2\)

\(l_{1,2}\)

       

\(y_3\)

         

\(y_n\)

\(l_{1,n}\)

       
 

\(\overline{x_1}\)

\(\overline{x_2}\)

\(\overline{x_3}\)

\(\overline{x_4}\)

\(\overline{x_k}\)

Número de datos total \(N\)

\(N=k \cdot n\) Eq 11.1.

Grados de libertad entre grupos \(gl_{en}\)

\(gl_{en}=k-1\) Eq 11.2.

Grados de libertad inter grupos \(gl_{in}\)

\(gl_{in}=N-k\) Eq 11.3.

Parámetro F de la tabla \(F_{tab}\)

\(F_{tab}=\frac{ gl_{en}}{ gl_{in}}\)= INV.F.CD(0,05;gl_en;gl_in) Eq 11.4.

Promedio de promedios de columnas \(pp_k\)

\(pp_k=\frac{1}{k}\Sigma(\overline{x}_i)\) Eq 11.5.

f

Posteriormente se obtiene la tabla de diferencias de cuadrados con respecto al promedio general, y la tabla de diferencia de cuadrados con respecto a los promedios de cada columna.

Tabla 11.2. Tabla de diferencia cuadradas entre cada dato y el promedio de promedios.

 

\(\Delta x_1\)

\(\Delta x_2\)

\(\Delta x_3\)

\(\Delta x_4\)

\(\Delta x_k\)

\(\Delta y_1\)

\(( l_{1,1}- pp_k)^2 \)

\(( l_{2,1}- pp_k)^2 \)

   

\(( l_{k,1}- pp_k)^2 \)

\(\Delta y_2\)

\(( l_{1,2}- pp_k)^2 \)

       

\(\Delta y_3\)

         

\(\Delta y_n\)

\(( l_{1,n}- pp_k)^2 \)

       
 

\(sc_{1,en}=\Sigma(\Delta x_1)\)

\(sc_{2,en}=\Sigma(\Delta x_2)\)

\(sc_{3,en}=\Sigma(\Delta x_3)\)

\(sc_{4,en}=\Sigma(\Delta x_4)\)

\(sc_{k,en}=\Sigma(\Delta x_k)\)

Suma de la diferencia cuadrados total \(sc\)

\(sc=\Sigma(sc_{i,en})\) Eq 11.6.

Tabla 11.3. Tabla de diferencia cuadradas entre cada dato y el promedio de columna.

 

\(\delta x_1\)

\(\delta x_2\)

\(\delta x_3\)

\(\delta x_4\)

\(\delta x_k\)

\(\delta y_1\)

\(( l_{1,1}- \(\overline{x_1}\))^2 \)

\(( l_{2,1}- \(\overline{x_2}\))^2 \)

   

\(( l_{k,1}- \(\overline{x_k}\))^2 \)

\(\delta y_2\)

\(( l_{1,2}- \(\overline{x_1}\))^2 \)

       

\(\delta y_3\)

         

\(\delta y_n\)

\(( l_{1,n}- \(\overline{x_1}\))^2 \)

       
 

\(sc_{1,in}=\Sigma(\delta x_1)\)

\(sc_{2,in}=\Sigma(\delta x_2)\)

\(sc_{3,in}=\Sigma(\delta x_3)\)

\(sc_{4,in}=\Sigma(\delta x_4)\)

\(sc_{k,in}=\Sigma(\delta x_k)\)

Suma de la diferencia cuadrados total inter \(sc_{in}\)

\(sc_{in}=\Sigma(sc_{i,in})\) Eq 11.7.

Diferencia de las sumas de cuadrados entre \(sc_{en}\)

\(sc_{en}= sc - sc_{in}\) Eq 11.8.

Varianza entre \(s_{en}^2\)

\(s_{en}^2=\frac{ sc_{en}}{ gl_{en }\) Eq 11.9.

Varianza inter \(s_{in}^2\)

\(s_{in}^2=\frac{ sc_{in}}{ gl_{in }\) Eq 11.10.

F de Fisher calculada \(F_{cal}\)

\(F_{cal}=frac{ s_{en}^2}{ s_{in}^2}\) Eq 11.11.

Nuevamente si \(F_{cal}\) es mayor que \(F_{tab}\) entonces rechazamos las hipótesis, por lo que al menos un tratamiento debe ser diferente, en caso de sospechar que algunos si sean semejantes, debe descartar la columna sospechosa de ingresa las diferencias y repetir el cálculo.

11.2. La prueba de Tukey

La prueba de Tukey se emplea para determinar si la diferencia entre cada pareja de promedios posee diferencias significativas. Esta prueba a diferencia de la ANOVA solo mide una pareja por vez. Siendo en este caso las hipótesis:

  • Hipótesis nula: no existen diferencias significativas.
  • Hipótesis alternativa: si existen diferencias significativas.

Las ecuaciones clave a seguir son:

\[T_{dhs} = q \cdot \left(\frac{sc_{in}}{n}\right)^{\frac{1}{2}}\]

Eq 11.12.

\[\Delta\bar{x}_i = \bar{x}_a - \bar{x}_b\]

Eq 11.13.

Si \(\Delta\bar{x}_i\) es mayor que \(T_{dhs}\), las diferencias entre la pareja de datos será significativa. Lo único complejo que posee esta prueba es identificar el valor crítico \(q\) que también se obtiene de una tabla, Excel no trae esta función normalmente. El \(q\) de la tabla se obtiene ubicando la cantidad total de datos \(N\) y la cantidad de columnas . En la tabla la fila será igual a la cantidad total de datos \(N\) y la columna será la cantidad de columnas k de la tabla con la que se hizo la ANOVA. Por ejemplo, si teníamos una tabla de ANOVA de 3 columnas y 7 datos por cada columna el valor crítico de \(q\) = 3,61. En caso de que tengamos una tabla \(q\) que nos de varias respuestas para los dos grados de libertad, significa que cada valor tiene un límite de exclusión también llamado alfa diferente. Elegimos el típico del 0,05. En caso de requerir apoyo en sus ejercicios de lápiz y papel, recomendamos la siguiente página: http://vassarstats.net/anova1u.html

Tabla 11.4. Tabla de valores críticos de Tukey.

12. Regresión lineal

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

En ocasiones, los científicos no están interesados en comparar dos series de datos, sino en ver si dos variables diferentes están relacionadas entre sí, por medio de una ecuación matemática simple. Existen dos formas de obtener dichas ecuaciones, una es inductiva y la otra es deductiva. En la ruta inductiva el científico establece una serie de principios o presupuestos clave, denominados núcleo fuerte, y a partir de estos presupuestos construye una serie de ecuaciones matemáticas que relacionan variables naturales de manera concreta, lo cual permite hacer experimentos para corroborar que, los datos experimentales concuerden con los teóricos, y esta contrastación se realiza por medio de las técnicas estadísticas que vimos anteriormente. Sin embargo, otras leyes se obtienen por técnicas deductivas, en las cuales se miden dos variables cuidadosamente, y luego, por medio de técnicas matemáticas llamadas regresiones, se crea una fórmula matemática, que posteriormente se emplea igual que las fórmulas inductivas, para predecir valores y contrastarlos con otros experimentos futuros.

Figura 12.1. En la gráfica hemos puesto los datos extraídos de dos variables medidos en cuatro réplicas que se sospecha tienen una relación lineal. La línea sólida representa la hipótesis de la relación lineal. Tenga en cuenta que la ecuación de regresión lineal representa solo una hipótesis de una muestra de datos, que se aproxima, pero no necesariamente es la verdadera relación entre las variables.

Al igual que las leyes inductivas, las regresiones pueden construirse en base a modelos lineales, exponenciales, logarítmicos, polinominómicos entre otros, aunque el de uso más común es la regresión lineal. La regresión lineal es un método de correlación de datos que va a buscar la relación entre dos variables, asumiendo que se relacionan linealmente. Este es tal vez uno de los métodos más viejos de matematización en ciencias, aunque su forma antigua era más bien intuitiva y seguía la ecuación de la recta:\[y = k \cdot x + b\]Eq 12.1. Ecuación de la recta.

Si existe una relación directamente proporcional entre dos variables, entonces debe haber una constante de proporcionalidad \(k\) que permite igualar los valores de las variables. Dichas constantes de proporcionalidad recibían el nombre de sus descubridores o la que sus descubridores desearan ponerle, por ejemplo, el coeficiente de deformación del resorte \(k\) en la ley de Hooke:\[F=k \cdot \Delta x\]Eq 12.1. Ley de Hooke.

O el volumen molar en la ley de Avogadro para gases \[V=V_m \cdot n\]Eq 12.1. Ley de Avogadro para gases.

En la actualidad la regresión lineal no es un proceso intuitivo, por el contrario, existe un estándar para realizar el procedimiento de obtención de la fórmula, de forma tal que podamos expresar el valor de la constante de proporcionalidad. Adicionalmente el método va a funcionar como una prueba de hipótesis, en la cual podemos tener estos dos caos o sus variantes en un espectro continuo.

(a) Los valores de las dos variables se relacionan linealmente, y la ecuación obtenida puede usarse para predecir experimentos futuros dentro del rango establecido.

(b) Los valores de las dos variables no se relacionan linealmente, y la ecuación generada no sirve.

Figura 12.2. Representación de un caso donde los datos medidos no se ajustan bien a un modelo lineal, matemáticamente se puede generar la recta, pero esta no representa adecuadamente los datos medidos.

En el caso (Figura 12.1) tenemos que la serie de datos se ajusta bien a un modelo lineal, mientras que en el segundo caso Figura 12.2) no es así. El procedimiento de la regresión lineal arroja un coeficiente llamado r cuadrado \(r^2\) que servirá como el estándar de linealidad. Valores de \(r^2\) superiores al 0.9 se consideran normalmente como indicadores de una fuerte linealidad, aunque para estar seguros también se puede tomar valores de la fórmula lineal obtenida y realizar pruebas de hipótesis para comparar series de datos experimentales y teóricas como la chi cuadrada o una prueba \(t\) de student. La regresión lineal inicia por reconocer las propiedades de la línea recta y su fórmula general (Eq 12.1).

La fórmula general de la recta \(y = k \cdot x + b\) posee a parte de los valores (\(x\);\(y\)) dos variables más, \(k\) es la pendiente, que va a representar la constante de proporcionalidad, mientras que la variable \(b\) va a representar el Intercepto en el eje \(y\) cuando \(x\) = 0. Dado lo anterior nuestra ecuación de la recta adquirirá la siguiente forma.

Figura 12.3. Propiedades generales de la recta, de arriba hacia abajo tenemos: la ecuación general de la recta; la pendiente y su ecuación; el Intercepto en ().

Una vez teniendo lo anterior claro, hay que tener en cuenta que debemos trabajar con una tabla de datos reales (\(x\);\(y\)) que puede ser horizontal o vertical (Tabla 12). Ahora vamos a expresar la primeria serie de fórmulas.

Tabla 12.1. Tabla de datos horizontal para una regresión lineal.

 

1

2

3

\(n\)

     

\(x_i\)

       

\(\Sigma x\)

Eq 12.2

\(\Sigma x^2\)

Eq 12.3

\((\Sigma x) ^2\)

Eq 12.4

\(y_i\)

       

\(\Sigma y\)

Eq 12.5

\(\Sigma y^2\)

Eq 12.6

 

\(yx_i=x_i \times y_i \)

       

\(\Sigma yx_i \)

Eq 12.7

   

Con los valores anteriores se calcula la pendiente: \[k=\frac{n \cdot \Sigma yx_i -\Sigma x \cdot \Sigma y }{n \cdot \Sigma x^2- (\Sigma x) ^2}\]Eq 12.8. Pendiente en la regresión lineal.

\[y_o=\frac{\Sigma y -k \cdot \Sigma x }{n}\]Eq 12.9. Intercepto en y en la regresión lineal.

\[r^2=( k\cdot \frac{s_x}{ s_y})^2 \]Eq 12.10. Coeficiente de linealidad.

En Excel la regresión lineal está integrada como parte de su paquete para generar gráficos de dispersión xy, para generarla simplemente hay que dar clic derecho a la grafica ya generada y buscar regresión lineal.

Tanto la regresión lineal simple como otros tipos de regresión pueden ser resueltos por Excel u otros programas estadísticos más potentes. En cualquier caso, siempre nos arrojará la correlación r cuadrado que determinará que tanto se ajustan los datos de la fórmula con respecto a los datos experimentales.

Referencias

Cursos⟩ [Índice] [1 Introducción] [2 Generalidades] [3 Historia] [4 Tipos de variables] [5 Incertidumbres] [6 Estadísticos descriptivos] [7 Incertidumbre e intervalos de confianza] [8 Introducción a la probabilidad] [9 Comparando variables categóricas] [10 Comparando variables contínuas] [11 Anova de un factor] [12 Regresión lineal] [Referencias]

BIPM, I. E. C., IFCC, I., & IUPAC, I. (2008). Evaluation of Measurement Data—Guide to the Expression of Uncertainty in Measurement GUM 1995 with minor corrections. Joint Committee for Guides in Metrology, JCGM, 100.

Broemeling, L. D. (2011). An account of early statistical inference in Arab cryptology. The American Statistician, 65(4), 255-257.

Bruneau, Q. (2022). States and the Masters of Capital: Sovereign Lending, Old and New. Columbia University Press.

Dodge, Y. (Ed.). (2003). The Oxford dictionary of statistical terms. OUP Oxford.

Franklin, J. (2001). The science of conjecture: Evidence and probability before Pascal. Johns Hopkins University Press.

Lim, M. (2021). "Gauss, Least Squares, and the Missing Planet". Actuaries Digital. Retrieved 2022-11-01.

Martinez, M. G. (2014). Pruebas de normalidad. Retrieved October 2, 2016, from https://www.youtube.com/watch?v=KZEBU8gV3tY

McDonald, J. H. (2015). Handbook of Biological Statistics. (U. of Delaware, Ed.). Baltimore: Sparky House. Retrieved from http://www.biostathandbook.com/linearregression.html

Ostasiewicz, W. (2014). The emergence of statistical science. Śląski Przegląd Statystyczny, 18(12), 75-82.

Romeijn, J. W. (2014). Philosophy of statistics. Stanford Encyclopedia of Philosophy. Recuperado de http://plato.stanford.edu/entries/statistics/

Schneider, I. (2005). Jakob Bernoulli, Ars Conjectandi (1713). In I. Grattan-Guinness (Ed.), Landmark writings in Western Mathematics, 1640-1940 (pp. 88-103).

Steyer, K. (2001). Korpus, Statistik, Kookkurrenz. Lässt sich Idiomatisches “berechnen”?. In Flut von Texten–Vielfalt der Kulturen. Ascona 2001 zur Methodologie und Kulturspezifik der Phraseologie (pp. 33-46). Schneider Hohengehren.

Sylla, E. D.; Bernoulli, Jacob (2006). The Art of Conjecturing, Together with Letter to a Friend on Sets in Court Tennis (trans.). JHU Press. ISBN 978-0-8018-8235-7.

Taylor, J. (1997). Introduction to error analysis, the study of uncertainties in physical measurements (Vol. 1).

Walker, H. M. (1975). Studies in the history of statistical method. Arno Press. ISBN 978-0405066283. Archived from the original on 2020-07-27. Retrieved 2015-06-27.

Willcox, W. F. (1938). The founder of statistics. Revue de l'Institut International de Statistique, 321-328.

No hay comentarios:

Publicar un comentario