ESTADÍSTICA UNIDIMENSIONAL

Conceptos Básicos

Población y Muestra

  • Población: Conjunto total de elementos objeto de estudio.
  • Muestra: Subconjunto representativo de la población seleccionado para el estudio.
  • Individuo: Cada uno de los elementos de la población.

Variable Estadística

Es la característica o propiedad que se estudia. Tipos:
  • Cualitativa: No se mide con números (ej. color de ojos).
  • Cuantitativa Discreta: Toma valores aislados (ej. número de hermanos: 0, 1, 2...).
  • Cuantitativa Continua: Puede tomar cualquier valor de un intervalo (ej. altura, peso).

Tablas de Frecuencias

Frecuencias Simples

Fórmula:
hi=fiNh_i = \frac{f_i}{N}
  • Frecuencia absoluta (fif_i): Número de veces que aparece un dato. La suma total es NN.
  • Frecuencia relativa (hih_i): Proporción del dato respecto al total. hi=1\sum h_i = 1.

Frecuencias Acumuladas

Fórmula:
Fi=f1+f2+...+fiF_i = f_1 + f_2 + ... + f_i
  • Frecuencia absoluta acumulada (FiF_i): Suma de las frecuencias absolutas hasta la posición ii.
  • Frecuencia relativa acumulada (HiH_i): Suma de las frecuencias relativas hasta la posición ii.

Son fundamentales para calcular la mediana y los cuantiles.

Parámetros de Centralización

Media Aritmética

Fórmula:
xˉ=i=1kxifiN\bar{x} = \frac{\sum_{i=1}^{k} x_i \cdot f_i}{N}

Ejemplo:

Datos: 2,3,3,5,7(N=5)xˉ=2+3+3+5+75=205=4\begin{gathered}\text{Datos: } 2, 3, 3, 5, 7 \quad (N=5) \\ \bar{x} = \frac{2+3+3+5+7}{5} = \frac{20}{5} = 4\end{gathered}
Es el valor promedio de los datos. Es muy sensible a valores extremos.

Moda (MoM_o)

Es el valor de la variable con mayor frecuencia absoluta (fif_i).

Mediana (MeM_e)

Es el valor que ocupa la posición central.
  • NN impar: Es el dato central.
  • NN par: Es la media de los dos datos centrales.
En tablas con frecuencias, se busca el primer valor donde FiN/2F_i \ge N/2.

Parámetros de Dispersión

Rango o Recorrido

Fórmula:
R=xmaxxminR = x_{max} - x_{min}
Diferencia entre el valor máximo y el mínimo. Mide la amplitud total de los datos.

Varianza

Fórmula:
σ2=xi2fiNxˉ2\sigma^2 = \frac{\sum x_i^2 \cdot f_i}{N} - \bar{x}^2

Ejemplo:

Si xˉ=4 y xi2fiN=18.5σ2=18.542=18.516=2.5\begin{gathered}\text{Si } \bar{x}=4 \text{ y } \frac{\sum x_i^2 f_i}{N} = 18.5 \\ \sigma^2 = 18.5 - 4^2 = 18.5 - 16 = 2.5\end{gathered}
Promedio de los cuadrados de las distancias a la media. Es siempre positiva.

Desviación Típica

Fórmula:
σ=σ2\sigma = \sqrt{\sigma^2}

Ejemplo:

Si σ2=2.5σ=2.51.58\text{Si } \sigma^2 = 2.5 \rightarrow \sigma = \sqrt{2.5} \approx 1.58
Raíz de la varianza. Se mide en las mismas unidades que los datos, lo que la hace más interpretable.

Coeficiente de Variación

Fórmula:
CV=σxˉCV = \frac{\sigma}{|\bar{x}|}
Adimensional. Permite comparar la dispersión de poblaciones distintas (ej. peso de elefantes vs ratones). CV<0.1CV < 0.1 indica poca dispersión.

Parámetros de Posición

Cuartiles

Dividen la distribución en 4 partes iguales (Q1Q_1, Q2Q_2, Q3Q_3).

Para calcular el cuartil QkQ_k (k=1,2,3k=1, 2, 3), calculamos la posición P=kN4P = \frac{k \cdot N}{4}:
  • Si PP no es entero, redondeamos al siguiente entero. QkQ_k es el valor en esa posición.
  • Si PP es entero, QkQ_k es la media de los valores en las posiciones PP y P+1P+1.

Percentiles (PkP_k)

Valor que deja por debajo el kk% de los datos. Posición =kN100= \frac{k \cdot N}{100}.

Diagrama de Caja y Bigotes

Representación gráfica basada en los cuartiles.
  • Caja: Va desde Q1Q_1 a Q3Q_3. La línea interior es la Mediana (MeMe). El ancho es el Rango Intercuartílico (IQR=Q3Q1IQR = Q_3 - Q_1).
  • Bigotes: Se extienden hasta el mínimo y máximo, o hasta 1.5 veces el IQR, el valor que sea menor.