Estadística Descriptiva: La Base del Análisis de Datos
Estadística Descriptiva: La Base del Análisis de Datos
La estadística descriptiva constituye el primer paso en cualquier proceso de análisis de datos. En este artículo, exploraremos los conceptos fundamentales y cómo aplicarlos efectivamente en proyectos reales.
¿Qué es la Estadística Descriptiva?
La estadística descriptiva comprende métodos para organizar, resumir y presentar datos de manera informativa. A diferencia de la estadística inferencial, que busca hacer predicciones basadas en muestras, la estadística descriptiva se centra en describir lo que ya existe en nuestros datos.
Medidas de Tendencia Central
Las medidas de tendencia central nos ayudan a identificar los valores “típicos” de un conjunto de datos:
- Media: El promedio aritmético de todos los valores.
- Mediana: El valor central cuando los datos están ordenados.
- Moda: El valor que aparece con mayor frecuencia.
import numpy as np
import pandas as pd
# Ejemplo con un conjunto de datos
= [23, 45, 12, 67, 34, 23, 56, 23, 78, 45]
datos
= np.mean(datos)
media = np.median(datos)
mediana # Calculando la moda manualmente
= max(set(datos), key = datos.count)
moda
print(f"Media: {media}")
print(f"Mediana: {mediana}")
print(f"Moda: {moda}")
Medidas de Dispersión
Las medidas de dispersión describen cuán extendidos o concentrados están los datos:
- Rango: La diferencia entre el valor máximo y mínimo.
- Desviación estándar: Medida de cuánto se alejan típicamente los valores de la media.
- Varianza: El cuadrado de la desviación estándar.
- Rango intercuartílico (IQR): La diferencia entre el tercer y primer cuartil.
Visualización en la Estadística Descriptiva
La representación visual es crucial para entender patrones en los datos:
Histogramas
Los histogramas muestran la distribución de frecuencias de un conjunto de datos continuos:
import matplotlib.pyplot as plt
=(10, 6))
plt.figure(figsize=5, color='skyblue', edgecolor='black')
plt.hist(datos, bins'Histograma de Datos')
plt.title('Valor')
plt.xlabel('Frecuencia')
plt.ylabel(='y', alpha=0.75)
plt.grid(axis plt.show()
Diagramas de Caja (Boxplots)
Los boxplots son excelentes para visualizar la distribución y detectar valores atípicos:
=(8, 6))
plt.figure(figsize=False, patch_artist=True)
plt.boxplot(datos, vert'Diagrama de Caja')
plt.title(='x', linestyle='--')
plt.grid(axis plt.show()
Aplicación Práctica: Análisis de Ventas
Veamos cómo aplicar estos conceptos a un escenario real de análisis de ventas mensuales:
# Datos de ventas mensuales (en miles de $)
= {
ventas 'Enero': 120, 'Febrero': 135, 'Marzo': 142,
'Abril': 130, 'Mayo': 125, 'Junio': 145
}
= pd.DataFrame(list(ventas.items()), columns=['Mes', 'Ventas'])
df_ventas
# Estadísticas descriptivas
= df_ventas['Ventas'].describe()
estadisticas print(estadisticas)
# Visualización
=(12, 6))
plt.figure(figsize'Mes'], df_ventas['Ventas'], color='green')
plt.bar(df_ventas['Ventas Mensuales')
plt.title('Mes')
plt.xlabel('Ventas (miles $)')
plt.ylabel(='y', linestyle='--', alpha=0.7)
plt.grid(axis=45)
plt.xticks(rotation
plt.tight_layout() plt.show()
Conclusión
La estadística descriptiva proporciona las herramientas fundamentales para explorar y entender cualquier conjunto de datos. Dominar estos conceptos básicos es esencial antes de avanzar a técnicas más complejas de análisis e inferencia.
En próximos artículos, exploraremos cómo pasar de la descripción a la inferencia estadística, permitiendo hacer predicciones y tomar decisiones basadas en datos.
¿Qué técnicas de estadística descriptiva utilizas más frecuentemente en tus análisis? ¡Comparte tu experiencia en los comentarios!