University Dropout Analysis

Project Overview

Una exploracion a datos reales respecto a la desercion estudiantil.

Este proyecto se centra en el análisis de los datos de deserción estudiantil en la carrera de Administración de Empresas que me fue proporcionado para fines de investigacion. El objetivo es identificar patrones y factores que influyen en la deserción académica, con el fin de proponer estrategias de retención estudiantil.

View on GitHub
Objetivos del Proyecto
  • Identificar las causas principales y las correlaciones que afectan la deserción en la carrera de Administración de Empresas.
  • Proponer estrategias y recomendaciones basadas en datos para reducir las tasas de deserción estudiantil.
Tecnologías Utilizadas
  • Python: Programación
  • Pandas: Manipulación de Datos
  • Numpy: Operaciones Numéricas
  • Matplotlib: Visualización
  • Seaborn: Gráficos Estadísticos
  • Plotly Express: Visualización Interactiva
  • Scipy: Herramientas Científicas y Estadísticas
  • Statsmodels: Modelos Estadísticos
  • Pingouin: Análisis Estadístico
Metodología de Investigación: Tipos de Deserción y Organización de Datos

En este estudio, abordamos la deserción universitaria, considerando diferentes modalidades:

  • Deserción por Semestre: Estudiantes que no se matriculan en el siguiente semestre.
  • Deserción por Cohorte: Análisis de la deserción dentro de un grupo de estudiantes que inician sus estudios en el mismo año.
  • Deserción Intersemestral: Aquellos que abandonan los estudios entre periodos académicos.

La organización de los datos en la fuente original (Excel) se estructura así:

  • Hoja de Cálculo: Cada fila representa un estudiante, con columnas detallando información como matrícula, semestre de inscripción, estado de matrícula, y estadísticas de desempeño.
  • Orden: Los datos están ordenados cronológicamente por semestre y alfabéticamente por apellido del estudiante dentro de cada semestre.
  • Filtros y Categorías: Uso de filtros de Excel para segmentar datos por tipo de deserción, cohorte, o semestre específico.

Nuestra metodología incluye:

  • Importación de Datos: Utilización de Python y Pandas para importar y estructurar los datos desde Excel.
  • Limpieza y Transformación: Procesamiento de datos para manejar valores faltantes, normalización y creación de nuevas variables derivadas.
  • Análisis: Aplicación de análisis exploratorio de datos (EDA) para cada tipo de deserción, seguido de análisis estadístico más profundo.
Deserción por Periodo (Semestre)

La Deserción por Periodo se refiere a los estudiantes que estaban matriculados en el semestre "t-2" y debían seguir matriculados en "t" (dado que no se han graduado), pero no se encontraron matriculados ni en "t" ni en "t-1".

El Índice de Deserción por Periodo (IDa) es la relación entre los desertores por periodo en "t" sobre el total de matriculados de "t-2".

La fórmula para calcular el índice de deserción por periodo es:

\[ \text{ID}_a = \left(\frac{\text{ND}_t}{\text{M}_{t-2}}\right) \times 100 \]

Donde:

\(\text{ID}_a\): Índice de deserción por periodo

\(\text{ND}_t\): Número de desertores en el semestre \(t\)

\(\text{M}_{t-2}\): Número de estudiantes matriculados en el semestre \(t-2\)

Deserción por Cohorte

El Índice de Deserción por Cohorte (IDc) es el porcentaje de desertores de los estudiantes que iniciaron sus estudios en una cohorte específica hasta el tiempo de corte.

La fórmula para calcular la deserción por cohorte es:

\[ \text{ID}_c = \left(\frac{\text{ND}_{tc}}{\text{M}_c}\right) \times 100 \]

Donde:

\(\text{ID}_c\): Índice de deserción por cohorte

\(\text{ND}_{tc}\): Número de desertores en la cohorte \(c\) hasta el tiempo de corte \(t\)

\(\text{M}_c\): Número de estudiantes matriculados en la cohorte \(c\)

Índice de Deserción Intersemestral

El Índice de Deserción Intersemestral (IDi) se calcula de la siguiente manera:

\[ \text{ID}_i = \left(1 - \frac{\text{MT}_{t+1} - \text{NI}_{t+1} + \text{E}_t}{\text{M}_t}\right) \times 100 \]

Donde:

\(\text{MT}_{t+1}\): Número de matriculados total en el semestre \(t + 1\)

\(\text{NI}_{t+1}\): Número de estudiantes matriculados por primera vez en el semestre \(t + 1\)

\(\text{E}_t\): Número de egresados del semestre anterior

\(\text{M}_t\): Matrícula total del semestre anterior

Interactive Notebook

Key Findings

  • Significant variation in vaccination rates across countries
  • Clear trend of increasing vaccination rates over time, with differing paces among nations
  • Positive correlation between GDP per capita and vaccination rates
  • Mix of high-income and middle-income countries in the top 10 by vaccination rate
  • Diverse patterns in initial rollout speed and subsequent progress among countries

Skills Demonstrated

  • Data Cleaning and Preprocessing
  • Exploratory Data Analysis
  • Data Visualization
  • Time Series Analysis
  • Statistical Analysis
  • Python (pandas, matplotlib, seaborn)
Conclusiones

Nuestro análisis sobre la deserción universitaria revela:

  • Existen diferencias notables entre los tipos de deserción (por periodo, por cohorte, e intersemestral).
  • La estructura de los datos es crucial para realizar análisis precisos y detallados.
  • Los índices de deserción muestran patrones temporales que pueden predecir tendencias futuras.
  • Factores demográficos y académicos desempeñan un papel significativo en la decisión de abandonar los estudios.
  • Es imperativo revisar y adaptar las políticas estudiantiles para abordar la deserción.
  • Incrementar el soporte académico podría ser una estrategia efectiva para reducir la deserción.