Datasets
Standard Dataset
Profiling and Archetyping of Higher Education Applicants Using Intelligent Data Analysis Techniques
![](https://ieee-dataport.org/sites/default/files/styles/3x2/public/tags/images/artificial-intelligence-2167835_1920.jpg?itok=wAd0kf8k)
- Citation Author(s):
- Submitted by:
- Cindy Espinoza ...
- Last updated:
- Sun, 02/09/2025 - 20:52
- DOI:
- 10.21227/7cc1-mc06
- Data Format:
- License:
- Categories:
- Keywords:
Abstract
Este estudio sintetizó cinco años de datos del comportamiento de estudiantes en 27 variables relacionadas con las dimensiones socioeconómicos, académicos y familiares, hasta generar un dataset genérico replicable para universidades públicas y privadas en relación al abandono. Para este estudio fue posible procesar 3.006.531 registros hasta obtener información coherente de 13.715 estudiantes
El dataset desarrollado integra múltiples dimensiones relevantes para el análisis académico y profesional de los estudiantes. Se estructura en seis factores principales: Intereses, Antecedentes Educativos, Intereses Profesionales, Rendimiento Académico, Carga Académica, Asistencia Financiera, e Información Personal. El factor de Intereses abarca la orientación hacia actividades extracurriculares y preferencias académicas, proporcionando una visión sobre la motivación y el compromiso del estudiante más allá del aula. Antecedentes Educativos recoge información sobre la preparación académica previa, problemas de rendimiento y cambios de institución, permitiendo identificar patrones que puedan influir en el desempeño actual. Intereses Profesionales se enfoca en la orientación de carrera y las preferencias vocacionales, lo cual es crucial para evaluar la alineación entre los estudios y los objetivos a largo plazo del estudiante. El Rendimiento Académico detalla el estatus del estudiante, su trayectoria en términos de semestres cursados, calificaciones máximas y mínimas por semestre, y la nota final obtenida, facilitando un análisis longitudinal del progreso académico. La Carga Académica incluye variables como el número de cursos con actividad reciente, cantidad de carreras o asignaturas inscritas, créditos totales y dificultad percibida, lo que permite evaluar el equilibrio entre la carga académica y el rendimiento. Asistencia Financiera ofrece datos sobre el apoyo económico recibido y el historial de pagos, esenciales para comprender el impacto financiero en la continuidad y éxito académico. Finalmente, la Información Personal abarca variables demográficas como género, edad de inicio, estado civil y fecha de registro, que son fundamentales para contextualizar los datos y explorar posibles correlaciones socio-demográficas con el rendimiento académico y profesional. Este dataset multidimensional es ideal para análisis predictivos y estudios correlacionales que busquen comprender los factores que afectan el éxito académico y profesional de los estudiantes.
La sistematización de los datos académicos ha facilitado el análisis exploratorio para validar la correlación existente en la información. Para el desarrollo de esta investigación, nos hemos propuesto obtener una caracterización estudiante perfil del alumno, hasta llegar a construir un conjunto de datos de información completo y útil para la aplicación de técnicas más avanzadas como la aplicación de redes neurales, tomadas de diversos campos como el aprendizaje automático y la inteligencia artificial, el análisis de datos, la estadística y las bases de datos. En primer lugar, se aplicaron técnicas de análisis de datos para tratar de encontrar variables significativas que predijeran el abandono universitario. Se estudiaron las correlaciones de las variables de los alumnos que abandonan los estudios con los distintos subconjuntos de datos para identificar el grado de relación con el abandono hasta encontrar las variables significativas usando la correlación de Pearson.
Los registros provienen de bases de datos transaccionales ubicadas en motores como Oracle, SQL server, MariaDB, PostgreSQL e incluso un almacén de datos. En esta etapa se resolvió la presencia de datos atípicos con la incorporación de la homologación, se transformaron datos continuos en discretos utilizando técnicas de discretización. Además, se incorporaron recursos tecnológicos como los servicios de calidad de datos y Qlik Cloud. Sin embargo, antes de evaluar la calidad de los datos, eliminamos los datos duplicados e incoherentes. Se prepararon los datos, puesto que la minería de datos, apuesta por la recopilación indiscriminada captura la mayor cantidad de datos posible y luego trata de darle sentido, algo que no tiene dirección ni proyección de futuro, por este motivo, se ha decidido aplicar una extracción selectiva de datos de Pearson para encontrar correlaciones ocultas en los datos.
Dataset Files
- student-muestra.csv (62.75 kB)
- data-estudiantes-poblacion.csv (1.16 MB)
Documentation
Attachment | Size |
---|---|
232.38 KB |