1 UNIVERSIDAD TECNOLÓGICA DE LOS ANDES FACULTAD DE INGENIERÍA ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS E INFORMÁTICA Tesis Estudio comparativo de modelos de clasificación de Minería de datos para la predicción del rendimiento académico de los estudiantes de la Escuela Profesional de Ingeniería de Sistemas e Informática-UTEA Asesor: Mg. Peralta Ascue Marleny Autor: Paniura Hilares Olwen Edward Para optar el Título Profesional de: Ingeniero de Sistemas e Informática Abancay – Apurímac - Perú 2024 ii 1 Acta de Sustentación iii 2 Reporte de Similitud iv 3 Metadatos Datos del Autor Apellidos y nombres : Hilares Paniura Olwen Edward Tipo de documento de identidad : DNI Número de documento de identidad : 73197843 URL ORCID : Datos del Asesor Apellidos y nombres : Mg. Ascue Peralta Marleny Tipo de documento de identidad : DNI Número de documento de identidad : 00493278 URL ORCID : https://orcid.org/0000-0002-0708-8565 Datos de la Investigación Facultad : Facultad de Ingeniería Escuela Profesional : Escuela Profesional de Ingeniería de Sistemas e Informática Línea de investigación : Informática, Sociedad y Gestión del Conocimiento Rango de años en que realizó la investigación : Mayo 2022 – diciembre 2023 Fuente de financiamiento : Recursos propios Porcentaje de similitud : 25% URL de OCDE https://purl.org/pe-repo/ocde/ford # 2.02.04 https://purl.org/pe-repo/ocde/ford v 4 Dedicatoria A mi mamá, agradeciéndole por su amor, paciencia, esfuerzo y apoyo constante mientras realizo este trabajo de investigación. Olwen Edward Paniura Hilares vi 5 Agradecimientos Agradezco a la Universidad Tecnológica de los Andes, y a mis docentes, por su gran sabiduría quienes se esforzaron por ayudarme a lograr esta meta. vii 6 Resumen La presente investigación titulada “Estudio comparativo de modelos de clasificación de Minería de Datos para la predicción del rendimiento académico de los estudiantes de la Escuela Profesional de Ingeniería de Sistemas e Informática-UTEA”, tuvo como objetivo principal comparar los modelos de clasificación de minería de datos: Árboles de decisión y K- Vecinos Más Cercanos para predecir el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA. Con una metodología de investigación aplicada, de nivel descriptivo y diseño no experimental de corte transversal. La muestra consistió en 112 estudiantes inscritos en la asignatura de Minería de datos, seleccionados mediante el método no probabilístico e intencional. Se registraron los resultados del desempeño de cada modelo aplicando la técnica de la observación y la ficha de registro como instrumento de recolección de datos. Llegando a concluir una diferencia significativa entre los modelos de Árboles de decisión y K-Vecinos Más Cercano. Las métricas de exactitud, precisión y sensibilidad indicaron que el modelo de Árboles de Decisión superó en eficiencia en la predicción en comparación del modelo de K-Vecinos Más Cercanos. Este resultado fue respaldado por el estadístico T-Student para muestras independientes, donde el valor p calculado (0.049) resultó ser menor que el nivel de significancia establecido (0.05), lo que sugiere que el modelo de Árboles de Decisión es más eficiente para la predicción del rendimiento académico. Palabras clave: Algoritmos de clasificación, eficiencia, rendimiento académico, Árboles de Decisión, K-Vecinos Más Cercanos. viii 7 Abstract The present research titled "Comparative study of Data Mining classification models for the prediction of the academic performance of students of the Professional School of Systems Engineering and Informatics-UTEA", had as its main objective to compare data mining classification models. data: Decision trees and K-Nearest Neighbors to predict the academic performance of students at the Professional School of Systems Engineering and Informatics – UTEA. With an applied research methodology, descriptive level and non-experimental cross- sectional design. The sample consisted of 112 students enrolled in the Data Mining course, selected using the non-probabilistic and intentional method. The results of the performance of each model were recorded applying the observation technique and the recording sheet as a data collection instrument. Concluding a significant difference between the Decision Trees and K-Nearest Neighbors models. The accuracy, precision and sensitivity metrics indicated that the Decision Trees model outperformed the prediction efficiency compared to the K-Nearest Neighbors model. This result was supported by the T-Student statistic for independent samples, where the calculated p value (0.049) turned out to be lower than the established significance level (0.05), suggesting that the Decision Trees model is more efficient in the prediction of academic performance. Keywords: Classification algorithms, efficiency, academic performance, Decision Trees, K-Nearest Neighbors. ix ix 8 Índice Portada………………………………………………………………………………….……………….i Acta de Sustentación .............................................................................................................. ii Reporte de Similitud .............................................................................................................. iii Metadatos .............................................................................................................................. iv Dedicatoria ............................................................................................................................. v Agradecimientos .................................................................................................................... vi Resumen .............................................................................................................................. vii Abstract ................................................................................................................................ viii Índice………………………………………………………………………………………………….. ix Índice de Tablas ................................................................................................................... xii Índice de Figuras .................................................................................................................. xiii I. INTRODUCCIÓN ............................................................................................................... 14 II. PLANTEAMIENTO DEL PROBLEMA ............................................................................... 16 2.1 Descripción y formulación del problema ................................................................ 16 2.2 Objetivos ............................................................................................................... 18 2.2.1 Objetivo General ................................................................................................... 18 2.2.2 Objetivos Específicos ............................................................................................ 18 2.3 Justificación e importancia ..................................................................................... 19 2.3.1 Justificación social ................................................................................................. 19 2.3.2 Justificación teórica ............................................................................................... 19 2.3.3 Justificación metodológica ..................................................................................... 19 2.3.4 Justificación práctica ............................................................................................. 19 2.3.5 Importancia............................................................................................................ 20 2.4 Hipótesis ............................................................................................................... 20 x 2.4.1 Hipótesis General .................................................................................................. 20 2.5 Variables ............................................................................................................... 21 III. MARCO TEÓRICO .......................................................................................................... 22 3.1 Antecedentes ........................................................................................................ 22 3.2 Bases Teóricas ...................................................................................................... 28 3.2.1 Modelos de Clasificación de Minería de datos ....................................................... 28 3.2.1.1 Arquitectura de Minería de datos. ............................................................. 29 3.2.1.2 Técnicas de Minería de datos. .................................................................. 30 3.2.1.3 Algoritmos de Clasificación ....................................................................... 30 3.2.1.4 Evaluación del rendimiento de un modelo de clasificación ....................... 32 3.2.1.5 Metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) 34 3.2.1.6 Weka (Waikato Environment for Knowlefge Analysis) ............................... 39 3.2.2 Rendimiento Académico ........................................................................................ 39 3.2.2.1 Tipos de rendimiento académico .............................................................. 41 3.2.2.2 Factores que determinan el rendimiento académico ................................. 41 3.3 Definición de términos ........................................................................................... 42 IV. METODOLOGÍA.............................................................................................................. 46 4.1 Tipo y nivel de la investigación .............................................................................. 46 4.2 Ámbito temporal y espacial .................................................................................... 46 4.3 Población y muestra .............................................................................................. 47 4.4 Técnicas e instrumentos ........................................................................................ 48 4.5 Procedimientos ...................................................................................................... 49 4.6 Análisis de datos ................................................................................................... 50 4.7 Consideraciones éticas ......................................................................................... 50 V. RESULTADOS Y DISCUSIÓN ......................................................................................... 52 xi 5.1 Resultado del modelo de clasificación: Árbol de Decisión ..................................... 53 5.2 Resultado del modelo de clasificación: K Vecinos más cercanos .......................... 54 5.3 Resultados de la comparación de clasificadores: Árbol de Decisión y K Vecinos Más Cercanos (K-NN) ....................................................................................................... 56 5.4 Prueba de Hipótesis .............................................................................................. 60 5.5 Discusión ............................................................................................................... 62 VI. CONCLUSIONES ............................................................................................................ 64 VII. RECOMENDACIONES .................................................................................................. 65 VIII. REFERENCIAS ............................................................................................................. 66 xii 9 Índice de Tablas Tabla 1 Operacionalización de variables ............................................................................... 21 Tabla 2 Matriz de confusión .................................................................................................. 32 Tabla 3 Estudiantes matriculados por semestre .................................................................... 47 Tabla 4 Resultados de las variables utilizadas en la vista minable ........................................ 52 Tabla 5 Resultado de métricas del algoritmo Árbol de decisión J-48 ..................................... 53 Tabla 6 Resultado de métricas del algoritmo K-NN con k=5................................................. 55 Tabla 7 Resultados de compación de las métricas de los modelos de clasificación ............. 56 Tabla 8 Predicciones del rendimiento académico ................................................................. 59 Tabla 9 Pruebas de muestras independientes ...................................................................... 61 xiii 10 Índice de Figuras Figura 1 Fases de la Metodología CRSIP-DM....................................................................... 34 Figura 2 Resultados de métricas de eficiencia deL clasificador Árboles de Decisión ............ 54 Figura 3 Resultados de las métricas de eficiencia de los clasificadores K-Vecinos Más Cercanos (K-NN) .................................................................................................................. 55 Figura 4 Comparación de las métricas de eficiencia de los clasificadores Árboles de Decisión y K-Vecinos Más Cercanos (K-NN) ....................................................................................... 57 Figura 5 Árbol de decisión J-48 generado a partir del conjunto de entrenamiento. ............... 58 Figura 6 Ejemplo de un archivo Excel promedio de curso semestre 2021-1 ......................... 74 Figura 7 Modelo Físico de la base de datos utilizada para integrar y almacenar los datos ... 75 Figura 8 Integración de datos ................................................................................................ 80 Figura 9 Datos desbalanceados de la variable clase................ Error! Bookmark not defined. Figura 10 Datos balanceados de la variable clase ................... Error! Bookmark not defined. Figura 11 Proceso de creación del modelo de árboles de decisión J-48 ............................... 82 Figura 12 Proceso de creación del modelo de K-Vecinos Más Cercanos.............................. 83 14 11 Introducción El proceso de extraer grandes cantidades de datos almacenados en bases de datos, convirtiendo los datos en información y la información en conocimiento, con el objetivo de identificar patrones de comportamiento ocultos en los datos, se conoce como minería de datos. El presente estudio se ha aplicado a los datos académicos del La Escuela de Ingeniería de Sistemas e Informática de la UTEA, cuenta con grandes cantidades de datos que corresponden a la sede central de Abancay y la filial de Cusco. El objetivo de la investigación es comparar diversos modelos de clasificación y determinar el algoritmo más eficiente para predecir el rendimiento académico de los estudiantes. Un aspecto que ha sido observado cuidadosamente cerca en la formación profesional es el rendimiento académico, especialmente en las asignaturas de especialidad. La capacidad de predecir de manera anticipada la situación académica de un estudiante es crucial para implementar las medidas necesarias en el reforzamiento académico y así mejorar su rendimiento. Identificar tempranamente a los estudiantes que podrían necesitar ayuda adicional permite a las instituciones educativas tomar acciones preventivas y brindar el apoyo necesario para que garantice el éxito académico de los estudiantes. En este ámbito, la minería de datos no solo ayuda a descubrir patrones y tendencias en el rendimiento académico de los estudiantes, sino que también facilita la toma de decisiones informadas para elevar el nivel de la calidad educativa. La comparación de diferentes algoritmos de clasificación permitirá identificar el modelo más eficiente, permitiendo así optimizar los esfuerzos para elevar el rendimiento académico y, en última instancia, favorecerá la formación completa del estudiante. En ese sentido se tiene la siguiente estructura: 15 Planteamiento del Problema, se aborda la realidad que se presenta como problemática, define y formula claramente el problema, justificar la importancia y se establece los objetivos que guiarán la investigación. Marco Teórico; describe las bases teóricas, las definiciones conceptuales sobre metodología, aspectos técnicos minería de datos, modelos y algoritmos clasificadores predictivos. Metodología de investigación, se describe la hipótesis y variables, tipo, nivel y diseño del estudio, junto con la descripción de la población de estudio y muestra seleccionada. Resultados y discusión; se presenta los resultados obtenidos, se compara y selecciona el mejor modelo de clasificación con el algoritmo que generó el mayor desempeño en la predicción. Finalmente, se anexa la matriz de consistencia, el instrumento y la creación de modelos de minería de datos basada en la implementación de la metodología CRISP-DM, así como las conclusiones, recomendaciones y referencias bibliográficas. 16 2 II. PLANTEAMIENTO DEL PROBLEMA 2.1 Descripción y formulación del problema En el ámbito de la educación universitaria, uno de los grandes desafíos que enfrentan las universidades es pronosticar las trayectorias individuales de los estudiantes. El principal problema radica en la falta de información de la que disponen las autoridades universitarias para evaluar de manera precisa el desempeño académico de los estudiantes, lo que dificulta la toma de decisiones informadas y basadas en datos reales, lo que puede repercutir en el éxito de los estudiantes y en la calidad de la educación (Loja, 2019). Estudios internacionales describen que las universidades se enfrentan a dos problemas significativos: los altos niveles de reprobación y abandono escolar (Vera et al 2012). Según, la Organización para la Cooperación y el Desarrollo Económicos (OCDE), México es el país que presenta una situación alarmante en términos de deserción y uno de los principales motivos se debe al bajo rendimiento académico, ya que muchos estudiantes desaprueban o reprueban varias veces la misma asignatura. El sistema universitario del Perú, no es ajeno a esta problemática, considerando las limitaciones económicas que enfrentan las universidades públicas. Según informe de El Comercio (2016), en Perú, aproximadamente 1100 dólares americanos es el gasto público anual por estudiante universitario. Se trata de un desafío que las instituciones universitarias deben analizar y resolver mediante la implementación de políticas y estrategias efectivas, con 17 el fin de asegurar que los estudiantes puedan completar su graduación en los tiempos previstos (Candia, 2019). La Universidad Tecnológica de los Andes (UTEA) está organizada en tres facultades que abarcan un total de 10 escuelas profesionales. Dentro de esta estructura, la Escuela Profesional de Ingeniería de Sistemas e Informática forma parte de la Facultad de Ingeniería. Esta Escuela enfrenta hoy en día uno de sus mayores desafíos que es mejorar la calidad educativa y el rendimiento académico de los estudiantes en diversas asignaturas, con el objetivo de prepararlos para competir en el mercado laboral y contribuir a la sociedad. Uno de los problemas observados a través de los registros en los historiales académicos de los estudiantes, es que obtienen un promedio general inferior a 11 puntos en los semestres académicos comprendidos entre el 2019-1 al 2021-2. Esto refleja un bajo desempeño académico. El resultado final de un periodo lectivo (semestre), se mide mediante una calificación cuantitativa. El rango aprobado es de 11 a 20, desaprobado va de 7 a 10, y reprobado es inferior a 7. Estos valores reflejan el rendimiento académico. En la Ley Universitaria 30220, se establece en su artículo 102: “La desaprobación de una materia por tres veces hace que el estudiante sea separado temporalmente por un tiempo de la universidad, al retorno el estudiante solo se podrá matricular en la misma materia que desaprobó. Si desaprueban por cuarta vez procede con su retiro definitivo”. En este contexto, este estudio pretende comparar y determinar el modelo de clasificación de minería de datos más eficiente para anticipar el rendimiento académico e identificar de manera precoz su posible rendimiento académico. 18 Formulación del problema Problema general ¿Qué modelo de clasificación de minería de datos: ¿Árboles de Decisión o K-Vecinos Más Cercanos (K-NN) es más eficiente para predecir el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA? Problemas específicos  ¿Cuál es el nivel de predicción del modelo de clasificación Árboles de Decisión en el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA?  ¿Cuál es el nivel de predicción del modelo de clasificación de K-Vecinos más cercanos (K-NN) en el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA? 2.2 Objetivos 2.2.1 Objetivo General Comparar la eficiencia de los modelos de clasificación de minería de datos: Árboles de decisión y K-Vecinos Más Cercanos (K-NN) para predecir el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA. 2.2.2 Objetivos Específicos  Determinar el nivel de predicción del modelo de clasificación Árboles de Decisión en el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA. 19  Determinar el nivel de predicción del modelo de clasificación K-Vecinos Más Cercanos (K-NN) en el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA. 2.3 Justificación e importancia 2.3.1 Justificación social Permite mejorar el nivel educativo de los estudiantes, al comprender los patrones académicos que repercuten en el desempeño académico. Al utilizar técnicas de minería de datos para predecir el rendimiento académico, se puede identificar a estudiantes en riesgo e intervenir a tiempo con reforzamientos académicos. 2.3.2 Justificación teórica Se analizan los modelos de clasificación en el ámbito de la minería de datos, a través del estudio comparativo de los algoritmos de Árboles de decisión y Redes Neuronales que se utilizan para la obtención de conocimiento. 2.3.3 Justificación metodológica Es importante destacar el uso de la metodología CRISP-DM, conocida en inglés como CRoss-Industry Standard Process for Data Mining. Esta metodología es una de las más comunes en el desarrollo de proyectos de minería de datos, caracterizándose por su facilidad de uso y por tener fases bien definidas. 2.3.4 Justificación práctica La minería de datos en el ámbito educativo, se ha convertido en una herramienta fundamental para detectar patrones de comportamiento a partir de datos académicos. Esta práctica permite identificar a los estudiantes con un rendimiento académico deficiente y a aquellos que comienzan a abandonar sus estudios, así como otros descubrimientos significativos para la universidad. 20 Las evaluaciones de los modelos de clasificación posibilitarán ayudarán a determinar el algoritmo que presenta un desempeño superior en la predicción del rendimiento académico. Es muy importante para docentes y estudiantes saber el rendimiento académico ya que les permitirá tomar acciones para mejorar el proceso de enseñanza aprendizaje. 2.3.5 Importancia A partir del estudio de los datos académicos y la comparación de diferentes modelos de clasificación de minería de datos, se puede identificar la eficiencia del modelo más idóneo para anticipar el rendimiento académico. Esta predicción tendrá una significancia crucial en la mejora de la calidad de la educación en la Escuela de Ingeniería de Sistemas e Informática de la UTEA, ya que permitirá identificar a los estudiantes en riesgo de bajo rendimiento académico, permitiendo que se tomen las medidas preventivas. Asimismo, se podrá realizar una intervención personalizada basada en la predicción para ayudar a mejorar su rendimiento académico. 2.4 Hipótesis 2.4.1 Hipótesis General Al comparar los modelos de clasificación de minería de datos, se puede afirmar que el modelo de Árboles de Decisión es más eficiente que el modelo de K-Vecinos Más Cercanos (K-NN) en la predicción del rendimiento académico de los estudiantes de Ingeniería de Sistemas e Informática - UTEA 21 2.5 Variables Tabla 1 Operacionalización de variables Fuente: Elaboración propia VARIABLES DEFINICIÓN DE VARIABLE DIMENSIÓN INDICADORES ESCALA DE MEDICIÓN Variable Dependiente Rendimiento Académico El rendimiento académico del estudiante en una asignatura está determinado por el promedio de notas en un semestre académico. Lo cual le permite manifestar lo que han aprendido a lo largo del proceso formativo. (Edel, 2003) Estado Aprobado Desaprobado Nominal Variable independiente Modelos de clasificación de Minería de Datos Los modelos de clasificación ayudan a clasificar o predecir el resultado de una o más variables de respuesta, denominado como la variable clase (Joyanes, 2019) Eficiencia del modelo de árbol de decisión  Precisión  Exactitud  Sensibilidad De razón Eficiencia del modelo de vecinos más cercanos  Precisión  Exactitud  Sensibilidad De razón 22 3 3 III. MARCO TEÓRICO 3.1 Antecedentes A Nivel internacional Contreras, Fuentes y Rodríguez (2020), realizaron la investigación denominada: “Predicción del rendimiento académico como indicador de éxito/fracaso de los estudiantes de ingeniería, mediante aprendizaje automático”, investigación publicada en la revista de Formación Universitaria de la Universidad Distrital Francisco José de Caldas, Colombia. La investigación se sitúa en el ámbito de la analítica educativa, con el propósito de desarrollar un modelo predictivo a través de la implementación de algoritmos de aprendizaje automático, utilizando para ello el lenguaje de programación Python. La muestra estuvo constituida por 1620 registros de estudiantes del periodo académico del 2008 al 2014, las variables consideradas para la predicción fueron: Factores académicos preuniversitarios, demográficos y socio culturales. Se utilizaron diferentes algoritmos como árboles de decisión, máquinas de soporte (SVM), red neuronal y K-Vecinos más cercanos (KNN). Concluyendo que, los algoritmos Máquina de Vectores de Soporte (SVM) y Perceptrón (red neuronal) han demostrado ser los más efectivos en términos de evaluación. El modelo de perceptrón ha alcanzado un éxito notable en la predicción del rendimiento académico, logrando una exactitud del 66.4%. (p. 244) Acosta y Ramirez (2020), realizaron la investigación: “Estudio comparativo de técnicas de analítica del aprendizaje para predecir el rendimiento académico de los estudiantes de 23 educación superior”, estudio publicado en la revista Ciencia UAT del Instituto Politécnico Nacional, Unidad Profesional Interdisciplinaria de Ingeniería Ciencias Sociales y Administrativas, Ciudad de México. El objetivo de la investigación “fue comparar la eficiencia de la regresión lineal contra dos técnicas de minería de datos para predecir el rendimiento académico de los estudiantes en la educación superior” (p. 66). El estudio fue realizado en estudiantes universitarios matriculados en diferentes asignaturas de Ingeniería Industrial y Administración Industrial de una institución pública de México. La muestra estuvo constituida por 222 alumnos, los instrumentos que se utilizó fueron SED, instrumento de desapego del estudiante y MSLQ cuestionario de estrategias de motivación para el aprendizaje, contestaron 81 preguntas de ambos instrumentos. La vista minable estuvo constituida por 27 variables usando los algoritmos de aprendizaje automático como redes neuronales (RN) y máquinas de vector soporte (SVM). “Se usó el software entorno Waikato para el análisis del conocimiento (WEKA, por sus siglas en inglés: Waikato Environment for Knowledge Analysis)” (p. 68). Concluyendo que, el modelo de regresión lineal jerárquico (RL) tienen el mismo desempeño que el modelo de máquina de vector soporte (SVM) en cuanto al pronóstico del rendimiento académico. Ayala, López y Menéndez (2021), escribieron el artículo científico denominado: “Modelos predictivos de riesgo académico en carreras de computación con minería de datos educativos”, publicado en la Revista de Educación a Distancia (RED) de la Universidad Autónoma de Yucatán – México. El estudio describe las problemáticas derivadas del bajo rendimiento académico. Se planteó como objetivo: “crear modelos predictivos eficientes para identificar el riesgo académico de los alumnos en los programas de computación de la Universidad Autónoma de Yucatán, a través de la aplicación de técnicas de minería de datos educativos” (p. 4). La investigación se enfocó en 3 de programas que corresponden al área de computación, los cuales son: “Licenciatura en Ingeniería en Computación (LIC), Licenciatura en Ciencias de la Computación (LCC) y Licenciatura en Ingeniería de Software (LIS)”. Los 24 datos utilizados corresponden a información académica de los estudiantes del primer semestre de los años académico 2016 a 2019, datos del examen de ingreso y datos sociodemográficos. Se utilizó weka para utilizar diferentes métodos de evaluación y selección de atributos, como los siguientes algoritmos: J48, RandomForest, Logistic Model Trees (LMT), Logistic y MultilayerPerceptron. Concluyendo que, al comparar los indicadores de desempeño de cada algoritmo se elige al modelo LMT como el más adecuado por presentar un 71.08% de instancias que fueron clasificadas de manera correcta. Páez y Gaytán (2022), realizaron el estudio denominado: “Modelos predictivos del rendimiento académico a partir de características de estudiantes de ingeniería”, publicado en la Revista de Investigación educativa de la Rediech (Red de Investigadores Educativos Chihuaha). La investigación tuvo como propósito proponer una metodología para la elaboración de modelos predictivos del rendimiento académico, considerando las características de los estudiantes de ingeniería, y compara los modelos a través de diferentes métricas de evaluación. En total, 228 estudiantes de una universidad pública en México formaron parte de este estudio (p. 1). Los datos fueron recogidos al inicio de una asignatura, se construyó y evaluó tres modelos predictivos cada uno con diferente técnica de aprendizaje automático. Concluyendo que, las características de cada modelo se obtuvieron un 65% de exactitud en las predicciones y la técnica Naïve Bayes resultó con el modelo más adecuado con la mayoría de las métricas de desempeño evaluadas en la investigación. En conclusión, el modelo más eficiente para identificar el peligro de reprobación en los estudiantes y muy bueno en la identificación de características significativas, fue Naïve Bayes; por lo que, se identificó que el promedio actual fue el atributo más relevante para la predicción del rendimiento académico. Loja (2019) realizó la tesis “Aplicación de Técnicas de Minería de Datos en el contexto del Rendimiento Académico en la Universidad De Cuenca”, para obtener el Título Profesional de Ingeniero de Sistemas. La investigación tiene como propósito implementar distintas 25 técnicas de minería de datos para investigar la deserción de estudiantes y su rendimiento académico, con el fin de crear un modelo de minería de datos que facilite la toma de decisiones de las autoridades universitarias y contribuya a la disminución de la deserción estudiantil. Se utilizó CRISP-DM como metodología de desarrollo para proyectos de minería de datos, se generó los siguientes modelos: predicción de deserción, predicción de desaprobación por ciclo de estudios y predicción de desaprobación por asignatura, usando los algoritmos J48 y Naive Bayes, así como la herramienta WEKA. Se realizó tres experimentos obteniendo para los tres modelos porcentaje de precisión mayores al 70%, llegando a concluir que si se puede construir modelos predictivos con un buen porcentaje de precisión. A Nivel nacional Tong (2019), realizó la Investigación: “Análisis Comparativo de Técnicas de Aprendizaje Automático para Detectar Fraude en Tarjetas de Crédito, Universidad Católica san pablo, Arequipa”; Este estudio enfatiza la importancia del monitoreo para identificar f raude con tarjetas de crédito para prevenir diversos riesgos para activo. La investigación emplea técnicas tales como: "Máquinas de Vectores de Soporte, Clasificador Bayesiano Ingenuo, Bosques Aleatorios, Redes Neuronales y Extreme Gradient Boost, consideradas las más efectivas según estudios previos". El propósito de la investigación es: "Determinar la técnica de Aprendizaje Automático más adecuada para la detección de fraudes en tarjetas de crédito a través de un análisis comparativo"” (p.3). Los datos utilizados para el modelo fueron obtenidos del sitio web Kaggle de Google, la herramienta empleada para llevar a cabo este trabajo fue Ipython Notebook. Los resultados finales indicaron que la Red Neuronal es la técnica que presenta la mayor precisión, alcanzando un 99% y un puntaje F1 del 97%. Los Bosques Aleatorios y Extreme Gradient Boost ocupan el segundo lugar como las mejores técnicas. Concluyendo que, las técnicas de Aprendizaje Automático abarcan una amplia gama de áreas de investigación, en problemas de clasificación supervisada, métodos tales como las 26 Redes Neuronales, los Bosques Aleatorios, el Extreme Gradient Boost, las Máquinas de Vectores de Soporte y el Clasificador Bayesiano Ingenuo han mostrado ser de gran utilidad (p. 38). Álvarez (2021), desarrolló la tesis titulada “Análisis comparativo de técnicas de minería de datos aplicada a Business Intelligence”, presentada en la Universidad Señor de Sipán, para obtener el título profesional de Ingeniero de Sistemas. El estudio de la tesis consiste en realizar un análisis comparativo del rendimiento del modelo entre distintas técnicas de minería de datos aplicadas a soluciones business intelligence. Los resultados que se obtuvieron utilizaron datos de entrada de un proceso inteligencia de negocios, el cual generó una precisión mayor al 90%, en las técnicas de Árbol de decisión se alcanzó un 93.69% y un 93.67% en la técnica de Naive Bayes. Concluyendo que, “las técnicas de mejor rendimiento promedio en cuanto a su precisión fueron Árbol de decisiones con 85.1% y Naive Bayes con 82.3%“ (p. 94) Jhong (2019), realizó la investigación: “Análisis comparativo de las Técnicas de Minería de Datos para la estimación de consumos de Energía Eléctrica en la Empresa Electronorte S.A.”, Tesis presentada para optar el Título Profesional de Ingeniero de Sistemas en la Universidad de Señor Sipan, Chiclayo. El objetivo de la investigación consiste en “realizar el análisis comparativo de las técnicas de minería de datos para la estimación de consumos de energía eléctrica en la empresa ElectroNorte S.A” (p.14). Utiliza diferentes algoritmos de la minería datos para diseñar modelos predictivos en sistemas de inteligencia negocio. La muestra se realizó con 113 medidores con una base con 56 000 000 de registros, los consumos históricos corresponden desde mayo 2016 hasta setiembre 2019. Concluyendo que, la mejor técnica predictiva se determinó en base a los algoritmos utilizados como ARIMA, Holtwinters, Redes Neuronales y SVM (Maquina de soporte vectorial), resultado que “El único modelo que podría clasificarse como BUENO es la RED NEURONAL AUTOREGRESIVA. Este hallazgo es notable, ya que los métodos convencionales como HOLT-WINTERS y ARIMA 27 presentan desventajas en función de la naturaleza de la serie temporal, además de que su optimización en los cálculos de los coeficientes resulta complicada” (p. 111). Ichpa (2021), realizo la investigación: “Comparación de modelos de machine learning para determinar la evaluación de traductores profesionales frente a la calidad de la traducción automática de textos”. Investigación presentada en Universidad Nacional Mayor de San Marcos, Lima; para obtener el título profesional de Licenciada en Computación Científica. El propósito de este estudio es analizar y comparar los distintos modelos de Machine Learning (ML) con el fin de evaluar el desempeño de traductores profesionales en relación con la calidad de la Traducción Automática de textos. La investigación compara dos modelos de ML con el indicador Accuracy para su evaluación. Concluyendo que al comparar se demuestra que: el primer modelo funcionó aproximadamente un 28% peor de lo esperado, lo que indica que las predicciones no son tan precisas como se esperaba; por otro lado, el segundo modelo funcionó un 37% mejor de lo esperado, lo que indica que las predicciones no son tan inexactas y están más cerca de las expectativas. Montenegro (2022), realizo la investigación: “Análisis comparativo de algoritmos de Machine Learning para detección de malware en aplicaciones Android”, presentada en la Universidad de Señor Sipan, Lima. El objetivo planteado fue: Examinar de manera comparativa la eficacia de los algoritmos supervisados de machine learning en la detección de malware en aplicaciones Android (p.31). La población analizada consistió en 10 algoritmos de machine learning diseñados para identificar malware, siendo elegidos los más destacados para el estudio, entre los que se encuentran "Random Forest", "Decision Tree" y "K-Nearest Neighbor (KNN)". El desarrollo se realizó utilizando el lenguaje de programación Python. al identificar malware mediante el flujo de red, se logró una precisión del 96% utilizando Random Forest (RF), del 91.2% con Decision Tree (DT) y del 85.4% con K-Nearest Neighbor (k-NN). Los promedios de error fueron de 4%, 8.8% y 14.6% respectivamente, con tiempos de 28 procesamiento de 24 segundos, 3 segundos y 2 segundos (p. 72). Concluyendo que: la selección de los algoritmos de aprendizaje automático presentados en la propuesta está cuidadosamente guiada con énfasis en su uso en investigaciones previamente publicadas en relación a la regla de búsqueda específica, Random Forest, Decisión Tree y K-NN, que son los más utilizados para la detección de malware en diversas propuestas (p.71). 3.2 Bases Teóricas 3.2.1 Modelos de Clasificación de Minería de datos “El término Minería de Datos (Data Mining) se utiliza para describir el descubrimiento o “minado” (mining) del conocimiento a partir de grandes cantidades de datos” (Joyanes, 2019, p. 227). La minería de datos es conceptualizada por Pérez (2007) “como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos” (p. 1). Se desarrolla un modelo de minería de datos empleando un algoritmo que examina los datos disponibles para identificar patrones, relaciones y estadísticas relevantes. Este modelo se puede utilizar posteriormente para predecir resultados o inferir conexiones en nuevos conjuntos de datos (IBM, 2023). Uno de los objetivos de la minería de datos es la clasificación, Son modelos utilizados para anticipar la pertenencia a una categoría particular, con el fin de identificar patrones relevantes en grandes volúmenes de datos que beneficien a la institución. (PowerData, 2020). 29 3.2.1.1 Arquitectura de Minería de datos. Base de Conocimiento Según Chaglla (2015) “Es un tipo especial de base de datos para la gestión del conocimiento. El objetivo es proveer un medio para la recolección, organización y recuperación computarizada de conocimiento” (p. 51). Algoritmo de Minería de Datos Es utilizado para llevar a cabo el análisis de datos mediante las diferentes tareas de la minería de datos como, predecir (clasificar), agrupar (análisis de grupos), análisis de desviaciones y análisis de la evolución (en espacio o tiempo) y establecer relaciones entre los datos. Módulo de Evaluación de Patrones Contiene las medidas o indicadores que reflejen cuan bien funciona el algoritmo de minería de datos, de tal manera que permita identificar patrones interesantes. Base de datos “El sistema de base de datos, también llamado sistema de administración de base de datos (DBMS), consiste en una colección de datos interrelacionados, conocida como base de datos, y un conjunto de programas de software para administrar y acceder a los datos” (Han, Kamber y Pie, 2012, p. 9). Se puede entender una base de datos relacional como un conjunto compuesto de tablas, cada una de las cuales se estructura en columnas o campos (atributos) y filas (registros o tuplas). Almacén de datos (Data warehouse) Según Han et, al (2012) define a un Data Warehouse (DW) como: “depósito de información recopilada de múltiples fuentes, almacenada bajo un esquema unificado y, por lo general, reside en un solo sitio. Se construyen a través de un proceso de limpieza, integración, transformación, carga de datos y actualización periódica de datos” (p.9). 30 Data Mart “Un Data Mart (DM) es la implementación de un DW con alcance restringido a un área funcional, problema en particular, departamento, tema o grupo de necesidades” (Bernabeu, 2010, p.114) 3.2.1.2 Técnicas de Minería de datos. Técnicas predictivas Técnicas usadas para predecir valores desconocidos o futuros utilizando algunas variables o atributos; estas variables se clasifican en dependientes e independientes dependiendo del conocimiento teórico previo. Las técnicas que se incluyen son: “regresión, series temporales, análisis de varianza y covarianza, análisis discriminante, árboles de decisión, redes neuronales, algoritmos genéticos y técnicas bayesianas” (López y Gonzales, 2007, p. 8). Técnicas descriptivas Utilizados para encontrar patrones que describan el comportamiento de los datos de tal manera que sea comprensible y entendible de manera eficiente. No existe variables dependientes ni independientes, no existe un modelo previo para los datos. Se incluyen las técnicas de agrupamiento y segmentación, asociación y dependencia (López y Gonzales, 2007, p. 8). 3.2.1.3 Algoritmos de Clasificación Asignan una etiqueta a cada instancia o registro, eligiendo entre varias clases diferentes. Estos algoritmos utilizan conjunto de datos de entrenamiento que se basan en atributos o variables predictivas y etiquetas de clase predichas. A su vez, utilizan los atributos aprendidos de los datos de entrenamiento para predecir las etiquetas de clase de nuevos datos que no han sido vistos anteriormente (Gonzales, 2018). En esta investigación se consideraron los siguientes algoritmos: 31 Árboles de decisión Es un algoritmo que pertenece a la categoría de aprendizaje supervisado, sencillo de utilizar, explicar e interpretar el modelo generado. Su representación gráfica está dada mediante una estructura jerárquica conformada por un conjunto de nodos, cada nodo simboliza las variables que permiten predecir y representa una condición o regla. Las hojas del árbol corresponden a la variable clase, variable objetivo o variable dependiente que es la variable que se tiene que predecir. Los árboles de decisión se utilizan en problemas de clasificación, admiten variables discretas y continuas, tratan bien las variables no significativas y los valores nulos, identificando la variable más significativa. Clasifica una instancia recorriendo el árbol desde el nodo raíz a la hoja resultante (Moreano, 2007). Según Martínez (2018), los algoritmos de clasificación son las técnicas más empleadas en el ámbito de la Educación, tienen como objetivo: “crear un modelo predictivo que permita determinar, con la máxima precisión, el valor que alcanzará el sujeto en la variable criterio, utilizando la información recabada de otras variables que se consideran como predictoras” (p. 15). Los elementos necesarios para el algoritmo son: - Una variable clave. - Variables de entrada (discreta o continua). - Una variable de predicción (discreta o continua) Algoritmos de árbol de decisión:  Algoritmo J-48 J48 es la implementación de C4.5 en Weka y es una extensión de ID3, permite tratar instancias que tienen valores de atributos o variables desconocidas, datos con ruido y se puede trabajar con variables con valores continuos. (Quilan, 1993). 32 Vecinos más cercanos (KNN) Es un modelo de clasificación que clasifica datos basándose en su parecido o similitud con los datos de entrenamiento más cercano. Según IBM (2023), surgió como un método para identificar patrones de datos sin requerir una coincidencia precisa con patrones o casos almacenados. Los casos similares están cercanos y los que no son similares están aparte. Como resultado, la distancia entre dos casos es una medida de diferencia (p. 1).  Algoritmo KNN en WEKA (IBk) El clasificador KNN es implementado en WEKA con el nombre IBk Se trata de desarrollar el clasificador a partir de los ejemplos de entrenamiento, almacenando todas las instancias disponibles, a menos que existan limitaciones. Posteriormente, los ejemplos de prueba se clasificarán utilizando el clasificador creado (Garcia y Mollina, 2012, p. 225). 3.2.1.4 Evaluación del rendimiento de un modelo de clasificación Existen diferentes indicadores o métricas de evaluación que se establecen a partir de una matriz de confusión, utilizadas para evaluar de manera significativa el rendimiento del modelo. Matriz de confusión Según Visa (2011), lo define como una herramienta que mide el desempeño del algoritmo al clasificar el número de instancias correctamente entre las clases reales y la clase predicha. Se atribuye este nombre porque muestra si el sistema está confundiendo dos clases. Tabla 2 Matriz de confusión Clases predichas Clase=si Clase=no Clases reales Clase=si TP=True Positive FN=False negative Clase=no FP=False Positive TN=True Negativo Nota: (Visa et al, 2011) 33 Donde: TP: Número de instancias correctas de predicciones cuando la instancia predicha es positiva. FN: Número de instancias incorrectas de predicciones cuando la instancia predicha es negativa. FP: Número de instancias incorrectas de predicciones cuando la instancia predicha es positiva. TN: Número de instancias correcta de predicciones cuando la instancia predicha es negativa. Las métricas para medir el desempeño del modelo en función al interés de estudio, son las siguientes: a) Precisión (Precision): mide la calidad del modelo. “Es el número de predicciones correctas, tanto para una clase positiva como para la clase negativa, sobre el número total de predicciones” (Ayala et, al, 2021, p.36) Precisión= TP/(TP+FP) b) Exactitud (Accuracy): mide la eficacia general del modelo, evaluando la proporción del total de predicciones que el modelo ha acertado. Exactitud= (TP+TN)/(TP+TN+FP+FN) c) Sensibilidad (Recall): mide el porcentaje de casos positivos que el modelo logró identificar de manera correcta. Recall=(TP/FN+TP) Nivel de desempeño de un buen modelo Un buen modelo de predicción debe tener un alto porcentaje de exactitud, precisión y sensibilidad. Esto indica que el modelo es generalmente bueno en hacer predicciones correctas, que las predicciones de la clase positiva (desprobado en este estudio) sean confiables y que tiene una excelente capacidad para detectar la mayoria de los casos 34 positivos. Por lo tanto, se puede considerar un modelo como bueno si sus porcentajes son superiores al 80% (Visa et al, 2011). 3.2.1.5 Metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) CRISP-DM es una metodología de estándar abierto, muy difundida y aplicada por los expertos de minería de datos. De acuerdo a la guía de minería de datos paso a paso de IBM SPSS Modeler, “Este es un enfoque comprobado para guiar sus proyectos de minería de datos. Como metodología, abarca descripciones de las etapas típicas de un proyecto, las actividades requeridas en cada etapa y una aclaración sobre las interrelaciones entre dichas actividades” (Chapman et. al, 2000, p. 10). CRISP-DM describe el ciclo de vida de un proyecto de minería de datos consta de seis fases, que se muestran en la Figura 3. La secuencia de las fases no es rígida. Figura 1 Fases de la Metodología CRISP-DM Nota. Chapman et. al. (2000). CRISP-DM 1.0 35 CRISP-DM es compuesto por un modelo y una guía, que están organizados en seis fases. Según Chapman et al. (2000). A continuación, se describen las fases: Fase I. Comprensión del negocio o problema Joyanes (2019) nos dice que “Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto y en la definición de las necesidades del cliente” (p. 239). La misma información se transforma posteriormente en la descripción de un problema de minería de datos y en un plan inicial diseñado para lograr los objetivos. Las tareas que incluye esta fase son las siguientes: - Determinar los objetivos del negocio. En esta tarea se enfoca en definir el objetivo principal del negocio e identificar el problema a resolver. - Evaluación de la situación. Implica la recopilación de información específica acerca de los recursos disponibles, tanto informáticos como humanos, así como de los requisitos, supuestos, limitaciones y otros elementos que deben tenerse en cuenta al establecer el objetivo del análisis de datos y el plan del proyecto. - Determinación de los objetivos de la minería de datos. Establece los objetivos técnicos del proyecto, garantizando que estén en consonancia con las metas del negocio. Fase II. Comprensión de los datos En esta fase tal como indica Joyanes (2019) consiste en “Recopilar y familiarizarse con los datos, identificar los problemas de calidad de datos y analizar las primeras potencialidades o subconjuntos de datos de interés” (p. 242). Según Joyanes (2019), las tareas que incluye son: 36 - Recopilación de datos iniciales. Recolectar los datos iniciales del proyecto, cargando dichos datos utilizando las herramientas respectivas para una mejor comprensión de los datos. - Descripción de los datos. Se describe los datos, la cantidad de datos (número de registros y campos por registro). - Exploración de datos. Consiste en utilizar técnicas de consulta, visualización e informes, establecer relaciones, resultados de agregaciones simples y un análisis estadístico simple. - Verificación de calidad de datos. Se examina la calidad, verificando si los datos están completos, si los datos tienen el mismo formato o se presentan errores, existe presencia de valores faltantes. Fase 3. Preparación de datos Tiene como propósito la construcción del dataset o conjunto de datos denominado “vista minable” que se utilizarán para crear el modelo. Para ello se debe de seleccionar los datos, pasar por un proceso de limpieza de los datos. Al realizar la preparación de los datos uno puede utilizar técnicas con el propósito de normalizar los datos, discretizar los campos numéricos, tratar valores ausentes, etc. (Gallardo, 2000). Según Gallardo (2000), la fase de preparación de datos consiste en las siguientes tareas: - Selección de datos. Estos son los conjuntos de datos que se utilizarán para el modelado y el trabajo de análisis principal del proyecto. - Limpieza de datos. Implica llevar a cabo medidas destinadas a solucionar los inconvenientes de calidad en los datos, lo que puede abarcar la selección de conjuntos de datos limpios, la introducción de valores por defecto y la utilización de métodos para tratar datos faltantes. 37 - Construcción de datos. Incluye la construcción de nuevos atributos derivados, valores transformados para los atributos existentes. - Integración de datos. Consiste en crear nuevas estructuras de datos que se basen en los datos elegidos, crear campos adicionales a partir de los existentes, añadir nuevos registros y combinar tablas y campos, tanto los que ya existen como los que se generan, para resumir las características de diversas tablas en nuevas tablas de resumen. - Formateo de datos. Cambia el formato de los datos para reflejar modificaciones sintácticas sin alterar su significado. Fase 4. Modelado de los datos De acuerdo a lo que indica Joyanes (2019) en esta fase “Se seleccionan diversas técnicas de modelado adecuadas a un conjunto de datos ya preparado (la vista minable), a fin de centrarse en las necesidades específicas del negocio” (p. 243). . Según Joyanes (2019) las tareas son: - Selección de la técnica de modelado. Determina la técnica de modelado que se utilizará, considerando el tipo de problema que se desea resolver. Es esencial tener en cuenta el objetivo central del proyecto y su relación con las herramientas de minería de datos que se encuentran disponibles. - Generación del plan de prueba. Se requiere de un procedimiento o mecanismo para probar la calidad y validez del modelo. En tareas predictiva o supervisadas, se utiliza la razón de error como medida de la calidad. Con este fin, se divide el conjunto de datos en un conjunto de datos de entrenamiento y otro de prueba. 38 - Construcción del Modelo. A partir de conjunto preparado se crea uno o más modelos utilizando una herramienta del modelado. Existe una gran cantidad de parámetros que deben de configurarse, eligiendo los valores que justifiquen la elección del mejor modelo tomando en cuenta su rendimiento. - Evaluación del modelo. De acuerdo al dominio del problema se evalua el modelo aplicando medidas del modelo y enumerando las cualidades de los modelos previa revisión de los parámetros elegidos. Fase 5. Evaluación de resultados Según Joyanes (2019) indica que esta fase consiste en “Evaluar el modelo de la fase anterior, es decir, si el modelo nos sirve para responder a algunos de los requerimientos del negocio” (p. 243). Las tareas que involucran son la validación del modelo, donde se evalúan los resultados por expertos en el campo y se examina la utilidad de los resultados desde la perspectiva del negocio, además se realiza una revisión del proceso (Joyanes, 2019) Fase 6. Implementación o Despliegue El Desplliegue se centra en aprovechar al máximo las capacidades de los modelos, incorporándolos en los procesos de decisión de la organización y difundiendo informes sobre el conocimiento obtenido (Joyanes, 2019, p. 244) Según Joyanes (2019) las tareas de despliegue son: - Plan de implementación. En esta tarea se toma en cuenta los resultados de la evaluación y se determinan las estrategias de negocio. Se recomienda acciones derivadas de la observación y resultados el modelo. 39 - Planificación de la monitorización y del mantenimiento. Se requiere de una estrategia de mantenimiento que prevenga el uso inadecuado de los resultados durante períodos prolongados. - Informe Final. Es la redacción del informe final, que incluye un resumen del proyecto. 3.2.1.6 Weka (Waikato Environment for Knowlefge Analysis) Según Molina y García (2012), “es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario” (p. 159). El formato con el cual se almacenan los datos en WEKA es con la extensión ARFF (Attribute-Relation File Format). WEKA es una herramienta de código abierto, desarrollada en Java y distribuida bajo la licencia GNU-GPL. Su creación se atribuye a la Universidad de Waikato, ubicada en Nueva Zelanda. Esta herramienta incluye un conjunto de herramientas de visualización y algoritmos destinados al análisis de datos y al modelado predictivo, además de contar con una interfaz gráfica que facilita el acceso a sus diversas funcionalidades. (Castro & Galán, 2015, p. 38). 3.2.2 Rendimiento Académico Existe dos puntos de vista en la definición del rendimiento académico, uno estático y el otro dinámico. Según García y Palacios (1991), desde un punto de vista dinámico, el desempeño del estudiante está vinculado a su capacidad y esfuerzo; desde una perspectiva académica, se entiende que el estudiante genera su propio aprendizaje y expresa una guía beneficiosa (p. 15). 40 De acuerdo con Tauron (1985) el rendimiento académico “Es un resultado del aprendizaje, suscitado por la actividad educativa del profesor, y producido en el alumno, aunque es claro que no todo aprendizaje es producto de la acción docente” (p. 474). Tal como expresa Hernández y Arreola (2021) “El rendimiento académico está ligado al nivel de conocimiento que demuestra un alumno medido en una prueba de evaluación” (p. 23). Por otro lado, Cueto (2006) indica que “El rendimiento académico se refiere al grado de conocimiento que un estudiante manifiesta a través de una calificación numérica, la cual resulta de una evaluación que valora el resultado del proceso de enseñanza-aprendizaje en el que está involucrado” (p. 6). Según Garbanzo (2007), Se puede definir el rendimiento académico como la evaluación del desempeño de un estudiante en sus labores académicas, siendo este el producto de una serie de factores interrelacionados que impactan en el estudiante. Se mide a partir de las calificaciones obtenidas y de una evaluación cuantitativa, cuyos resultados reflejan los trabajos aprobados o rechazados., cuyos resultados reflejan las asignaturas aprobadas o reprobadas. En consecuencia, diversos estudios consideran que el rendimiento académico hace referencia a los promedios y calificaciones obtenidos en las asignaturas, lo que indica un buen rendimiento académico. Por otro lado, aquellos que no demuestran los conocimientos, habilidades y capacidades necesarias para aprobar tendrán un bajo rendimiento académico, lo cual puede llevar al abandono o la deserción. Por lo que, el rendimiento académico no solo está determinado por factores académicos, sino que es el resultado de múltiples factores que influyen y se reflejan en una calificación. En el sistema educativo en la Universidad Tecnológica de los Andes, esta calificación se representa mediante las notas o el promedio obtenido en las asignaturas. Estas 41 calificaciones se otorgan en una escala cuantitativa que va de 1 a 20, donde se considera aprobatorio un rango entre 11 y 20, y no aprobatorio un rango entre 0 y 10. 3.2.2.1 Tipos de rendimiento académico Para Lucio y Duran (2002, citado por Garbanzo, 2007, p. 23), los tipos son:  El rendimiento suficiente, Se logra a través de las puntuaciones obtenidas en exámenes y trabajos. Este indicador representa de forma objetiva el entendimiento que un estudiante tiene acerca de un tema o cuestión. Las notas otorgadas por los profesores después de los exámenes o ejercicios reflejan este rendimiento, el cual se basa en si se ha aprobado o desaprobado una asignatura.  Rendimiento satisfactorio, se refiere a la capacidad de rendimiento de cada individuo. Un estudiante tiene un desempeño satisfactorio cuando ha alcanzado su pleno potencial, sin que la calificación obtenida sea un factor determinante.  Rendimiento insuficiente, a la incapacidad del estudiante para alcanzar las competencias mínimas requeridas durante el proceso de enseñanza- aprendizaje (p. 77). 3.2.2.2 Factores que determinan el rendimiento académico Según Gonzales (1899) los factores educativos más importantes que podrían influir en el rendimiento académico son: Factores inherentes al estudiante. a) Conocimientos insuficientes para cumplir con los requisitos de la Universidad o una preparación deficiente para acceder a estudios de educación superior. b) habilidades específicas que no se alinean con el tipo de Escuela Profesional seleccionada. c) Estilos de aprendizaje no acordes con la Escuela Profesional seleccionada. d) Aspectos de índole actitudinal. 42 e) Deficientes métodos de estudio. Factores inherentes con el profesor a) Deficiencias pedagógicas b) Falta de tratamiento individualizado c) Falta de mayor dedicación Factores inherentes a la organización académica universitaria a) Ausencia de objetivos claramente definidos b) Falta de coordinación entre distintas materias c) Sistemas de selección utilizados d) Criterios objetivos para la evaluación. 3.3 Definición de términos Algoritmo “Es un conjunto de cálculos y reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos” (Salazar y Girón, 2021) Análisis de datos Análisis de datos es la actividad de transformar un conjunto de datos con el objetivo de extraer información útil y facilitar así la formulación de conclusiones. (Gallardo, 2010). Análisis automático Es el proceso automático o semiautomático de análisis de grandes cantidades de datos. Análisis prospectivo de datos Análisis que se realiza sobre un conjunto de datos con la finalidad de predecir tendencias a futuro o comportamientos con base en datos históricos (Lezcano, 2010). 43 Árbol de decisión C4.5 “Es un grupo de reglas estructuradas de forma jerárquica y siguiendo estas reglas desde la raíz del árbol hasta alguna de las hojas se llega a una decisión final, es decir, se puede analizar un problema y siguiendo la estructura del árbol de manera adecuada se llega a una sola decisión” (Rico y Gaytán, 2022), p. 10). Clasificación Este es el método de clasificar un conjunto de datos en grupos que son mutuamente excluyentes, asegurando que cada elemento de un grupo esté lo más cercano posible a los otros miembros, y que los diferentes grupos se mantengan lo más distantes posible entre ellos (García y Molina, 2012, p. 120). Datos de entrenamiento Son datos que permite al modelo aprender, facilitando la identificación de datos o patrones que serán utilizados para llevar a cabo predicciones exactas a partir de datos que no se conocen (Valverde, 2020, p. 26) Datos de prueba Datos que constituyen la base sobre la cual el modelo realizará predicciones, proporcionando una estimación del rendimiento confiable debido a la capacitación previa del modelo con otros conjuntos de datos. (Valverde, 2020, p. 26) Eficacia del modelo Es la capacidad de un modelo o técnica para lograr los objetivos establecidos en un contexto específico. La eficacia se evalúa mediante métricas que miden el rendimiento del modelo (Contreras, 2020). Matrícula condicionada Se presenta cuando un estudiante se matricula en una o más asignaturas por tercera o cuarta vez. 44 Matriz de confusión La matriz de confusión es una tabla de contingencia que muestra la distribución de la clasificación observada (real) y la predecía (clasificador) para las distintas categorías de la variable clase (Menacho, 2017). Minería de datos “Conjunto de técnicas que se utilizan para optimizar el desarrollo de la Inteligencia de Negocios a partir de los datos que una organización recolecta, organiza y almacena, para, posteriormente, realizar el análisis de datos” (Joyanes, 2019). Modelo Se crea mediante la aplicación de algoritmos a los datos, por lo que se debe seleccionar el algoritmo más adecuado (IBM, 2023). Modelo descriptivo “Describe el comportamiento de los datos (conjunto de datos) de forma que sean interpretables por un usuario experto. Encuentra valores interpretables que describen los datos. Trata de proporcionar información entre las relaciones de los datos y sus características” (Joyanes, 2019, 247). Modelo predictivo “Describe los datos y se utilizan para predecir el valor de algún atributo desconocido” (Joyanes, 2019, 247). Muestreo “Genera una muestra representativa de datos. Se identifican los datos (Entrada de datos, ejemplos, partición de datos)” (Joyanes, 2019, p. 245). Patrones de datos Es la información útil, que según Joyanes (2019), “pueden estar representado en diferentes formatos, tales como reglas de negocio, afinidades, correlaciones, asociación, tendencias o modelos de predicciones” (p. 227) 45 Rendimiento académico Este concepto alude al nivel de comprensión manifestado en un campo o asignatura, en relación con una norma establecida, y que generalmente se determina mediante el promedio de calificaciones (Willcox, 2011, p. 1). Técnica Las técnicas de la minería de datos provienen de dos disciplinas la estadística y la inteligencia artificial, es un conjunto de algoritmos. Vista minable Se considera una agrupación de individuos sobre los que se pretende realizar un estudio particular, abarcando todas sus características (variables), con la finalidad de implementar el proceso de minería de datos y obtener conocimiento útil (Alcover al et, 2007). Rapid Miner Software diseñado para el análisis y la minería de datos. Facilita la creación de procesos analíticos mediante la conexión de operadores en un entorno visual. Su aplicación se extiende tanto a la investigación como a diversas aplicaciones en el ámbito empresarial (Beltran y Poveda, 2010, p. 10) 46 4 IV. METODOLOGÍA 4.1 Tipo y nivel de la investigación Tipo: La investigación es de tipo aplicada, “Se caracteriza porque busca la aplicación o utilización de los conocimientos que se adquieren” (Behar, 2008, p. 20). La investigación aplica un conjunto de algoritmos para la clasificación de datos académicos y así determinar la eficacia en la predicción del rendimiento académico. Nivel: La investigación corresponde a un nivel descriptivo, “busca especificar propiedades y características importantes de cualquier fenómeno que se analice. Describe tendencias de un grupo o población” (Hernández et al., 2014, p. 92). La investigación describe el comportamiento de los datos para predecir el rendimiento académico de los estudiantes. Diseño de investigación La investigación se enmarca dentro de un diseño no experimental. Según Hernández et al. (2014), definen estos estudios como aquellos que “se realizan sin la manipulación intencionada de variables, limitándose a observar los fenómenos en su ambiente natural para su análisis” (p. 152). Así, se recurrió a datos académicos que no fueron objeto de ningún tratamiento. 4.2 Ámbito temporal y espacial Delimitación temporal La investigación se realizó desde el 2023 al 2024. 47 Delimitación espacial La investigación se desarrolló en la Escuela de Ingeniería de Sistemas e Informática de la UTEA. 4.3 Población y muestra Población La población está constituida por los datos históricos de los estudiantes matriculados desde el semestre 2019-2 al 2021-2 en la Escuela de Ingeniería de Sistemas e Informática de la UTEA, sede Abancay y Filial Cusco. Tabla 3 Estudiantes matriculados por semestre Semestre Total de matriculados Total de matriculados en Minería de datos 2019-2 398 24 2020-1 354 23 2020-2 379 20 2021-1 413 22 2021-2 434 23 Total 1978 112 Nota. Elaboración propia obtenida del Sistema ERPEduca Muestra Según Hernández et al., (2014), la muestra es un “Subgrupo del universo o población del cual se recolectan los datos y que debe ser representativo de ésta” (p. 173). La muestra es de 112 estudiantes matriculados en la asignatura de Minería de datos desde el semestre académico 2019-2 al 2021-2 de los cuales, 70% se usará para entrenamiento y 30% para la validación. 48 Muestreo Según Galán (2010), el muestreo “consiste en seleccionar los elementos de una población de la que se desea medir” (párr. 4). El muestreo que se utilizó en la presente investigación corresponde al método no probabilístico, de acuerdo con Hernández et al., (2014) afirma que “la elección de los elementos no depende de la probabilidad, si no de causas relacionadas con las características de la investigación o los propósitos del investigador” (p. 176).  Criterios de inclusión Serán todos los estudiantes matriculados en la asignatura de Minería de Datos de la Escuela Profesional de Ingeniería de Sistemas e Informática de la UTEA.  Criterios de exclusión Serán excluidos los estudiantes matriculados en otras asignaturas diferentes de la asignatura de minería de datos. 4.4 Técnicas e instrumentos Técnica Observación estructura: “Denominada también como observación sistemática. Aquí el investigador complementa el proceso de observación con elementos técnicos que guíen y ayuden a sistematizar los datos obtenidos” (Alan y Cortez, 2018, p.26). Con esta técnica se observó y midió el desempeño de los modelos de clasificación. Instrumento Ficha de registro: Según Tello (2022) “este instrumento posibilita la recolección de datos, centrándose en un objetivo particular, para que se determinen valores específicos” (p.46). Se utilizó para registrar los resultados obtenidos de los modelos de clasificación de 49 minería de datos, de acuerdo a las métricas establecidas que evalúan su desempeño en términos de eficiencia. El instrumento se observa en el Anexo 2. 4.5 Procedimientos La investigación compara dos modelos de clasificación en el ámbito de la minería de datos para predecir el rendimiento académico, siguiendo la metodología CRISP-DM. Para ello, se llevaron a cabo los siguientes pasos: Etapa 1: Comprensión del negocio, donde se definieron los objetivos de la investigación, alineado a los objetivos del negocio y minería de datos. Etapa 2: Comprensión de los datos, se obtuvo los datos históricos de los estudiantes, se seleccionó y analizó los datos relevantes para el problema de predicción del rendimiento académico. Etapa 3: Preparación de los datos, se realizaron las siguientes actividades:  Se integraron los diferentes archivos (Excel) en una nueva base de datos.  Se realizó la limpieza, transformación y selección de variables relevantes para la predicción.  Se dividió la vista minable en conjuntos de datos de entrenamiento y conjunto de datos de prueba.  Se realizó el balanceo de clases en el conjunto de entrenamiento Etapa 4: Modelado, se construyó y comparó los dos modelos de clasificación:  Modelo 1: Árboles de Decisión  Modelo 2: K-Vecinos Más Cercanos Etapa 5: Evaluación, se evaluó el desempeño de ambos modelos para determinar la eficiencia. 50 Etapa 6: Análisis de los resultados, se analizó y determinó el mejor modelo de clasificación. Etapa 7: Conclusiones y recomendaciones 4.6 Análisis de datos Para comparar y determinar la eficiencia en cada modelo de clasificación, se realizó un análisis estadístico utilizando las siguientes fórmulas matemáticas:  Exactitud (Accuracy) = (TP+TN)/(TP+TN+FP+FN)  Precisión (Precision) = TP/(TP+FP)  Sensibilidad (Recall) = (TP/FN+TP) Donde: FP: Falso Positivo FN: Falso Negativo TP: Total Positivo TN: Total Negativo Asimismo, para comprobar la hipótesis general de investigación, se aplicó el estadístico T-Student para muestras independientes, ya que se compararon las medias entre dos grupos con valores continuos. Se utilizó el software estadístico SPSS versión 22, y para la creación de tablas y gráficos se empleó Microsoft Excel. 4.7 Consideraciones éticas En la presente investigación, la información obtenida del Sistema ERPEduca, ha sido empleada con un enfoque ético y responsable, garantizando en primer lugar, la protección de 51 la confidencialidad de los datos. Es en ese sentido que se eliminaron los atributos que pudieran identificar al estudiante, considerando solo las características comunes a un resultado final que corresponde a su rendimiento académico. 52 5 V. RESULTADOS Y DISCUSIÓN Para llevar a cabo el procesamiento, análisis e interpretación de los datos en los modelos de clasificación de minería de datos, se aplicó la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) (ver Anexo 2). Para la construcción, comparación y evaluación de los modelos de clasificación, se recurrió a las herramientas de minería de datos Weka y RapidMiner. El Conjunto de datos comprende 112 instancias recolectadas de los semestres académicos comprendidos entre el 2019-2 al 2021-2, correspondientes a estudiantes matriculados en la asignatura de Minería de Datos de la Escuela Profesional de Ingeniería de Sistemas e Informática de la UTEA. La vista minable está compuesta de 10 atributos o variables, las mismas que se seleccionaron en función a la Malla Curricular de la Escuela, los cuales se describen en la Tabla 4. Tabla 4 Resultados de las variables utilizadas en la vista minable Variable Descripción Valores X1_Sit_Curso Situación del curso de Minería de Datos 1=Nuevo, 0= Repitente X2_Prom_Acum Promedio Acumulado 1=Menor_igual_11, 0=Mayor_11 53 X3_Sist_Acad Situación académica 1=Normal, 0=Observado (3 o 4 matrículas en cualquier curso) X4_ Vec_IN Número de veces que llevo Inteligencia de Negocios 1=No_Rep_BD1, 0=Rep_BD1 X5_Nota_ IN Nota en Inteligencia de Negocios 1=11_y_12, 0=Mas_de_12 X6_Vec_BD2 Número de veces que llevo Base de Datos II 1=No_Rep_BD2, 0=Rep_BD2 X7_Nota_ BD2 Nota en Base de Datos II 1=11_y_12, 0=Mas_de_12 X8_Sit_AP2 Situación en Algoritmo y Programación II 1=Llevo_curso, 0=No_llevo_curso X9_Cred_Cursados Créditos cursados 1=Menor_igual_80, 0=Mayor_a_80 Y_RendAcad Resultado Final 1=Desaprobado, 0=Aprobado Nota: Elaboración propia 5.1 Resultado del modelo de clasificación: Árbol de Decisión A continuación, se presenta el resultado obtenido de aplicar el algoritmo Árbol de decisión J-48. Tabla 5 Resultado de métricas del algoritmo Árbol de decisión J-48 Algoritmo Predicción Exactitud Precisión Sensibilidad Árboles de decisión J-48 88.24% 81.82% 81.82% Nota: Elaboración propia, porcentajes obtenidos de Rapid Miner 54 Figura 2 Resultado de métricas de eficiencia del clasificador Árbol de Decisión. Nota: Elaboración propia. Interpretación del resultado de las métricas del clasificador del modelo de Árbol de Decisión. Los resultados de las métricas que miden la eficiencia y el desempeño del algoritmo de Árboles de Decisión J-48 se encuentran en la Tabla 5 y en la Figura 2. El algoritmo demuestra una exactitud del 88.24%, significa que el modelo predice correctamente el rendimiento académico de todas las instancias de la clase “Aprobado” o “Desaprobado”. Se observa un 81.82% de Precisión, esto indica que, de todos los estudiantes el modelo predijo como desaprobados, el 81.82% realmente desaprobaron la asignatura, y se tiene un 81.82% de Sensibilidad lo que significa que el modelo identificó correctamente a los estudiantes que realmente desaprobaron. 5.2 Resultado del modelo de clasificación: K Vecinos más cercanos A continuación, se presenta los resultados obtenidos de aplicar el algoritmo K-NN (K- Nearest Neighbors), donde el parámetro K representa el número de vecinos más cercanos que se consideran para tomar una decisión sobre la clasificación de un punto de datos. 88.24% 81.82% 81.82% 78 80 82 84 86 88 90 Exactitud Precisión Sensibilidad Árbol de decisión J-48 55 Tabla 6 Resultado de métricas del algoritmo: K-NN con k=5 Algoritmo Predicción Exactitud Precisión Sensibilidad K-NN (k=5) 76.47% 58.80% 90.90% Nota: Elaboración propia, porcentajes obtenidos de Rapid Miner. Figura 3 Resultado de las métricas de eficiencia del clasificador K-Vecinos Más Cercanos (K- NN). Nota: Elaboración propia. Interpretación del resultado de las métricas del clasificador K-Vecinos Más Cercanos (K-NN) En la Tabla 6 y Figura 3 se presentan el resultado de las métricas que evalúan la eficiencia y el desempeño del algoritmo K-NN. El algoritmo demuestra una exactitud del 76.47%, significa que el modelo predice correctamente el rendimiento académico de todas las 76.47% 58.8% 90.9% 0 10 20 30 40 50 60 70 80 90 100 Exactitud Precisión Sensibilidad K-NN (k=5) 56 instancias de la clase “Aprobado” o “Desaprobado”. Se observa un 58.8% de Precisión, esto indica que, de todos los estudiantes que el modelo predijo como desaprobados, el 58.8% realmente desaprobaron la asignatura, y se tiene un 90.9% de Sensibilidad lo que significa que identifica pocos casos en los que el modelo predice que un estudiante aprobará cuando en realidad va a desaprobar. 5.3 Resultados de la comparación de clasificadores: Árbol de Decisión y K Vecinos Más Cercanos (K-NN) A continuación, se detallan los resultados alcanzados después de llevar a cabo la evaluación de Arboles de decisión J-48 y el algoritmo K-NN (K=5). Tabla 7 Resultados de las métricas de los modelos de clasificación: Árbol de Decisión y K Vecinos Más Cercanos (K-NN) Modelo de Minería de datos Métricas de eficiencia Exactitud Precisión Sensibilidad Árbol de decisión (J-48) 88.24.% 81.82% 81.82% K-Vecinos más cercanos (KNN) 76.47% 58.80% 90.90% Nota: Elaboración propia, porcentajes obtenidos de Rapid Miner. 57 Figura 4 Comparación de las métricas de eficiencia de los clasificadores: Árboles de decisión y K-Vecinos más cercanos. Nota: Elaboración propia. Interpretación de resultados de comparar las métricas de eficiencia de los clasificadores: Árboles de Decisión y K-Vecinos Más Cercanos (K-NN) En la Tabla 7 y Figura 4 se presentan los resultados de las métricas que evalúan la eficiencia de los modelos de Árbol de decisión y K-Vecinos Más Cercanos (K-NN). Al comparar los resultados, se obtiene: Exactitud: Cuanto más alta sea la exactitud, mejor es el rendimiento del modelo en general. En este caso, el Árbol de Decisión J-48 muestra una exactitud del 88.24%, mientras que KNN tiene una exactitud del 76.47%. Esto sugiere que el Árbol de Decisión J-48 tiene un desempeño ligeramente mejor en términos de exactitud. Precisión: Cuanto más alta sea la precisión, menos falsos positivos se identifican, esto significa que el modelo predice que un estudiante “Desaprueba” la asignatura cuando en realidad el estudiante “Aprueba”. En este caso, el Árbol de Decisión J-48 tiene una precisión 88.24% 81.82% 81.82% 76.47% 58.8% 90.9% 0 10 20 30 40 50 60 70 80 90 100 Exactitud Precisión Sensibilidad Árbol de decisión J-48 K-Vecinos más cercanos KNN 58 del 81.82%, mientras que K-NN muestra una precisión del 58.80%. Esto indica que el Árbol de Decisión J-48 tiene menos falsos positivos en comparación con K-NN. Sensibilidad: Cuanto más alta sea la sensibilidad, menos casos positivos reales se pasan por alto, esto significa que el modelo identifica correctamente a los estudiantes que realmente van a desaprobar. En este caso, el Árbol de Decisión J-48 tiene una sensibilidad del 81.82%, mientras que K-NN tiene una sensibilidad del 90.90%. Esto sugiere que K-NN es mejor identificando los casos positivos reales (desaprobados) en comparación con el árbol de decisión J-48. En conclusión, al considerar estas métricas en la clasificación correcta del rendimiento académico de los estudiantes, entonces podemos determinar que el clasificador de “Árboles de Decisión” es el modelo más eficiente para la predicción. Figura 5 Árbol de decisión J-48 generado a partir del conjunto de datos de entrenamiento Nota: Obtenido mediante la herramienta Rapid Miner 59 En la Figura 5, se aprecia el modelo de clasificación de Árboles de Decisión, generado con los datos de entrenamiento. Este modelo ayuda a explicar qué variables académicas son significativas para predecir el rendimiento académico de la asignatura de Minería de Datos. Para interpretar el árbol, basta con analizar cada rama. En tal sentido indica que la variable predictora más significativa para determinar si un estudiante “Aprueba” o “Desaprueba” la asignatura es el promedio acumulado (X2_Prom_Acum), el cual se encuentra en el Nodo 1. Seguidamente se ramifica en el Nodo 2, con la variable predictora situación académica (X3_Sit_Acad) del estudiante. A continuación, en los Nodos 3, 4 y 5 se considera el desempeño académico en el curso de Base de Datos 2, si repitió o no el curso en mención. Los árboles de decisión discriminan las variables no relevantes, considerando solo las que influyen en el rendimiento académico. Tabla 8 Predicciones del rendimiento académico Instancia Árbol de decisión (J-48) K-Vecinos más cercanos (KNN=5) 1 0.87 0.85 2 0.87 0.69 3 1.00 0.99 4 0.95 0.90 5 1.00 0.69 6 0.82 0.85 7 0.95 1.00 8 0.95 0.90 9 0.87 0.82 10 0.87 0.66 11 1.00 0.81 12 0.67 0.80 13 0.87 0.82 14 0.87 0.82 15 0.87 0.86 16 0.87 0.86 17 1.00 0.90 18 0.87 0.90 60 19 0.87 0.87 20 1.00 1.00 21 0.95 0.90 22 0.82 0.85 23 0.82 0.85 24 1.00 1.00 25 0.87 0.88 26 0.87 0.87 27 0.67 0.83 28 0.87 0.53 29 0.95 0.90 30 0.87 0.85 31 0.87 0.82 32 0.87 0.86 33 0.87 0.82 34 0.95 0.88 Nota: Resultado obtenido de validar el modelo con Rapid Miner En la Tabla 8 se presentan las predicciones realizadas al conjunto de datos de prueba utilizando los modelos de Árboles de Decisión y K-Vecinos Más Cercanos. Por lo que se puede observar que el modelo de Árboles de Decisión obtiene mejores resultados en la predicción del rendimiento académico de los estudiantes. Estos datos son utilizados para la comprobación de la hipótesis general. 5.4 Prueba de Hipótesis Formulación de Hipótesis estadística Hipótesis Nula (H0): Al comparar los modelos de clasificación de minería de datos, se puede afirmar que el modelo de Árboles de Decisión no es más eficiente que el modelo de K- Vecinos Más Cercanos en la predicción del rendimiento académico de los estudiantes de Ingeniería de Sistemas e Informática - UTEA 61 Hipótesis Alterna (H1): Al comparar los modelos de clasificación de minería de datos, se puede afirmar que el modelo de Árboles de Decisión si es más eficiente que el modelo de K-Vecinos Más Cercanos en la predicción del rendimiento académico de los estudiantes de Ingeniería de Sistemas e Informática - UTEA Nivel de significancia El nivel de significancia elegido es del 5%, por lo tanto, α = 0.05 Estadístico de prueba Dado que es un estudio transversal en el que se evalúan dos grupos (Árboles de Decisión y K-Vecinos Más Cercanos) en un mismo momento, y la variable aleatoria es numérica (predicciones), se utilizará la prueba T de Student para muestra independientes. Para el cálculo del estadístico se utilizó el programa SPSS Staticts 22. Tabla 9 Pruebas de muestras independientes Prueba de Levene de calidad de varianzas Prueba t para la igualdad de medias F Sig t gl Sig. (bilateral) Diferencia de medias Diferencia de error estandar 95% de intervalo de confianza de la diferencia inferior superior Predicción Se asumen varianzas iguales No se asumen varianzas iguales 0.048 0.831 2.002 2.002 66 64.006 0.049 0.049 0.04294 0.04294 0.02145 0.02145 0.00012 0.00010 ,08576 .08578 Nota: Valores obtenidos de SPSS Conclusión de la hipótesis Con un valor de p = 0.049 (p <= 0.05) se acepta la hipótesis alterna. Por lo tanto, se concluye: Al comparar los modelos de clasificación de minería de datos, se puede afirmar que 62 el modelo de Árboles de Decisión es más eficiente que el modelo de K-Vecinos Más Cercanos para predecir el rendimiento académico de los estudiantes de Ingeniería de Sistemas e Informática - UTEA 5.5 Discusión El propósito principal de esta investigación es “Comparar los modelos de clasificación de minería de datos: Árboles de decisión y K-Vecinos Más Cercanos para predecir el rendimiento académico de los estudiantes en la Escuela Profesional de Ingeniería de Sistemas e Informática – UTEA”. Los resultados de la evaluación de los algoritmos J-48 y K-NN muestran que el modelo de Árbol de Decisión J-48 supera al modelo de K-Vecinos Más Cercanos (K-NN) en cuanto a exactitud, precisión y sensibilidad. Exactitud: El Árbol de Decisión J-48 alcanzó una exactitud del 88.24%, superando significativamente al modelo K-NN, que obtuvo una exactitud del 76.47%. Este resultado sugiere que el modelo J-48 es más exacto para predecir el rendimiento académico. Precisión: La precisión del Árbol de Decisión J-48 fue del 81.82%, comparada con el 58.80% de K-NN. Una mayor precisión indica que el modelo J-48 tiene una menor cantidad de falsos positivos, lo cual es fundamental para identificar de manera correcta a los estudiantes que realmente destacan en su rendimiento académico. Sensibilidad: K-NN mostró una mayor sensibilidad (90.90%) en comparación con el Árbol de Decisión J-48 (81.82%), esto implica que K-NN podría ser mejor para identificar correctamente a los estudiantes que desaprueban el curso. Sin embargo, con los resultados obtenidos de precisión y exactitud son más altas del modelo J-48. Los resultados descritos están alineados a las conclusiones de Álvarez (2021) y Lizares (2017), quienes también determinaron que Árbol de Decisión es el modelo más eficiente en la predicción del rendimiento académico, en términos de precisión, exactitud y sensibilidad, obteniendo un promedio de 85.1% de eficiencia en ambas investigaciones. En el estudio 63 realizado por Montenegro (2022) se destaca que el algoritmo de Random Forest como modelo clasificador de árbol de decisión, también obtiene mejores resultados en la predicción, alcanzando una exactitud del 96%. Asimismo, al comparar árbol de decisión con el algoritmo K-NN, se observó que K-NN obtuvo un menor porcentaje de exactitud, coincidiendo en los resultados hallados en esta investigación. En conclusión, el modelo de Árbol de Decisión J-48 ha demostrado ser más eficiente en la predicción del rendimiento académico de los estudiantes de la Escuela Profesional de Ingeniería de Sistemas e Informática de la UTEA. 64 6 VI. CONCLUSIONES Primera: Los resultados indican que el modelo de Árboles de Decisión es significativamente más eficiente que el modelo de K-Vecinos Más Cercanos (K-NN) en términos de exactitud (88.24%) y precisión (81.82%) en la predicción del rendimiento académico, superando notablemente los resultados del modelo de K-Vecino Más Cercanos (K-NN). Sin embargo, K- NN mostró una mayor sensibilidad del 90.90%, siendo este indicador de identificar correctamente los casos de estudiantes que desaprueben. Evento que también fue determinado por el estadístico T-Student con un nivel de significancia del 5% , donde el p- valor=0.049 que es inferior a la significancia 0.05; rechazando la hipótesis nula (Ho) y aceptando la hipótesis alterna (Ha), por lo que se afirma que el modelo de árboles de decisión es más eficiente que el modelo de K-Vecinos Más Cercanos (K-NN) en la predicción del rendimiento académico de los estudiantes de la Escuela Profesional de Ingeniería de Sistemas e Informática de la UTEA. Segunda: Para determinar el nivel de predicción del modelo de Árboles de Decisión en el rendimiento académico, se realizó el calculó de los valores de exactitud, precisión y sensibilidad. Los resultados obtenidos fueron de un nivel de exactitud del 88.24%, un nivel de precisión del 81.82% y un nivel de sensibilidad del 81.82%. De acuerdo a los porcentajes de las métricas, el modelo tiene un buen nivel de desempeño en la predicción del rendimiento académico. Estos resultados respaldan la utilidad de las técnicas de minería de datos en el ámbito educativo, especialmente para el análisis y predicción del desempeño estudiantil. Tercera: Para determinar el nivel de predicción del modelo de K-Vecinos Más Cercanos (K- NN), se trabajó K=5. Se observó un rendimiento con un nivel de exactitud de 76.47%, un nivel de precisión del 58.8% y un nivel de sensibilidad del 90.9%. Estos resultados indican que este modelo no presenta un buen nivel de desempeño del algoritmo, sin embargo, identifica a los estudiantes con un bajo rendimiento académico, aquellos clasificados como “desaprobados”. 65 7 VII. RECOMENDACIONES Primera: A las autoridades y directores de la Universidad, en base a los resultados obtenidos, se recomienda implementar un Sistema de predicción de rendimiento académico utilizando el modelo de Árboles de Decisión, específicamente el algoritmo J-48, ya que ha demostrado ser eficiente en la predicción. Segunda: Se recomienda comparar con otros algoritmos de clasificación que correspondan a modelos de Árboles de Decisión, para determinar si sigue siendo la mejor opción en términos de predecir el rendimiento académico. Tercera: Se recomienda realizar un análisis más detallado de los parámetros K utilizados en el modelo de K-Vecinos Más Cercanos (K-NN) y evaluar cómo afecta el rendimiento del modelo en relación con la exactitud, precisión y la sensibilidad. 66 I. VIII. REFERENCIAS Acosta, E., Ramirez, A. (2020). Estudio comparativo de técnicas de analítica del aprendizaje para predecir el rendimiento académico de los estudiantes de educación superior. Revista CienciaUAT, volumen (15), pp. 63-74 Ávila, H. (2006). Introducción a la metodología de la investigación. Chihuahua-México: Edición electrónica. ISBN-10:84-690-1999-6. Ayala, E., López, R y Menéndez, V. (2021). Modelos predictivos de riesgo académico en carreras de computación con minería de datos educativos. Revista de Educación a Distancia (RED), volumen (21). https://doi.org/10.6018/red.463561 Beltran, B. (s.f.). Minería de datos. Benemérita Universidad Autónoma de Puebla. Mexico Beltran D. y Poveda, D. (2010). Rapid Miner. Universidad Nacional de Colombia. https://fce.unal.edu.co/media/files/UIFCE/Economia/RapidMiner.pdf Bernabeu, D. (2010). Metodologia de la construccion de una data warehouse. Cordoba Argentina. Britos, P.V., Hossian, A., y García, R. (2005). Minería de datos. Buenos Aires: Nueva Librería. Candia, D.I. (2019). Predicción del Rendimiento Académico de los Estudiantes de la UNSAAC a partir de sus datos de ingreso utilizando algortimos de aprendizaje automático [Tesis de maestria, Universidad Nacional San Antonio Abad del Cusco] https://repositorio.unsaac.edu.pe/handle/20.500.12918/4120 Castro, E. & Galán, V. (2015) Aplicación de la metodología CRISP-DM a un proyecto de minería de datos en el entorno universitario. Proyecto de Fin de Carrera de la Universidad Carlos III de Madrid. Escuela Politécnica Superior Ingeniería en Informática. Carrasco Diaz, S. (2007). Metodología de la Investigación Científica. Lima: San Marcos El Comercio (2016). Gasto público anual en el Perú por alumno, recuperado de: https://doi.org/10.6018/red.463561 67 https://elcomercio.pe/peru/gasto-publico-anual-peru-alumno-us-1-100-172528 Contreras, L., Fuentes, H, y Rodriguez, J. (2020) Predicción del rendimiento académico como indicador de éxito/fracaso de los estudiantes de ingeniería, mediante aprendizaje automático. Formación Universitaria, volumen 13(5), pp. 233-245. Chaglla, L. (2015). Arquitectura de ejecución de experimentos de minería de datos. [Tesis de Máster]. Universidad de Castilla- La Mancha. Chapman, P., Clinton, J., Kerber,R., Kjamabaza,T y Reinartz, T. (2000) CRISP-DM 1.0 Step- by step data mining guide. SPSS. Edel, R. (2003). El Rendimiento Académico: Concepto,Investigación y Desarrollo. Recuperado el día 13 abril del 2018 de http://www.ice.deusto.es/RINACE/reice/ vol1n2/Res_Edel.htm. Gallardo, J. (2000). Metodologia para el desarrolo de proyectos en mineria de datos. Recuperado http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/ Documento_CRISP-DM.2385037.pdf Garcia, O., & Palacios, R. (1991). Factores condicionantes del aprendizaje en lógica matemática [Tesis de Magister]. Universidad San Martín de Porres, Lima, Perú. Goicochea, A. (11 de agosto de 2009). CRISP-DM, Una metodología para proyectos de Minería de Datos. Recuperao de https://anibalgoicochea.com/2009/08/11/crisp-dm- una-metodologia-para-proyectos-de-mineria-de-datos/ Gonzalez, A. (2007). Desarrollo de tecnicas de mineria de datos en procesos industriales. Universida de la Rioja: Tesis Doctoral. González, R. (1989). Análisis de las causas del fracaso escolar en la Universidad Politécnica de Madrid, Madrid, España. Han,J., Kamber, M., y Pei, J. (2012). Data Mining Concepts and Techiniques. USA, Morgan Kaufmann. http://www.ice.deusto.es/RINACE/reice/ 68 Hernandez, J. (2004). Introduccion a la mineria de datos. 1ª ed. Londres: Pearson Educación. ISBN: 8483225581 Kuh, G. D., Kinzie, J., Buckley, J. A., Bridges, B. K., & Hayek, J. C. (2006). What matters to student success: A review of the literature. Commissioned report for the National Symposium on Postsecondary Student Success: Spearheading a Dialog on Student Success. Washington, DC: National Postsecondary Education Cooperative. Ichpas, P. (2021). Comparación de modelos de machine learning para determinar la evaluación de traductores profesionales frente a la calidad de la traducción automática de textos. [Tesis de pregrado]. Universidad Nacional Mayor de San Marcos, Lima JING, L(2010). Aplicaciones de minería de datos en la eduación superior. New York, EEUU. IBM Software Business Analytics. Jhong, G. (2019). Análisis comparativo de las Técnicas de Minería de Datos para la estimación de consumos de Energía Eléctrica en la Empresa Electronorte S.A. [Tesis de pregrado]. Universidad Señor de Sipán. Lezcano, R. (2010). Minería de datos (Trabajo de investigación bibliográfica). Universidad Nacional del Nordeste, Corrientes, Argentina. Ley universitaria 30220 (2014). Diario Oficial El Peruano del 9 de julio de 2014. https://spij.minjus.gob.pe/spij-ext-web/detallenorma/H1105565 Loja, G.(2019). Aplicación de técnica de minería de datos en el contexto del rendimiento académico en la Universidad de Cuenca. Tesis. Ecuador. Molina, J. y García, J. (2012). Técnicas de análisis de datos Aplicaciones prácticas utilizando Microsoft Excel y Weka. Recuperado de http://ocw. uc3m.es/ingenieria- informatica/analisis-de-datos/ libroDataMiningv5.pdf Moreano, G. (3 de octubre de 2007). Técnicas más usadas en la mineria de Datos. Obtenido de https://gamoreno.wordpress.com/2007/10/03/tecnicas-mas- usadas-en-la-mineria-de-datos/ https://spij.minjus.gob.pe/spij-ext-web/detallenorma/H1105565 69 Páez,A y Gaytán,N. (2022). Modelos predictivos del rendimiento académico a partir de características de estudiantes de ingeniería. Revista de Investigación educativa de la Rediech, volumen (13), pp. 1-18 Pérez, L. y Gonzales, S. (2007). Minería de datos: técnicas y herramientas, Madrid. Editorial Paraninfo. Piateski, G., Frawley, W. (1991). Knowledge Discovery in Databases. MIT Press Cambridge. MA, USA. ISBN:0262660709. Piattini, M. G., Esperanza, M., Coral, C. y Vela, B. (2007). Tecnología y diseño de Bases de Datos. México: Alfaomega Grupo Editorial. Petrovic, D. (2010). SQL SERVER 2008 manual de referencia. alemania. Silberschatz, A, & Korth, H.F. (2014). Fundamentos de Bases de Datos (6ta.ed.) España: Mc Graw Hill. Tello, A. (2022). Análisis comparativo de algoritmos de Machine Learning para la detección de malware en aplicaciones android [Tesis de pregrado]. Universidad Señor de Sipán. Tong, L (2019). Análisis Comparativo de Técnicas de Aprendizaje Automático para Detectar Fraude en Tarjetas de Crédito [Tesis de pregrado]. Universidad Católica San Pablo, Arequipa Vera, J. A., Ramos, D. Y., Sotelo, M. A., Echeverría, S., y Serrano, D. M. (2012). Factores asociados al rezago en estudiantes de una institución de educa