Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância

Costa, Herbert da Silva

Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Costa, Herbert da Silva
Orientador(a):	Simões, Sérgio Nery
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Serra
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	AVA EAD Ensino a distância Evasão escolar Inteligência artificial Mineração de dados Aprendizado por computador
Link de acesso:	https://repositorio.ifes.edu.br/handle/123456789/3636
Resumo:	O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.

Metadados do item

id	IFES-2_db14abc09ab47d6bc82b1c4ea760aca0
oai_identifier_str	oai:repositorio.ifes.edu.br:123456789/3636
network_acronym_str	IFES-2
network_name_str	Repositório Institucional do IFES
repository_id_str
spelling	Costa, Herbert da SilvaInstituto Federal do Espírito Santo (Ifes) - Campus SerraInstituto Federal do Espírito Santo (Ifes) - CEFORAndrade, Mariella BergerAndrade, Jefferson OliveiraSimões, Sérgio Nery2023-09-11T18:17:54Z2023-09-11T18:17:54Z2023-07-13Costa, Herbert da Silva. Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância. 2023. 95 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.https://repositorio.ifes.edu.br/handle/123456789/363630004012075F7O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.The great challenge of distance learning managers in higher education is the fight against student’s dropout which, according to SEMESP (2021), varies between 28 and 48% in most courses, while in classroom learning, this same rate is around 22% and remains unchanged over the years. In order to reduce the high rate of student’s dropout, Educational Data Mining (EDM) methods have been applied together with automatic prediction models, to help distance learning managers in taking action before the fact occurs. The data sources used for the EDM are, in the first place, the Virtual Learning Environment, where interaction data – history of all clicks and views – of students are recorded in logs. The second source, when available, is the Higher Education Institution Educational ERP database, which provides data of a social and academic nature and can be integrated with interaction data, always with the aim of improving mining results and consequently the performance of the predictive model. However, a relevant problem is to select the best characteristics (variables/attributes) to predict dropout. In this work, we developed a process supported by a computational framework, that employs learning methods of machine together with explainability methods (XAI-SHAP) to select the most important characteristics associated with dropout, both for building models with greater predictive power (global explainability), and for a better understanding of the distance learning problem (global/local explainability). To assess the robustness of the process results, datasets from Education Institutions (i) UPE were used, with a complete set of variables that represent all student interactions in the Virtual Learning Environment and (ii) UNIVALE, which due to limitations imposed by the use of a system outsourced Content Management System, needed demographics and academic data integration. In the first four phases of the process, pre-processing, separation of data (in training and testing) were carried out, and the methods of EDM comparing the results through the f1-score metric. That were used global explainability analyze methods to select the characteristics to build a predictive binary classification model. After selecting the characteristics, in the UPE data, the proposed model achieved f1-score medians between 0.97 and 0.99. In the UNIVALE data, after performing the proper data integration, a model reached the f1-score result of 0.94 with the LightBoost classifier, both results being compatible with the state of the art. In Phase 5, an API was created, used as a proof of concept to test both the result of the predictions and the return of the SHAP graphs for analyzing the local explainability of these results, allowing distance learning professionals to have the necessary support for knowledge discovery that exists in data available in Virtual Learning Environments and academic systems of Higher Education Institutions.Fundação de Amparo à Pesquisa e Inovação do Espírito Santo (FAPES)95 f.AVAEADEnsino a distânciaEvasão escolarInteligência artificialMineração de dadosAprendizado por computadorAnálise de explicabilidade de modelos de classificação aplicados à evasão na educação a distânciainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraCiência da ComputaçãoInteligência Artificialhttp://lattes.cnpq.br/0723238551725187https://orcid.org/0000-0002-1094-7682Computação Aplicadahttp://lattes.cnpq.br/7138275599443632https://orcid.org/0000-0002-5321-9239LICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/54b4fb21-9296-47df-9d41-aaff1b667f34/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADORIGINALDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdfDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdfapplication/pdf6375604https://repositorio.ifes.edu.br/bitstreams/77b836fc-a170-41c8-94c3-6c59a4419d14/download233245c97dfa687e6d286ac3e02c67b2MD51trueAnonymousREADTEXTDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.txtDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.txtExtracted texttext/plain233284https://repositorio.ifes.edu.br/bitstreams/8c9b57c8-2b81-482f-95cc-f85e59b84750/download0a3f9dbbed3c03948b79ee286d3e2a74MD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.jpgDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.jpgGenerated Thumbnailimage/jpeg2178https://repositorio.ifes.edu.br/bitstreams/1da7090c-852a-4602-83d6-86a18cc2d02d/downloada783235678baa3d35ba8088c58ee8932MD54falseAnonymousREAD123456789/36362025-09-05T20:38:22.397Zopen.accessoai:repositorio.ifes.edu.br:123456789/3636https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-09-05T20:38:22Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
spellingShingle	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância Costa, Herbert da Silva AVA EAD Ensino a distância Evasão escolar Inteligência artificial Mineração de dados Aprendizado por computador
title_short	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_full	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_fullStr	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_full_unstemmed	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_sort	Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
author	Costa, Herbert da Silva
author_facet	Costa, Herbert da Silva
author_role	author
dc.contributor.institution.pt_BR.fl_str_mv	Instituto Federal do Espírito Santo (Ifes) - Campus Serra Instituto Federal do Espírito Santo (Ifes) - CEFOR
dc.contributor.member.none.fl_str_mv	Andrade, Mariella Berger Andrade, Jefferson Oliveira
dc.contributor.author.fl_str_mv	Costa, Herbert da Silva
dc.contributor.advisor1.fl_str_mv	Simões, Sérgio Nery
contributor_str_mv	Simões, Sérgio Nery
dc.subject.por.fl_str_mv	AVA EAD Ensino a distância Evasão escolar Inteligência artificial Mineração de dados Aprendizado por computador
topic	AVA EAD Ensino a distância Evasão escolar Inteligência artificial Mineração de dados Aprendizado por computador
description	O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-09-11T18:17:54Z
dc.date.available.fl_str_mv	2023-09-11T18:17:54Z
dc.date.issued.fl_str_mv	2023-07-13
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	Costa, Herbert da Silva. Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância. 2023. 95 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.
dc.identifier.uri.fl_str_mv	https://repositorio.ifes.edu.br/handle/123456789/3636
dc.identifier.capes.pt_BR.fl_str_mv	30004012075F7
identifier_str_mv	Costa, Herbert da Silva. Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância. 2023. 95 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023. 30004012075F7
url	https://repositorio.ifes.edu.br/handle/123456789/3636
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	95 f.
dc.publisher.none.fl_str_mv	Serra
publisher.none.fl_str_mv	Serra
dc.source.none.fl_str_mv	reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES
instname_str	Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str	IFES
institution	IFES
reponame_str	Repositório Institucional do IFES
collection	Repositório Institucional do IFES
bitstream.url.fl_str_mv	https://repositorio.ifes.edu.br/bitstreams/54b4fb21-9296-47df-9d41-aaff1b667f34/download https://repositorio.ifes.edu.br/bitstreams/77b836fc-a170-41c8-94c3-6c59a4419d14/download https://repositorio.ifes.edu.br/bitstreams/8c9b57c8-2b81-482f-95cc-f85e59b84750/download https://repositorio.ifes.edu.br/bitstreams/1da7090c-852a-4602-83d6-86a18cc2d02d/download
bitstream.checksum.fl_str_mv	ac7cb971050ed632be934da23d966924 233245c97dfa687e6d286ac3e02c67b2 0a3f9dbbed3c03948b79ee286d3e2a74 a783235678baa3d35ba8088c58ee8932
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv	repositorio@ifes.edu.br
_version_	1865654642424152064

Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância

Registros relacionados