Exportação concluída — 

Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Costa, Herbert da Silva
Orientador(a): Simões, Sérgio Nery
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Serra
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
AVA
EAD
Link de acesso: https://repositorio.ifes.edu.br/handle/123456789/3636
Resumo: O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.
id IFES-2_db14abc09ab47d6bc82b1c4ea760aca0
oai_identifier_str oai:repositorio.ifes.edu.br:123456789/3636
network_acronym_str IFES-2
network_name_str Repositório Institucional do IFES
repository_id_str
spelling Costa, Herbert da SilvaInstituto Federal do Espírito Santo (Ifes) - Campus SerraInstituto Federal do Espírito Santo (Ifes) - CEFORAndrade, Mariella BergerAndrade, Jefferson OliveiraSimões, Sérgio Nery2023-09-11T18:17:54Z2023-09-11T18:17:54Z2023-07-13Costa, Herbert da Silva. Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância. 2023. 95 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.https://repositorio.ifes.edu.br/handle/123456789/363630004012075F7O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.The great challenge of distance learning managers in higher education is the fight against student’s dropout which, according to SEMESP (2021), varies between 28 and 48% in most courses, while in classroom learning, this same rate is around 22% and remains unchanged over the years. In order to reduce the high rate of student’s dropout, Educational Data Mining (EDM) methods have been applied together with automatic prediction models, to help distance learning managers in taking action before the fact occurs. The data sources used for the EDM are, in the first place, the Virtual Learning Environment, where interaction data – history of all clicks and views – of students are recorded in logs. The second source, when available, is the Higher Education Institution Educational ERP database, which provides data of a social and academic nature and can be integrated with interaction data, always with the aim of improving mining results and consequently the performance of the predictive model. However, a relevant problem is to select the best characteristics (variables/attributes) to predict dropout. In this work, we developed a process supported by a computational framework, that employs learning methods of machine together with explainability methods (XAI-SHAP) to select the most important characteristics associated with dropout, both for building models with greater predictive power (global explainability), and for a better understanding of the distance learning problem (global/local explainability). To assess the robustness of the process results, datasets from Education Institutions (i) UPE were used, with a complete set of variables that represent all student interactions in the Virtual Learning Environment and (ii) UNIVALE, which due to limitations imposed by the use of a system outsourced Content Management System, needed demographics and academic data integration. In the first four phases of the process, pre-processing, separation of data (in training and testing) were carried out, and the methods of EDM comparing the results through the f1-score metric. That were used global explainability analyze methods to select the characteristics to build a predictive binary classification model. After selecting the characteristics, in the UPE data, the proposed model achieved f1-score medians between 0.97 and 0.99. In the UNIVALE data, after performing the proper data integration, a model reached the f1-score result of 0.94 with the LightBoost classifier, both results being compatible with the state of the art. In Phase 5, an API was created, used as a proof of concept to test both the result of the predictions and the return of the SHAP graphs for analyzing the local explainability of these results, allowing distance learning professionals to have the necessary support for knowledge discovery that exists in data available in Virtual Learning Environments and academic systems of Higher Education Institutions.Fundação de Amparo à Pesquisa e Inovação do Espírito Santo (FAPES)95 f.AVAEADEnsino a distânciaEvasão escolarInteligência artificialMineração de dadosAprendizado por computadorAnálise de explicabilidade de modelos de classificação aplicados à evasão na educação a distânciainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraCiência da ComputaçãoInteligência Artificialhttp://lattes.cnpq.br/0723238551725187https://orcid.org/0000-0002-1094-7682Computação Aplicadahttp://lattes.cnpq.br/7138275599443632https://orcid.org/0000-0002-5321-9239LICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/54b4fb21-9296-47df-9d41-aaff1b667f34/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADORIGINALDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdfDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdfapplication/pdf6375604https://repositorio.ifes.edu.br/bitstreams/77b836fc-a170-41c8-94c3-6c59a4419d14/download233245c97dfa687e6d286ac3e02c67b2MD51trueAnonymousREADTEXTDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.txtDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.txtExtracted texttext/plain233284https://repositorio.ifes.edu.br/bitstreams/8c9b57c8-2b81-482f-95cc-f85e59b84750/download0a3f9dbbed3c03948b79ee286d3e2a74MD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.jpgDISSERTAÇÃO_Análise_de_explicabilidade_de_modelos.pdf.jpgGenerated Thumbnailimage/jpeg2178https://repositorio.ifes.edu.br/bitstreams/1da7090c-852a-4602-83d6-86a18cc2d02d/downloada783235678baa3d35ba8088c58ee8932MD54falseAnonymousREAD123456789/36362025-09-05T20:38:22.397Zopen.accessoai:repositorio.ifes.edu.br:123456789/3636https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-09-05T20:38:22Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
spellingShingle Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
Costa, Herbert da Silva
AVA
EAD
Ensino a distância
Evasão escolar
Inteligência artificial
Mineração de dados
Aprendizado por computador
title_short Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_full Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_fullStr Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_full_unstemmed Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
title_sort Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância
author Costa, Herbert da Silva
author_facet Costa, Herbert da Silva
author_role author
dc.contributor.institution.pt_BR.fl_str_mv Instituto Federal do Espírito Santo (Ifes) - Campus Serra
Instituto Federal do Espírito Santo (Ifes) - CEFOR
dc.contributor.member.none.fl_str_mv Andrade, Mariella Berger
Andrade, Jefferson Oliveira
dc.contributor.author.fl_str_mv Costa, Herbert da Silva
dc.contributor.advisor1.fl_str_mv Simões, Sérgio Nery
contributor_str_mv Simões, Sérgio Nery
dc.subject.por.fl_str_mv AVA
EAD
Ensino a distância
Evasão escolar
Inteligência artificial
Mineração de dados
Aprendizado por computador
topic AVA
EAD
Ensino a distância
Evasão escolar
Inteligência artificial
Mineração de dados
Aprendizado por computador
description O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-09-11T18:17:54Z
dc.date.available.fl_str_mv 2023-09-11T18:17:54Z
dc.date.issued.fl_str_mv 2023-07-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Costa, Herbert da Silva. Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância. 2023. 95 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ifes.edu.br/handle/123456789/3636
dc.identifier.capes.pt_BR.fl_str_mv 30004012075F7
identifier_str_mv Costa, Herbert da Silva. Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância. 2023. 95 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.
30004012075F7
url https://repositorio.ifes.edu.br/handle/123456789/3636
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 95 f.
dc.publisher.none.fl_str_mv Serra
publisher.none.fl_str_mv Serra
dc.source.none.fl_str_mv reponame:Repositório Institucional do IFES
instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron:IFES
instname_str Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str IFES
institution IFES
reponame_str Repositório Institucional do IFES
collection Repositório Institucional do IFES
bitstream.url.fl_str_mv https://repositorio.ifes.edu.br/bitstreams/54b4fb21-9296-47df-9d41-aaff1b667f34/download
https://repositorio.ifes.edu.br/bitstreams/77b836fc-a170-41c8-94c3-6c59a4419d14/download
https://repositorio.ifes.edu.br/bitstreams/8c9b57c8-2b81-482f-95cc-f85e59b84750/download
https://repositorio.ifes.edu.br/bitstreams/1da7090c-852a-4602-83d6-86a18cc2d02d/download
bitstream.checksum.fl_str_mv ac7cb971050ed632be934da23d966924
233245c97dfa687e6d286ac3e02c67b2
0a3f9dbbed3c03948b79ee286d3e2a74
a783235678baa3d35ba8088c58ee8932
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv repositorio@ifes.edu.br
_version_ 1865654642424152064