Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Engenharia de Producao |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufpe.br/handle/123456789/64097 |
Resumo: | A educação tem potencial de trazer benefícios para toda uma sociedade. Entretanto, a falha nesse campo pode representar efeitos bastante negativos. Pessoas mais escolarizadas tendem a desfrutar de maiores rendas e uma melhor saúde, enquanto o coletivo mais escolarizado está relacionado ao usufruto de comunidades mais seguras e com economia aquecida. Por outro lado, a desistência da escolarização pode trazer malefícios tanto para indivíduos quanto para grupos. Para evitar a concretização desse risco, este estudo explora os dados disponíveis, desenvolve e aplica um modelo de previsão para avaliar as taxas de aprovação nas escolas públicas brasileiras com o intuito de compreender a contribuição dos diversos fatores relacionados a estas instituições para os seus resultados educacionais. Para este último propósito, utiliza os Valores de Shapley para ponderar essas contribuições a partir da análise das coalizões possíveis dos aspectos característicos de sistemas educacionais. A biblioteca PyCaret foi explorada no processo de escolha do melhor modelo de Aprendizado de Máquina para o problema. Usando dados de 2015 a 2022, o modelo escolhido foi o CatBoost Regressor, que apresentou um coeficiente de determinação de 0,492 para os dados de treino e 0,467 para os dados de teste e foi utilizado para prever as taxas de aprovação escolar do ano de 2023. O método SHAP foi utilizado para interpretar o modelo e aumentar a sua explicabilidade, identificando os fatores-chave para os resultados de previsão obtidos, o que possibilita uma alocação mais eficiente dos recursos públicos. Os resultados mostram que escolas com altos índices de distorção idade-série apresentam grande influência negativa às taxas de aprovação. Diferentemente, a média de alunos por turma não tem uma análise trivial, pois menores números contribuem, majoritariamente, de forma positiva, mas há muitos pontos com influência negativa, indicando que deve haver uma diminuição nesse número de maneira cautelosa. A taxa de docentes com ensino superior apresentou um resultado nulo, quando são altas, mas negativo quando menores, assim como o fornecimento de internet. Foi observado, também, que a região geográfica exerceu uma influência considerável, com a região Sudeste se destacando positivamente e Norte negativamente. A localização da escola apresentou resultados contraintuitivos, com escolas urbanas contribuindo negativamente para o modelo, enquanto as escolas rurais contribuíram positivamente. Por fim, os resultados do trabalho foram discutidos em termos das suas implicações em sugestões para políticas públicas visando melhorar o indicador educacional em questão. |
| id |
UFPE_65a84d16bd368131d5e032d2aa2ef8ce |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpe.br:123456789/64097 |
| network_acronym_str |
UFPE |
| network_name_str |
Repositório Institucional da UFPE |
| repository_id_str |
|
| spelling |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modeloEducação públicaEducação básicaAprendizado de máquinaValores de ShapleyExplicabilidadeModelo de previsãoA educação tem potencial de trazer benefícios para toda uma sociedade. Entretanto, a falha nesse campo pode representar efeitos bastante negativos. Pessoas mais escolarizadas tendem a desfrutar de maiores rendas e uma melhor saúde, enquanto o coletivo mais escolarizado está relacionado ao usufruto de comunidades mais seguras e com economia aquecida. Por outro lado, a desistência da escolarização pode trazer malefícios tanto para indivíduos quanto para grupos. Para evitar a concretização desse risco, este estudo explora os dados disponíveis, desenvolve e aplica um modelo de previsão para avaliar as taxas de aprovação nas escolas públicas brasileiras com o intuito de compreender a contribuição dos diversos fatores relacionados a estas instituições para os seus resultados educacionais. Para este último propósito, utiliza os Valores de Shapley para ponderar essas contribuições a partir da análise das coalizões possíveis dos aspectos característicos de sistemas educacionais. A biblioteca PyCaret foi explorada no processo de escolha do melhor modelo de Aprendizado de Máquina para o problema. Usando dados de 2015 a 2022, o modelo escolhido foi o CatBoost Regressor, que apresentou um coeficiente de determinação de 0,492 para os dados de treino e 0,467 para os dados de teste e foi utilizado para prever as taxas de aprovação escolar do ano de 2023. O método SHAP foi utilizado para interpretar o modelo e aumentar a sua explicabilidade, identificando os fatores-chave para os resultados de previsão obtidos, o que possibilita uma alocação mais eficiente dos recursos públicos. Os resultados mostram que escolas com altos índices de distorção idade-série apresentam grande influência negativa às taxas de aprovação. Diferentemente, a média de alunos por turma não tem uma análise trivial, pois menores números contribuem, majoritariamente, de forma positiva, mas há muitos pontos com influência negativa, indicando que deve haver uma diminuição nesse número de maneira cautelosa. A taxa de docentes com ensino superior apresentou um resultado nulo, quando são altas, mas negativo quando menores, assim como o fornecimento de internet. Foi observado, também, que a região geográfica exerceu uma influência considerável, com a região Sudeste se destacando positivamente e Norte negativamente. A localização da escola apresentou resultados contraintuitivos, com escolas urbanas contribuindo negativamente para o modelo, enquanto as escolas rurais contribuíram positivamente. Por fim, os resultados do trabalho foram discutidos em termos das suas implicações em sugestões para políticas públicas visando melhorar o indicador educacional em questão.Education has the potential to bring benefits to society as a whole. However, failure in this field can result in significantly negative effects. More educated individuals tend to enjoy higher incomes and better health, while a collectively educated society is associated with safer communities and a robust economy. On the other hand, dropping out of school can harm both individuals and groups. To mitigate this risk, this study explores available data, develops, and applies a predictive model to evaluate approval rates in Brazilian public schools, aiming to understand the contribution of various institutional factors to educational outcomes. Shapley Values were used to weigh these contributions through the analysis of possible educational system coalitions. The PyCaret library was utilized to select the best Machine Learning model for the problem. Using data from 2015 to 2022, the chosen model was the CatBoost Regressor, which demonstrated a determination coefficient of 0.492 for training data and 0.467 for test data, and was used to predict school approval rates for 2023. The SHAP method was employed to interpret the model and enhance its explainability, identifying key factors for the obtained prediction results, allowing for more efficient public resource allocation. The results indicate that schools with high age-grade distortion indices significantly negatively influence approval rates. In another way, the average number of students per class did not yield straightforward analysis, as lower numbers mostly contributed positively, but there were many points with negative influence, suggesting a cautious approach to reducing class sizes. The percentage of teachers with higher education showed a null effect when high, but negative when lower, similar to internet availability. Geographic region also had a considerable influence, with the Southeast region standing out positively and the North negatively. The school's location yielded counterintuitive results, with urban schools contributing negatively and rural schools positively. Finally, the study's results were discussed in terms of their implications for public policy suggestions aimed at improving the educational indicator in question.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Engenharia de ProducaoRAMOS, Francisco de Sousahttp://lattes.cnpq.br/2725265019496657http://lattes.cnpq.br/1190610699976105ARRUDA, Danilo Cesar Vitorino de2025-07-06T16:58:13Z2025-07-06T16:58:13Z2024-08-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfARRUDA, Danilo Cesar Vitorino de. Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina: explorando os Valores de Shapley para aumentar a explicabilidade do modelo. 2024. Dissertação (Mestrado em Engenharia de Produção) – Universidade Federal de Pernambuco, Recife, 2024.https://repositorio.ufpe.br/handle/123456789/64097porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2025-07-06T17:27:31Zoai:repositorio.ufpe.br:123456789/64097Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212025-07-06T17:27:31Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
| dc.title.none.fl_str_mv |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| title |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| spellingShingle |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo ARRUDA, Danilo Cesar Vitorino de Educação pública Educação básica Aprendizado de máquina Valores de Shapley Explicabilidade Modelo de previsão |
| title_short |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| title_full |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| title_fullStr |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| title_full_unstemmed |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| title_sort |
Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina : explorando os Valores de Shapley para aumentar a explicabilidade do modelo |
| author |
ARRUDA, Danilo Cesar Vitorino de |
| author_facet |
ARRUDA, Danilo Cesar Vitorino de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
RAMOS, Francisco de Sousa http://lattes.cnpq.br/2725265019496657 http://lattes.cnpq.br/1190610699976105 |
| dc.contributor.author.fl_str_mv |
ARRUDA, Danilo Cesar Vitorino de |
| dc.subject.por.fl_str_mv |
Educação pública Educação básica Aprendizado de máquina Valores de Shapley Explicabilidade Modelo de previsão |
| topic |
Educação pública Educação básica Aprendizado de máquina Valores de Shapley Explicabilidade Modelo de previsão |
| description |
A educação tem potencial de trazer benefícios para toda uma sociedade. Entretanto, a falha nesse campo pode representar efeitos bastante negativos. Pessoas mais escolarizadas tendem a desfrutar de maiores rendas e uma melhor saúde, enquanto o coletivo mais escolarizado está relacionado ao usufruto de comunidades mais seguras e com economia aquecida. Por outro lado, a desistência da escolarização pode trazer malefícios tanto para indivíduos quanto para grupos. Para evitar a concretização desse risco, este estudo explora os dados disponíveis, desenvolve e aplica um modelo de previsão para avaliar as taxas de aprovação nas escolas públicas brasileiras com o intuito de compreender a contribuição dos diversos fatores relacionados a estas instituições para os seus resultados educacionais. Para este último propósito, utiliza os Valores de Shapley para ponderar essas contribuições a partir da análise das coalizões possíveis dos aspectos característicos de sistemas educacionais. A biblioteca PyCaret foi explorada no processo de escolha do melhor modelo de Aprendizado de Máquina para o problema. Usando dados de 2015 a 2022, o modelo escolhido foi o CatBoost Regressor, que apresentou um coeficiente de determinação de 0,492 para os dados de treino e 0,467 para os dados de teste e foi utilizado para prever as taxas de aprovação escolar do ano de 2023. O método SHAP foi utilizado para interpretar o modelo e aumentar a sua explicabilidade, identificando os fatores-chave para os resultados de previsão obtidos, o que possibilita uma alocação mais eficiente dos recursos públicos. Os resultados mostram que escolas com altos índices de distorção idade-série apresentam grande influência negativa às taxas de aprovação. Diferentemente, a média de alunos por turma não tem uma análise trivial, pois menores números contribuem, majoritariamente, de forma positiva, mas há muitos pontos com influência negativa, indicando que deve haver uma diminuição nesse número de maneira cautelosa. A taxa de docentes com ensino superior apresentou um resultado nulo, quando são altas, mas negativo quando menores, assim como o fornecimento de internet. Foi observado, também, que a região geográfica exerceu uma influência considerável, com a região Sudeste se destacando positivamente e Norte negativamente. A localização da escola apresentou resultados contraintuitivos, com escolas urbanas contribuindo negativamente para o modelo, enquanto as escolas rurais contribuíram positivamente. Por fim, os resultados do trabalho foram discutidos em termos das suas implicações em sugestões para políticas públicas visando melhorar o indicador educacional em questão. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-08-29 2025-07-06T16:58:13Z 2025-07-06T16:58:13Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
ARRUDA, Danilo Cesar Vitorino de. Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina: explorando os Valores de Shapley para aumentar a explicabilidade do modelo. 2024. Dissertação (Mestrado em Engenharia de Produção) – Universidade Federal de Pernambuco, Recife, 2024. https://repositorio.ufpe.br/handle/123456789/64097 |
| identifier_str_mv |
ARRUDA, Danilo Cesar Vitorino de. Previsão de taxas de aprovação de escolas públicas com aprendizado de máquina: explorando os Valores de Shapley para aumentar a explicabilidade do modelo. 2024. Dissertação (Mestrado em Engenharia de Produção) – Universidade Federal de Pernambuco, Recife, 2024. |
| url |
https://repositorio.ufpe.br/handle/123456789/64097 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Engenharia de Producao |
| publisher.none.fl_str_mv |
Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Engenharia de Producao |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
| instname_str |
Universidade Federal de Pernambuco (UFPE) |
| instacron_str |
UFPE |
| institution |
UFPE |
| reponame_str |
Repositório Institucional da UFPE |
| collection |
Repositório Institucional da UFPE |
| repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
| repository.mail.fl_str_mv |
attena@ufpe.br |
| _version_ |
1856042050860875776 |