A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Winck, Nicolas Hyppolito
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/8/8139/tde-26112025-092459/
Resumo: O Exame Nacional do Ensino Médio (Enem) é um dos principais sistemas de avaliação brasileiros, especialmente conhecido por sua parte escrita - a redação. Trata-se de um texto dissertativo-argumentativo que é corrigido com base em critérios específicos, estabelecidos pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). Entre esses critérios, destaca-se a Competência IV, responsável por avaliar a coesão textual, ou seja, o encadeamento lógico de ideias presentes em uma linha de argumentação. Nesse contexto, o presente trabalho tem como objetivo investigar o desempenho de classificadores de aprendizado de máquina na tarefa de identificar a presença de coesão textual em redações do Enem por meio da análise de atributos linguísticos criados com base nos critérios de correção oficiais mencionados. Para tanto, extraíram-se informações de dois principais documentos publicados pelo Inep: a Cartilha do Participante e o módulo 06 do Material de Leitura. Esses materiais descrevem os processos envolvidos na correção da Competência IV, incluindo os recursos coesivos que devem ser encontrados na redação. Tais informações foram reinterpretadas computacionalmente e convertidas em dados para alimentar classificadores do tipo Naive Bayes (Multinomial e Bernoulli) e Floresta Aleatória. Os resultados dos testes de classificação com esses algoritmos mostram que, embora o desempenho global de todos os modelos tenha sido relativamente limitado, algumas diferenças entre a Floresta Aleatória e os outros tipos testados sugerem uma maior proximidade entre esse modelo e o julgamento humano. Dessa forma, conclui-se que, mesmo que pareça ser possível de se capturar parcialmente a coesão textual por meio de certos traços linguísticos observáveis como aqueles estabelecidos para a redação do Enem, ela continua a ser um objeto extremamente complexo. Abordagens computacionais como essa podem certamente favorecer (mas jamais substituir) o processo de correção humana se bem ajustadas aos fins, às regras e à ética do exame. Portanto, este trabalho busca oferecer uma singela contribuição à discussão sobre os limites e possibilidades envolvidos na análise automática da escrita, sempre destacando a relevância do componente humano no desenvolvimento dessa habilidade em processos de avaliação educacionais
id USP_3dffbfabcc6332eab3fce88df343abc5
oai_identifier_str oai:teses.usp.br:tde-26112025-092459
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correçãoEnem essay scoring criterion IV: designing features for text classification based on grading criteriaAprendizado de máquinaAtributos linguísticosAutomatic classificationClassificação automáticaCoesão textualEnem essayLinguistic featuresMachine learningRedação do EnemTextual cohesionO Exame Nacional do Ensino Médio (Enem) é um dos principais sistemas de avaliação brasileiros, especialmente conhecido por sua parte escrita - a redação. Trata-se de um texto dissertativo-argumentativo que é corrigido com base em critérios específicos, estabelecidos pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). Entre esses critérios, destaca-se a Competência IV, responsável por avaliar a coesão textual, ou seja, o encadeamento lógico de ideias presentes em uma linha de argumentação. Nesse contexto, o presente trabalho tem como objetivo investigar o desempenho de classificadores de aprendizado de máquina na tarefa de identificar a presença de coesão textual em redações do Enem por meio da análise de atributos linguísticos criados com base nos critérios de correção oficiais mencionados. Para tanto, extraíram-se informações de dois principais documentos publicados pelo Inep: a Cartilha do Participante e o módulo 06 do Material de Leitura. Esses materiais descrevem os processos envolvidos na correção da Competência IV, incluindo os recursos coesivos que devem ser encontrados na redação. Tais informações foram reinterpretadas computacionalmente e convertidas em dados para alimentar classificadores do tipo Naive Bayes (Multinomial e Bernoulli) e Floresta Aleatória. Os resultados dos testes de classificação com esses algoritmos mostram que, embora o desempenho global de todos os modelos tenha sido relativamente limitado, algumas diferenças entre a Floresta Aleatória e os outros tipos testados sugerem uma maior proximidade entre esse modelo e o julgamento humano. Dessa forma, conclui-se que, mesmo que pareça ser possível de se capturar parcialmente a coesão textual por meio de certos traços linguísticos observáveis como aqueles estabelecidos para a redação do Enem, ela continua a ser um objeto extremamente complexo. Abordagens computacionais como essa podem certamente favorecer (mas jamais substituir) o processo de correção humana se bem ajustadas aos fins, às regras e à ética do exame. Portanto, este trabalho busca oferecer uma singela contribuição à discussão sobre os limites e possibilidades envolvidos na análise automática da escrita, sempre destacando a relevância do componente humano no desenvolvimento dessa habilidade em processos de avaliação educacionaisExame Nacional do Ensino Médio, also known as Enem, is one of Brazil\'s main assessment systems, especially known for its written component - the essay. This is a discursive argumentative text that is evaluated based on specific criteria established by the Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). Among these criteria, Criterion IV stands out since it assesses textual cohesion, that is, the logical connection between ideas within the line of argument. In this context, this thesis aims to investigate the performance of machine learning classifiers in identifying the presence of textual cohesion in Enem essays by analyzing linguistic features designed based on the official grading criteria mentioned. To achieve this, information was extracted from two main documents published by Inep: the Participant\'s Booklet and Module 06 of the Reading Material. These materials describe the processes involved in scoring Criterion IV, including the cohesive resources that should be found in the essay. Such information was reinterpreted computationally and converted into features used to train classifiers such as Naive Bayes (Multinomial and Bernoulli) and Random Forest. The results of the classification tests with these algorithms show that, while the overall performance of all the models was relatively limited, some differences between the Random Forest and the other classifiers suggest that this model is closer to human judgment. We therefore conclude that, even if it seems partially possible to capture textual cohesion through certain observable linguistic traits such as those established for the Enem essay, cohesion remains an extremely complex phenomenon. Computational approaches like this can certainly support (but never replace) the human evaluation, provided they are carefully tuned to the exam\'s goals, guidelines, and ethical standards. Therefore, this study seeks to offer a modest contribution to the broader discussion on the limits and possibilities of automatic writing analysis, while consistently emphasizing the importance of the human component in the development and assessment of writing skills in educational contextsBiblioteca Digitais de Teses e Dissertações da USPFerreira, Marcelo BarraWinck, Nicolas Hyppolito2025-08-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/8/8139/tde-26112025-092459/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-11-26T11:32:02Zoai:teses.usp.br:tde-26112025-092459Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-11-26T11:32:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
Enem essay scoring criterion IV: designing features for text classification based on grading criteria
title A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
spellingShingle A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
Winck, Nicolas Hyppolito
Aprendizado de máquina
Atributos linguísticos
Automatic classification
Classificação automática
Coesão textual
Enem essay
Linguistic features
Machine learning
Redação do Enem
Textual cohesion
title_short A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
title_full A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
title_fullStr A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
title_full_unstemmed A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
title_sort A competência IV da redação Enem: elaboração de atributos para classificação de textos por critérios de correção
author Winck, Nicolas Hyppolito
author_facet Winck, Nicolas Hyppolito
author_role author
dc.contributor.none.fl_str_mv Ferreira, Marcelo Barra
dc.contributor.author.fl_str_mv Winck, Nicolas Hyppolito
dc.subject.por.fl_str_mv Aprendizado de máquina
Atributos linguísticos
Automatic classification
Classificação automática
Coesão textual
Enem essay
Linguistic features
Machine learning
Redação do Enem
Textual cohesion
topic Aprendizado de máquina
Atributos linguísticos
Automatic classification
Classificação automática
Coesão textual
Enem essay
Linguistic features
Machine learning
Redação do Enem
Textual cohesion
description O Exame Nacional do Ensino Médio (Enem) é um dos principais sistemas de avaliação brasileiros, especialmente conhecido por sua parte escrita - a redação. Trata-se de um texto dissertativo-argumentativo que é corrigido com base em critérios específicos, estabelecidos pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). Entre esses critérios, destaca-se a Competência IV, responsável por avaliar a coesão textual, ou seja, o encadeamento lógico de ideias presentes em uma linha de argumentação. Nesse contexto, o presente trabalho tem como objetivo investigar o desempenho de classificadores de aprendizado de máquina na tarefa de identificar a presença de coesão textual em redações do Enem por meio da análise de atributos linguísticos criados com base nos critérios de correção oficiais mencionados. Para tanto, extraíram-se informações de dois principais documentos publicados pelo Inep: a Cartilha do Participante e o módulo 06 do Material de Leitura. Esses materiais descrevem os processos envolvidos na correção da Competência IV, incluindo os recursos coesivos que devem ser encontrados na redação. Tais informações foram reinterpretadas computacionalmente e convertidas em dados para alimentar classificadores do tipo Naive Bayes (Multinomial e Bernoulli) e Floresta Aleatória. Os resultados dos testes de classificação com esses algoritmos mostram que, embora o desempenho global de todos os modelos tenha sido relativamente limitado, algumas diferenças entre a Floresta Aleatória e os outros tipos testados sugerem uma maior proximidade entre esse modelo e o julgamento humano. Dessa forma, conclui-se que, mesmo que pareça ser possível de se capturar parcialmente a coesão textual por meio de certos traços linguísticos observáveis como aqueles estabelecidos para a redação do Enem, ela continua a ser um objeto extremamente complexo. Abordagens computacionais como essa podem certamente favorecer (mas jamais substituir) o processo de correção humana se bem ajustadas aos fins, às regras e à ética do exame. Portanto, este trabalho busca oferecer uma singela contribuição à discussão sobre os limites e possibilidades envolvidos na análise automática da escrita, sempre destacando a relevância do componente humano no desenvolvimento dessa habilidade em processos de avaliação educacionais
publishDate 2025
dc.date.none.fl_str_mv 2025-08-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/8/8139/tde-26112025-092459/
url https://www.teses.usp.br/teses/disponiveis/8/8139/tde-26112025-092459/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865492195671277568