Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Barbosa, André
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
Resumo: Automated essay scoring for Portuguese faces unique challenges due to limited research, fragmented datasets, and complex multi-trait evaluation frameworks like Brazil\'s ENEM. This dissertation investigates cross-prompt, trait-specific scoring formalized as f1r (x, p) = s, where models must evaluate, at test time, essays x on unseen prompts p across five competencies, each scored on a six-point ordinal scale {0, 40, 80, 120, 160, 200}. The investigation systematically compares three model classes: feature-based baselines (72 linguistic features), encoder-only transformers (109M-1.5B parameters), and decoder architectures divided into fine-tuned small language models (2.4B-14.7B parameters) and zero-shot learners (including proprietary models and the 671B-parameter DeepSeekR1). Under varying information access paradigms and rubric conditioning strategies, experiments reveal that no single configuration serves all evaluation needs: encoder models excel at mechanical competencies (fluency, cohesion) despite their inability to access prompts due to context limitations; decoder models achieve superior performance on argumentation (QWK 0.73) and style (QWK 0.60) when provided full context; and language-specific pretraining benefits only surface-level linguistic features without improving reasoning required for more complex tasks. Best-performing models achieve QWK scores of 0.60-0.73 across competencies, remaining 11-23 points below human inter-rater agreement (0.72-0.85), with the largest gaps occurring in style and persuasiveness evaluation. These findings demonstrate that different competencies require fundamentally different computational approaches, ranging from lightweight encoders for grammar assessment to massive decoder models for argumentative analysis, thus informing strategic deployment where institutions must accept substantial performance trade-offs relative to human evaluation.
id USP_e211cb8e64b63ba4d877495a97f2bd68
oai_identifier_str oai:teses.usp.br:tde-25092025-141609
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essaysCorreção automatizada de redações em Português Brasileiro: evidências da avaliação Cross-Prompts em redações do ENEMAprendizado profundoArtificial intelligenceAutomated essay scoringAvaliação automática de redaçõesDeep learningInteligência artificialNatural language processingProcessamento de linguagem naturalAutomated essay scoring for Portuguese faces unique challenges due to limited research, fragmented datasets, and complex multi-trait evaluation frameworks like Brazil\'s ENEM. This dissertation investigates cross-prompt, trait-specific scoring formalized as f1r (x, p) = s, where models must evaluate, at test time, essays x on unseen prompts p across five competencies, each scored on a six-point ordinal scale {0, 40, 80, 120, 160, 200}. The investigation systematically compares three model classes: feature-based baselines (72 linguistic features), encoder-only transformers (109M-1.5B parameters), and decoder architectures divided into fine-tuned small language models (2.4B-14.7B parameters) and zero-shot learners (including proprietary models and the 671B-parameter DeepSeekR1). Under varying information access paradigms and rubric conditioning strategies, experiments reveal that no single configuration serves all evaluation needs: encoder models excel at mechanical competencies (fluency, cohesion) despite their inability to access prompts due to context limitations; decoder models achieve superior performance on argumentation (QWK 0.73) and style (QWK 0.60) when provided full context; and language-specific pretraining benefits only surface-level linguistic features without improving reasoning required for more complex tasks. Best-performing models achieve QWK scores of 0.60-0.73 across competencies, remaining 11-23 points below human inter-rater agreement (0.72-0.85), with the largest gaps occurring in style and persuasiveness evaluation. These findings demonstrate that different competencies require fundamentally different computational approaches, ranging from lightweight encoders for grammar assessment to massive decoder models for argumentative analysis, thus informing strategic deployment where institutions must accept substantial performance trade-offs relative to human evaluation.A avaliação automatizada de redações em português enfrenta desafios específicos devido à escassez de pesquisas, à fragmentação dos conjuntos de dados e às estruturas de avaliação multicompetência, como é o caso do ENEM. Esta dissertação investiga a avaliação entre prompts (Cross Prompts), específica por competência, formalizada como f1r (x, p) = s, em que, no conjunto de teste, os modelos devem avaliar redações em prompts não vistos ao longo de cinco competências, cada uma pontuada em uma escala ordinal de seis níveis {0, 40, 80, 120, 160, 200}. A investigação compara sistematicamente três classes de modelos: baseadas em (72 características linguísticas), apenas de codificador (de 109 milhões a 1,5 bilhão de parâmetros) e arquiteturas de decodificador divididas entre modelos de linguagem de pequeno porte que foram treinados por ajuste fino (de 2.4 a 14.7 bilhões de parâmetros) e modelos em (incluindo modelos proprietários e o com 671 bilhões de parâmetros). Sob diferentes paradigmas, variando desde o acesso à informação até estratégias de condicionamento pela rubrica de avaliação, os experimentos revelam que nenhuma configuração atende a todas as necessidades de avaliação: modelos codificadores se destacam em competências mecânicas (fluência, coesão), apesar de não conseguirem acessar os temas das redações devido a limitações da janela de contexto; modelos decodificadores alcançam desempenho superior em argumentação (QWK 0.73) e estilo (QWK 0.60) quando recebem o contexto completo; e o pré-treinamento específico da língua beneficia apenas aspectos linguísticos superficiais, sem melhorar o raciocínio necessários para tarefas mais complexas. Os modelos de melhor desempenho alcançam QWK de 0.60-0.73 nas competências, permanecendo 11-23 pontos abaixo do acordo entre avaliadores humanos (0.72-0.85), com as maiores oportunidades na avaliação de estilo e persuasão. Esses resultados demonstram que diferentes competências exigem abordagens computacionais fundamentalmente distintas, variando de codificadores leves para avaliação gramatical a modelos decodificadores massivos para análise argumentativa, orientando a implantação estratégica em que as instituições devem aceitar concessões substanciais de desempenho em relação à avaliação humana.Biblioteca Digitais de Teses e Dissertações da USPMauá, Denis DerataniBarbosa, André2025-09-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-10-06T09:06:02Zoai:teses.usp.br:tde-25092025-141609Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-06T09:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
Correção automatizada de redações em Português Brasileiro: evidências da avaliação Cross-Prompts em redações do ENEM
title Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
spellingShingle Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
Barbosa, André
Aprendizado profundo
Artificial intelligence
Automated essay scoring
Avaliação automática de redações
Deep learning
Inteligência artificial
Natural language processing
Processamento de linguagem natural
title_short Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
title_full Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
title_fullStr Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
title_full_unstemmed Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
title_sort Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
author Barbosa, André
author_facet Barbosa, André
author_role author
dc.contributor.none.fl_str_mv Mauá, Denis Deratani
dc.contributor.author.fl_str_mv Barbosa, André
dc.subject.por.fl_str_mv Aprendizado profundo
Artificial intelligence
Automated essay scoring
Avaliação automática de redações
Deep learning
Inteligência artificial
Natural language processing
Processamento de linguagem natural
topic Aprendizado profundo
Artificial intelligence
Automated essay scoring
Avaliação automática de redações
Deep learning
Inteligência artificial
Natural language processing
Processamento de linguagem natural
description Automated essay scoring for Portuguese faces unique challenges due to limited research, fragmented datasets, and complex multi-trait evaluation frameworks like Brazil\'s ENEM. This dissertation investigates cross-prompt, trait-specific scoring formalized as f1r (x, p) = s, where models must evaluate, at test time, essays x on unseen prompts p across five competencies, each scored on a six-point ordinal scale {0, 40, 80, 120, 160, 200}. The investigation systematically compares three model classes: feature-based baselines (72 linguistic features), encoder-only transformers (109M-1.5B parameters), and decoder architectures divided into fine-tuned small language models (2.4B-14.7B parameters) and zero-shot learners (including proprietary models and the 671B-parameter DeepSeekR1). Under varying information access paradigms and rubric conditioning strategies, experiments reveal that no single configuration serves all evaluation needs: encoder models excel at mechanical competencies (fluency, cohesion) despite their inability to access prompts due to context limitations; decoder models achieve superior performance on argumentation (QWK 0.73) and style (QWK 0.60) when provided full context; and language-specific pretraining benefits only surface-level linguistic features without improving reasoning required for more complex tasks. Best-performing models achieve QWK scores of 0.60-0.73 across competencies, remaining 11-23 points below human inter-rater agreement (0.72-0.85), with the largest gaps occurring in style and persuasiveness evaluation. These findings demonstrate that different competencies require fundamentally different computational approaches, ranging from lightweight encoders for grammar assessment to massive decoder models for argumentative analysis, thus informing strategic deployment where institutions must accept substantial performance trade-offs relative to human evaluation.
publishDate 2025
dc.date.none.fl_str_mv 2025-09-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370477221806080