Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/ |
Resumo: | Automated essay scoring for Portuguese faces unique challenges due to limited research, fragmented datasets, and complex multi-trait evaluation frameworks like Brazil\'s ENEM. This dissertation investigates cross-prompt, trait-specific scoring formalized as f1r (x, p) = s, where models must evaluate, at test time, essays x on unseen prompts p across five competencies, each scored on a six-point ordinal scale {0, 40, 80, 120, 160, 200}. The investigation systematically compares three model classes: feature-based baselines (72 linguistic features), encoder-only transformers (109M-1.5B parameters), and decoder architectures divided into fine-tuned small language models (2.4B-14.7B parameters) and zero-shot learners (including proprietary models and the 671B-parameter DeepSeekR1). Under varying information access paradigms and rubric conditioning strategies, experiments reveal that no single configuration serves all evaluation needs: encoder models excel at mechanical competencies (fluency, cohesion) despite their inability to access prompts due to context limitations; decoder models achieve superior performance on argumentation (QWK 0.73) and style (QWK 0.60) when provided full context; and language-specific pretraining benefits only surface-level linguistic features without improving reasoning required for more complex tasks. Best-performing models achieve QWK scores of 0.60-0.73 across competencies, remaining 11-23 points below human inter-rater agreement (0.72-0.85), with the largest gaps occurring in style and persuasiveness evaluation. These findings demonstrate that different competencies require fundamentally different computational approaches, ranging from lightweight encoders for grammar assessment to massive decoder models for argumentative analysis, thus informing strategic deployment where institutions must accept substantial performance trade-offs relative to human evaluation. |
| id |
USP_e211cb8e64b63ba4d877495a97f2bd68 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-25092025-141609 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essaysCorreção automatizada de redações em Português Brasileiro: evidências da avaliação Cross-Prompts em redações do ENEMAprendizado profundoArtificial intelligenceAutomated essay scoringAvaliação automática de redaçõesDeep learningInteligência artificialNatural language processingProcessamento de linguagem naturalAutomated essay scoring for Portuguese faces unique challenges due to limited research, fragmented datasets, and complex multi-trait evaluation frameworks like Brazil\'s ENEM. This dissertation investigates cross-prompt, trait-specific scoring formalized as f1r (x, p) = s, where models must evaluate, at test time, essays x on unseen prompts p across five competencies, each scored on a six-point ordinal scale {0, 40, 80, 120, 160, 200}. The investigation systematically compares three model classes: feature-based baselines (72 linguistic features), encoder-only transformers (109M-1.5B parameters), and decoder architectures divided into fine-tuned small language models (2.4B-14.7B parameters) and zero-shot learners (including proprietary models and the 671B-parameter DeepSeekR1). Under varying information access paradigms and rubric conditioning strategies, experiments reveal that no single configuration serves all evaluation needs: encoder models excel at mechanical competencies (fluency, cohesion) despite their inability to access prompts due to context limitations; decoder models achieve superior performance on argumentation (QWK 0.73) and style (QWK 0.60) when provided full context; and language-specific pretraining benefits only surface-level linguistic features without improving reasoning required for more complex tasks. Best-performing models achieve QWK scores of 0.60-0.73 across competencies, remaining 11-23 points below human inter-rater agreement (0.72-0.85), with the largest gaps occurring in style and persuasiveness evaluation. These findings demonstrate that different competencies require fundamentally different computational approaches, ranging from lightweight encoders for grammar assessment to massive decoder models for argumentative analysis, thus informing strategic deployment where institutions must accept substantial performance trade-offs relative to human evaluation.A avaliação automatizada de redações em português enfrenta desafios específicos devido à escassez de pesquisas, à fragmentação dos conjuntos de dados e às estruturas de avaliação multicompetência, como é o caso do ENEM. Esta dissertação investiga a avaliação entre prompts (Cross Prompts), específica por competência, formalizada como f1r (x, p) = s, em que, no conjunto de teste, os modelos devem avaliar redações em prompts não vistos ao longo de cinco competências, cada uma pontuada em uma escala ordinal de seis níveis {0, 40, 80, 120, 160, 200}. A investigação compara sistematicamente três classes de modelos: baseadas em (72 características linguísticas), apenas de codificador (de 109 milhões a 1,5 bilhão de parâmetros) e arquiteturas de decodificador divididas entre modelos de linguagem de pequeno porte que foram treinados por ajuste fino (de 2.4 a 14.7 bilhões de parâmetros) e modelos em (incluindo modelos proprietários e o com 671 bilhões de parâmetros). Sob diferentes paradigmas, variando desde o acesso à informação até estratégias de condicionamento pela rubrica de avaliação, os experimentos revelam que nenhuma configuração atende a todas as necessidades de avaliação: modelos codificadores se destacam em competências mecânicas (fluência, coesão), apesar de não conseguirem acessar os temas das redações devido a limitações da janela de contexto; modelos decodificadores alcançam desempenho superior em argumentação (QWK 0.73) e estilo (QWK 0.60) quando recebem o contexto completo; e o pré-treinamento específico da língua beneficia apenas aspectos linguísticos superficiais, sem melhorar o raciocínio necessários para tarefas mais complexas. Os modelos de melhor desempenho alcançam QWK de 0.60-0.73 nas competências, permanecendo 11-23 pontos abaixo do acordo entre avaliadores humanos (0.72-0.85), com as maiores oportunidades na avaliação de estilo e persuasão. Esses resultados demonstram que diferentes competências exigem abordagens computacionais fundamentalmente distintas, variando de codificadores leves para avaliação gramatical a modelos decodificadores massivos para análise argumentativa, orientando a implantação estratégica em que as instituições devem aceitar concessões substanciais de desempenho em relação à avaliação humana.Biblioteca Digitais de Teses e Dissertações da USPMauá, Denis DerataniBarbosa, André2025-09-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-10-06T09:06:02Zoai:teses.usp.br:tde-25092025-141609Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-06T09:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays Correção automatizada de redações em Português Brasileiro: evidências da avaliação Cross-Prompts em redações do ENEM |
| title |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays |
| spellingShingle |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays Barbosa, André Aprendizado profundo Artificial intelligence Automated essay scoring Avaliação automática de redações Deep learning Inteligência artificial Natural language processing Processamento de linguagem natural |
| title_short |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays |
| title_full |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays |
| title_fullStr |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays |
| title_full_unstemmed |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays |
| title_sort |
Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays |
| author |
Barbosa, André |
| author_facet |
Barbosa, André |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Mauá, Denis Deratani |
| dc.contributor.author.fl_str_mv |
Barbosa, André |
| dc.subject.por.fl_str_mv |
Aprendizado profundo Artificial intelligence Automated essay scoring Avaliação automática de redações Deep learning Inteligência artificial Natural language processing Processamento de linguagem natural |
| topic |
Aprendizado profundo Artificial intelligence Automated essay scoring Avaliação automática de redações Deep learning Inteligência artificial Natural language processing Processamento de linguagem natural |
| description |
Automated essay scoring for Portuguese faces unique challenges due to limited research, fragmented datasets, and complex multi-trait evaluation frameworks like Brazil\'s ENEM. This dissertation investigates cross-prompt, trait-specific scoring formalized as f1r (x, p) = s, where models must evaluate, at test time, essays x on unseen prompts p across five competencies, each scored on a six-point ordinal scale {0, 40, 80, 120, 160, 200}. The investigation systematically compares three model classes: feature-based baselines (72 linguistic features), encoder-only transformers (109M-1.5B parameters), and decoder architectures divided into fine-tuned small language models (2.4B-14.7B parameters) and zero-shot learners (including proprietary models and the 671B-parameter DeepSeekR1). Under varying information access paradigms and rubric conditioning strategies, experiments reveal that no single configuration serves all evaluation needs: encoder models excel at mechanical competencies (fluency, cohesion) despite their inability to access prompts due to context limitations; decoder models achieve superior performance on argumentation (QWK 0.73) and style (QWK 0.60) when provided full context; and language-specific pretraining benefits only surface-level linguistic features without improving reasoning required for more complex tasks. Best-performing models achieve QWK scores of 0.60-0.73 across competencies, remaining 11-23 points below human inter-rater agreement (0.72-0.85), with the largest gaps occurring in style and persuasiveness evaluation. These findings demonstrate that different competencies require fundamentally different computational approaches, ranging from lightweight encoders for grammar assessment to massive decoder models for argumentative analysis, thus informing strategic deployment where institutions must accept substantial performance trade-offs relative to human evaluation. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-09-15 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370477221806080 |