Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras

Divino, Luiza Sarmento

Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Divino, Luiza Sarmento
Orientador(a):	Schoffen, Juliana Roquele
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Proficiência Exame de proficiência Celpe-Bras Lingüística de corpus
Palavras-chave em Inglês:	Proficiency assessment Celpe-Bras exam Portuguese as a foreign language Additional language corpus Corpus linguistics
Link de acesso:	http://hdl.handle.net/10183/282481
Resumo:	Desde a virada do milênio, percebe-se o aumento do interesse no uso da Linguística de Corpus para informar a validação de exames de língua (Cushing, 2017; 2022), havendo um aumento significativo no uso de corpora de línguas adicionais em pesquisas voltadas para avaliações de proficiência (Wisniewski, 2017). Resultados destas pesquisas são úteis para um maior entendimento das classificações de proficiência em um nível empírico (Callies; Díez-Bedmar; Zaytseva, 2014; Barker; Salamoura; Saville; 2015; Callies; Götz, 2015). O Celpe-Bras, Certificado de Proficiência em Língua Portuguesa para Estrangeiros, é um exame brasileiro que busca avaliar as práticas linguísticas em Português como Língua Adicional em contextos variados (Brasil, 2020). Com o intuito de dar seguimento a trabalhos que se debruçaram sobre os níveis de proficiência escrita avaliados no Celpe-Bras (Sirianni, 2016; Mendel, 2019; Divino, 2021; Hanauer, 2023; Schoffen; Divino, 2023; Sostruznik, 2023), esta dissertação se propõe a responder à pergunta: Como as análises lexicais realizadas com ferramentas de Linguística de Corpus podem contribuir para a descrição dos níveis de proficiência em tarefas de leitura e escrita no exame Celpe-Bras? Para isto, foi analisado um corpus não anotado de 2.293 textos produzidos por examinandos em resposta à Tarefa 4 da edição de 2015/2 do Celpe-Bras, avaliados com notas 0, 1, 2, 3, 4 e 5 (CorCel20152t4). Os objetivos específicos se dividem em três grupos: o primeiro deles diz respeito à extensão dos textos, incluindo análises das quantidades totais, médias e normalizadas de types, tokens e sentenças, bem como o cálculo Type-Token-Ratio; o segundo grupo é voltado para a relação do léxico utilizado em cada subcorpus com o material de insumo, com análises de n-grams, keywords e wordlists no Sketch Engine (Kilgarriff et al., 2004); e o terceiro grupo se refere à incidência de termos relacionados à configuração da relação de interlocução dentro do gênero do discurso proposto, com foco na ferramenta concordance do Sketch Engine. Os resultados sugerem que a extensão dos textos é um fator importante no que diz respeito à proficiência, com textos mais avançados sendo, em geral, maiores. Quanto aos termos relacionados à construção do gênero, estes são mais recorrentes conforme a nota aumenta, mas não estão presentes em 100% dos textos, confirmando que há diversas possibilidades de se cumprir adequadamente a tarefa. Os dados também desmistificam a ideia de que a cópia é realizada apenas nos níveis mais baixos: apesar da quantidade de cópias de trechos mais longos ser, proporcionalmente, mais alta nos corpora n3, n2 e n1 do que nos corpora n5 e n4, foram encontrados n-grams com cópia de fragmentos do material de insumo em todas as notas. Foi identificado ainda que o corpus n5 apresenta mais palavras diferentes das que constam no material de insumo, mas que são morfologicamente semelhantes às apresentadas neste material. Com isto, infere-se que estes examinandos conseguem transitar mais na língua portuguesa ao demonstrarem conhecer seu funcionamento.

Metadados do item

id	URGS_e246c3b5f5638b64c0b8963ab7f4aa18
oai_identifier_str	oai:www.lume.ufrgs.br:10183/282481
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Divino, Luiza SarmentoSchoffen, Juliana Roquele2024-12-18T06:56:12Z2024http://hdl.handle.net/10183/282481001218417Desde a virada do milênio, percebe-se o aumento do interesse no uso da Linguística de Corpus para informar a validação de exames de língua (Cushing, 2017; 2022), havendo um aumento significativo no uso de corpora de línguas adicionais em pesquisas voltadas para avaliações de proficiência (Wisniewski, 2017). Resultados destas pesquisas são úteis para um maior entendimento das classificações de proficiência em um nível empírico (Callies; Díez-Bedmar; Zaytseva, 2014; Barker; Salamoura; Saville; 2015; Callies; Götz, 2015). O Celpe-Bras, Certificado de Proficiência em Língua Portuguesa para Estrangeiros, é um exame brasileiro que busca avaliar as práticas linguísticas em Português como Língua Adicional em contextos variados (Brasil, 2020). Com o intuito de dar seguimento a trabalhos que se debruçaram sobre os níveis de proficiência escrita avaliados no Celpe-Bras (Sirianni, 2016; Mendel, 2019; Divino, 2021; Hanauer, 2023; Schoffen; Divino, 2023; Sostruznik, 2023), esta dissertação se propõe a responder à pergunta: Como as análises lexicais realizadas com ferramentas de Linguística de Corpus podem contribuir para a descrição dos níveis de proficiência em tarefas de leitura e escrita no exame Celpe-Bras? Para isto, foi analisado um corpus não anotado de 2.293 textos produzidos por examinandos em resposta à Tarefa 4 da edição de 2015/2 do Celpe-Bras, avaliados com notas 0, 1, 2, 3, 4 e 5 (CorCel20152t4). Os objetivos específicos se dividem em três grupos: o primeiro deles diz respeito à extensão dos textos, incluindo análises das quantidades totais, médias e normalizadas de types, tokens e sentenças, bem como o cálculo Type-Token-Ratio; o segundo grupo é voltado para a relação do léxico utilizado em cada subcorpus com o material de insumo, com análises de n-grams, keywords e wordlists no Sketch Engine (Kilgarriff et al., 2004); e o terceiro grupo se refere à incidência de termos relacionados à configuração da relação de interlocução dentro do gênero do discurso proposto, com foco na ferramenta concordance do Sketch Engine. Os resultados sugerem que a extensão dos textos é um fator importante no que diz respeito à proficiência, com textos mais avançados sendo, em geral, maiores. Quanto aos termos relacionados à construção do gênero, estes são mais recorrentes conforme a nota aumenta, mas não estão presentes em 100% dos textos, confirmando que há diversas possibilidades de se cumprir adequadamente a tarefa. Os dados também desmistificam a ideia de que a cópia é realizada apenas nos níveis mais baixos: apesar da quantidade de cópias de trechos mais longos ser, proporcionalmente, mais alta nos corpora n3, n2 e n1 do que nos corpora n5 e n4, foram encontrados n-grams com cópia de fragmentos do material de insumo em todas as notas. Foi identificado ainda que o corpus n5 apresenta mais palavras diferentes das que constam no material de insumo, mas que são morfologicamente semelhantes às apresentadas neste material. Com isto, infere-se que estes examinandos conseguem transitar mais na língua portuguesa ao demonstrarem conhecer seu funcionamento.Since the turn of the millennium, there has been a growing interest in using Corpus Linguistics to inform the validation of language exams (Cushing, 2017; 2022), with a significant increase in the use of additional language corpora in research focused on proficiency assessments (Wisniewski, 2017). Findings from these studies are valuable for a deeper understanding of proficiency classifications at an empirical level (Callies; Díez-Bedmar; Zaytseva, 2014; Barker; Salamoura; Saville; 2015; Callies; Götz, 2015). The Celpe-Bras, Certificate of Proficiency in Portuguese for Foreigners, is a Brazilian exam designed to assess language practices in Portuguese as an Additional Language in various contexts (Brazil, 2020). Building on previous work that examined written proficiency levels assessed in the Celpe-Bras (Sirianni, 2016; Mendel, 2019; Divino, 2021; Hanauer, 2023; Schoffen; Divino, 2023; Sostruznik, 2023), this dissertation aims to address the question: How can lexical analysis conducted with Corpus Linguistics tools contribute to describing proficiency levels in reading and writing tasks in the Celpe-Bras exam? To achieve this, an unannotated corpus of 2,293 texts produced by exam takers in response to Task 4 of the 2015/2 edition of Celpe-Bras, evaluated with scores ranging from 0 to 5, was analyzed (CorCel20152t4). The specific objectives are divided into three groups: the first group concerns the text's length, including analyses of total, average, and normalized quantities of types, tokens, and sentences, as well as Type-Token-Ratio calculation; the second group focuses on the relationship between the lexicon used in each subcorpus and the input material, with analyses of n-grams, keywords, and wordlists in the Sketch Engine (Kilgarriff et al., 2004); and the third group refers to the incidence of terms related to the configuration of the interlocution relationship within the proposed discourse genre, with a focus on the concordance functionality of the Sketch Engine. The results suggest that text length is an important factor regarding proficiency, with more advanced texts generally being longer. As for the terms related to genre construction, they become more frequent as the score increases, but they are not present in 100% of the texts, confirming that there are different ways to adequately complete the task. The data also debunk the notion that copying is only done at lower levels. Despite the proportionally higher amount of longer passage copying in corpora n3, n2, and n1 than in corpora n5 and n4, n-grams copying fragments from the input material were found at all levels. In addition, corpus n5 presented more different words than those in the input material, but morphologically similar to those in that material. Therefore, it can be inferred that these examinees can navigate more freely in the Portuguese language by demonstrating an understanding of its functioning.application/pdfporProficiênciaExame de proficiênciaCelpe-BrasLingüística de corpusProficiency assessmentCelpe-Bras examPortuguese as a foreign languageAdditional language corpusCorpus linguisticsContribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Brasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de LetrasPrograma de Pós-Graduação em LetrasPorto Alegre, BR-RS2024mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001218417.pdf.txt001218417.pdf.txtExtracted Texttext/plain247970http://www.lume.ufrgs.br/bitstream/10183/282481/2/001218417.pdf.txt546c0dbdf55dd5243b6e5b0fa427c81bMD52ORIGINAL001218417.pdfTexto parcialapplication/pdf2815742http://www.lume.ufrgs.br/bitstream/10183/282481/1/001218417.pdf6aed5bc4a10c2ac7874b12f7adf278fcMD5110183/2824812024-12-19 07:57:31.676433oai:www.lume.ufrgs.br:10183/282481Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532024-12-19T09:57:31Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
title	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
spellingShingle	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras Divino, Luiza Sarmento Proficiência Exame de proficiência Celpe-Bras Lingüística de corpus Proficiency assessment Celpe-Bras exam Portuguese as a foreign language Additional language corpus Corpus linguistics
title_short	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
title_full	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
title_fullStr	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
title_full_unstemmed	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
title_sort	Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras
author	Divino, Luiza Sarmento
author_facet	Divino, Luiza Sarmento
author_role	author
dc.contributor.author.fl_str_mv	Divino, Luiza Sarmento
dc.contributor.advisor1.fl_str_mv	Schoffen, Juliana Roquele
contributor_str_mv	Schoffen, Juliana Roquele
dc.subject.por.fl_str_mv	Proficiência Exame de proficiência Celpe-Bras Lingüística de corpus
topic	Proficiência Exame de proficiência Celpe-Bras Lingüística de corpus Proficiency assessment Celpe-Bras exam Portuguese as a foreign language Additional language corpus Corpus linguistics
dc.subject.eng.fl_str_mv	Proficiency assessment Celpe-Bras exam Portuguese as a foreign language Additional language corpus Corpus linguistics
description	Desde a virada do milênio, percebe-se o aumento do interesse no uso da Linguística de Corpus para informar a validação de exames de língua (Cushing, 2017; 2022), havendo um aumento significativo no uso de corpora de línguas adicionais em pesquisas voltadas para avaliações de proficiência (Wisniewski, 2017). Resultados destas pesquisas são úteis para um maior entendimento das classificações de proficiência em um nível empírico (Callies; Díez-Bedmar; Zaytseva, 2014; Barker; Salamoura; Saville; 2015; Callies; Götz, 2015). O Celpe-Bras, Certificado de Proficiência em Língua Portuguesa para Estrangeiros, é um exame brasileiro que busca avaliar as práticas linguísticas em Português como Língua Adicional em contextos variados (Brasil, 2020). Com o intuito de dar seguimento a trabalhos que se debruçaram sobre os níveis de proficiência escrita avaliados no Celpe-Bras (Sirianni, 2016; Mendel, 2019; Divino, 2021; Hanauer, 2023; Schoffen; Divino, 2023; Sostruznik, 2023), esta dissertação se propõe a responder à pergunta: Como as análises lexicais realizadas com ferramentas de Linguística de Corpus podem contribuir para a descrição dos níveis de proficiência em tarefas de leitura e escrita no exame Celpe-Bras? Para isto, foi analisado um corpus não anotado de 2.293 textos produzidos por examinandos em resposta à Tarefa 4 da edição de 2015/2 do Celpe-Bras, avaliados com notas 0, 1, 2, 3, 4 e 5 (CorCel20152t4). Os objetivos específicos se dividem em três grupos: o primeiro deles diz respeito à extensão dos textos, incluindo análises das quantidades totais, médias e normalizadas de types, tokens e sentenças, bem como o cálculo Type-Token-Ratio; o segundo grupo é voltado para a relação do léxico utilizado em cada subcorpus com o material de insumo, com análises de n-grams, keywords e wordlists no Sketch Engine (Kilgarriff et al., 2004); e o terceiro grupo se refere à incidência de termos relacionados à configuração da relação de interlocução dentro do gênero do discurso proposto, com foco na ferramenta concordance do Sketch Engine. Os resultados sugerem que a extensão dos textos é um fator importante no que diz respeito à proficiência, com textos mais avançados sendo, em geral, maiores. Quanto aos termos relacionados à construção do gênero, estes são mais recorrentes conforme a nota aumenta, mas não estão presentes em 100% dos textos, confirmando que há diversas possibilidades de se cumprir adequadamente a tarefa. Os dados também desmistificam a ideia de que a cópia é realizada apenas nos níveis mais baixos: apesar da quantidade de cópias de trechos mais longos ser, proporcionalmente, mais alta nos corpora n3, n2 e n1 do que nos corpora n5 e n4, foram encontrados n-grams com cópia de fragmentos do material de insumo em todas as notas. Foi identificado ainda que o corpus n5 apresenta mais palavras diferentes das que constam no material de insumo, mas que são morfologicamente semelhantes às apresentadas neste material. Com isto, infere-se que estes examinandos conseguem transitar mais na língua portuguesa ao demonstrarem conhecer seu funcionamento.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-12-18T06:56:12Z
dc.date.issued.fl_str_mv	2024
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/282481
dc.identifier.nrb.pt_BR.fl_str_mv	001218417
url	http://hdl.handle.net/10183/282481
identifier_str_mv	001218417
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/282481/2/001218417.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/282481/1/001218417.pdf
bitstream.checksum.fl_str_mv	546c0dbdf55dd5243b6e5b0fa427c81b 6aed5bc4a10c2ac7874b12f7adf278fc
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1831316192031145984

Contribuições da linguística de corpus para a definição de níveis de proficiência escrita no exame Celpe-Bras

Registros relacionados