Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Linguística - PPGL
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/12691 |
Resumo: | Writing essays is a common task for students during school education, and a good performance in this task guarantees better grades to compete for places in the best universities. However, deviations from the standard written Portuguese are quite frequent, ranging from spelling and grammar to textual and discursive structure. This research specifically investigated the recurrence of syntactic errors and their possible correlations with certain linguistic attributes of the sentences. For this purpose, we built a corpus of 1,045 essays following ENEM specifications, that were written by high school students and segmented into a subcorpus of 10,652 sentences. This subcorpus was again segmented into train corpus (8,654 sentences) and test corpus (1,998 sentences). We established a manual annotation scheme in two phases: classification of sentences in containing or not syntactic errors, and categorization of the errors in 2,500 sentences based on a typology of 11 categories and 27 subcategories. The annotation showed that 73.34% of the annotated sentences contain syntactic errors (6,347 sentences from train corpus and 1,425 from test corpus), and the rest of the sentences do not contain syntactic errors (2,307 sentences from train corpus and 573 sentences from the test corpus). The most frequent categories among the 7,290 errors are those of punctuation (44%) and agreement (18.9%). We also carried out an extensive qualitative linguistic analysis of the phenomena in which the errors occur. This analysis looked at specific syntactic phenomena such as inversions of the canonical word order, coordination, subordination, etc., and at the phenomena that stem from further linguistic levels, such as missing accents, light-verb constructions and the use of specific verbs. In addition, the corpus was automatically annotated with the parser UDPipe, and we extracted from its output 17 linguistic features, which we correlated with the presence of errors via Supervised Machine Learning, using the software Weka. We obtained the best result in the test corpus with the algorithm Logistic Regression (75.62% accuracy). The features that were most strongly correlated with the presence of errors, indicated by feature engineering algorithms, were the sentence size and the depth of the syntactic tree. As an additional result, we built a computational-linguistic resource that can be useful to Natural Language Processing systems. The potential goal of such partnership is the development of writing assistance tools that can facilitate the process of identifying and correcting errors made by the authors of the essays themselves. |
| id |
SCAR_93c60ea21e5d945da89d9dc727dd6ea3 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/12691 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Ramisch, RenataFelippo, Ariani Dihttp://lattes.cnpq.br/8648412103197455http://lattes.cnpq.br/9529272201856585d6694968-c27c-47d6-a54c-da956e0784642020-05-11T11:30:31Z2020-05-11T11:30:31Z2020-03-27RAMISCH, Renata. Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/12691.https://repositorio.ufscar.br/handle/20.500.14289/12691Writing essays is a common task for students during school education, and a good performance in this task guarantees better grades to compete for places in the best universities. However, deviations from the standard written Portuguese are quite frequent, ranging from spelling and grammar to textual and discursive structure. This research specifically investigated the recurrence of syntactic errors and their possible correlations with certain linguistic attributes of the sentences. For this purpose, we built a corpus of 1,045 essays following ENEM specifications, that were written by high school students and segmented into a subcorpus of 10,652 sentences. This subcorpus was again segmented into train corpus (8,654 sentences) and test corpus (1,998 sentences). We established a manual annotation scheme in two phases: classification of sentences in containing or not syntactic errors, and categorization of the errors in 2,500 sentences based on a typology of 11 categories and 27 subcategories. The annotation showed that 73.34% of the annotated sentences contain syntactic errors (6,347 sentences from train corpus and 1,425 from test corpus), and the rest of the sentences do not contain syntactic errors (2,307 sentences from train corpus and 573 sentences from the test corpus). The most frequent categories among the 7,290 errors are those of punctuation (44%) and agreement (18.9%). We also carried out an extensive qualitative linguistic analysis of the phenomena in which the errors occur. This analysis looked at specific syntactic phenomena such as inversions of the canonical word order, coordination, subordination, etc., and at the phenomena that stem from further linguistic levels, such as missing accents, light-verb constructions and the use of specific verbs. In addition, the corpus was automatically annotated with the parser UDPipe, and we extracted from its output 17 linguistic features, which we correlated with the presence of errors via Supervised Machine Learning, using the software Weka. We obtained the best result in the test corpus with the algorithm Logistic Regression (75.62% accuracy). The features that were most strongly correlated with the presence of errors, indicated by feature engineering algorithms, were the sentence size and the depth of the syntactic tree. As an additional result, we built a computational-linguistic resource that can be useful to Natural Language Processing systems. The potential goal of such partnership is the development of writing assistance tools that can facilitate the process of identifying and correcting errors made by the authors of the essays themselves.Escrever redações é um processo inerente à trajetória educacional, do qual depende o bom desempenho em exames de admissão no Ensino Superior. No entanto, desvios da modalidade escrita padrão do português são bastante frequentes, indo de questões de ortografia e gramática até a estrutura textual e discursiva. A presente pesquisa investigou especificamente a recorrência de desvios de natureza sintática e as suas eventuais correlações com determinados atributos linguísticos das sentenças. Para isso, construiu-se um corpus composto por 1.045 redações nos moldes do ENEM, escritas por estudantes do Ensino Médio, o qual foi segmentado em um subcorpus de 10.652 sentenças. Esse subcorpus foi dividido novamente em corpus de treino (8.654 sentenças) e corpus de teste (1.998 sentenças). Estabeleceu-se um esquema de anotação manual em duas fases: classificação de sentenças em contendo ou não desvio sintático, e tipificação de desvios em 2.500 sentenças com base em uma tipologia de 11 categorias e 27 subcategorias. A anotação revelou que 73,34% das sentenças anotadas contêm desvios (6.347 sentenças do corpus de treino, e 1.425 do corpus de teste), e o restante não contém desvio (2.307 sentenças do corpus de treino, e 573 do corpus de teste). As categorias mais frequentes entre os 7.290 desvios identificados são as de pontuação (44%) e concordância (18,9%). Na sequência, realizou-se a análise linguística qualitativa abrangente dos fenômenos nos quais os desvios ocorrem. Essa análise foi dividida entre fenômenos específicos da sintaxe, como inversões da ordem canônica, coordenação, subordinação, entre outros; e fenômenos de outros níveis linguísticos, como desvios de acentuação, estruturas com verbo-suporte e problemas com o uso do verbo haver. O corpus também foi anotado automaticamente com o parser UDPipe e, a partir dos arquivos de saída, foram extraídos 17 atributos linguísticos, os quais foram correlacionados com a presença de desvios via Aprendizado de Máquina Supervisionado, utilizando o software Weka. O melhor resultado obtido no corpus de teste foi com o algoritmo Logistic Regression (75,62% de acurácia), e os atributos mais fortemente correlacionados com a presença de desvios, indicados pelos algoritmos de seleção de informações, foram o tamanho da sentença e a profundidade da árvore sintática. Como resultado adicional, construiu-se um recurso linguístico-computacional que pode ser útil para sistemas de Processamento Automático das Línguas Naturais. O potencial objetivo dessa parceria é o desenvolvimento de ferramentas de auxílio à escrita que podem facilitar a identificação e a correção de desvios pelos próprios autores de redações.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: código de financiamento - 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessRedação escolarDesvio sintáticoProcessamento automático das línguas naturaisStudents essaysSyntactic errorsNatural language processingLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICACaracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturaisCharacterization of syntactic errors in essays of high school students: resources for natural language processinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600a974635b-a5f0-414f-a756-9a05174f96f4reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALrenata-ramisch_dissertacao_vfinal.pdfrenata-ramisch_dissertacao_vfinal.pdfVersão final da dissertação de mestradoapplication/pdf2927928https://repositorio.ufscar.br/bitstreams/afa9eb47-fbc4-49ae-9dca-d4642ed5989c/download8585cbba8804d1abb870a504be3f3471MD54trueAnonymousREADcarta-orientador-renata_ASSINADA.pdfcarta-orientador-renata_ASSINADA.pdfCarta comprovante assinada pela orientadoraapplication/pdf115373https://repositorio.ufscar.br/bitstreams/d653a300-cfb2-468c-bf0c-c023dbbb0d77/download0587010fc4653e6d9f2c2a87f19af18bMD55falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/cba691e8-bf0a-439b-b7ad-f3acff6fece5/downloade39d27027a6cc9cb039ad269a5db8e34MD56falseAnonymousREADTEXTrenata-ramisch_dissertacao_vfinal.pdf.txtrenata-ramisch_dissertacao_vfinal.pdf.txtExtracted texttext/plain497510https://repositorio.ufscar.br/bitstreams/375193af-6681-4a35-bae5-267d5efd7310/downloada251eeb84a60573aacdc6a55cac7154fMD511falseAnonymousREADcarta-orientador-renata_ASSINADA.pdf.txtcarta-orientador-renata_ASSINADA.pdf.txtExtracted texttext/plain1339https://repositorio.ufscar.br/bitstreams/6bc370b7-7147-431a-ba52-6b0a145e8260/downloadf8de7c8fcd5e4dc9a345205ab4fe9a31MD513falseAnonymousREADTHUMBNAILrenata-ramisch_dissertacao_vfinal.pdf.jpgrenata-ramisch_dissertacao_vfinal.pdf.jpgIM Thumbnailimage/jpeg7993https://repositorio.ufscar.br/bitstreams/e85ecca6-6330-4542-b97d-24673e884243/downloadb15b3abd6cf68e4e1cc38cfcb1a5aaa2MD512falseAnonymousREADcarta-orientador-renata_ASSINADA.pdf.jpgcarta-orientador-renata_ASSINADA.pdf.jpgIM Thumbnailimage/jpeg10638https://repositorio.ufscar.br/bitstreams/25f49165-4e93-4596-8bbf-08c4ca518735/download75fcfe9c1203e9f5f9ea9f06c189eb37MD514falseAnonymousREAD20.500.14289/126912025-02-05 18:26:43.197http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/12691https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T21:26:43Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| dc.title.alternative.eng.fl_str_mv |
Characterization of syntactic errors in essays of high school students: resources for natural language processing |
| title |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| spellingShingle |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais Ramisch, Renata Redação escolar Desvio sintático Processamento automático das línguas naturais Students essays Syntactic errors Natural language processing LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| title_short |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| title_full |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| title_fullStr |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| title_full_unstemmed |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| title_sort |
Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais |
| author |
Ramisch, Renata |
| author_facet |
Ramisch, Renata |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/9529272201856585 |
| dc.contributor.author.fl_str_mv |
Ramisch, Renata |
| dc.contributor.advisor1.fl_str_mv |
Felippo, Ariani Di |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8648412103197455 |
| dc.contributor.authorID.fl_str_mv |
d6694968-c27c-47d6-a54c-da956e078464 |
| contributor_str_mv |
Felippo, Ariani Di |
| dc.subject.por.fl_str_mv |
Redação escolar Desvio sintático Processamento automático das línguas naturais |
| topic |
Redação escolar Desvio sintático Processamento automático das línguas naturais Students essays Syntactic errors Natural language processing LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| dc.subject.eng.fl_str_mv |
Students essays Syntactic errors Natural language processing |
| dc.subject.cnpq.fl_str_mv |
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| description |
Writing essays is a common task for students during school education, and a good performance in this task guarantees better grades to compete for places in the best universities. However, deviations from the standard written Portuguese are quite frequent, ranging from spelling and grammar to textual and discursive structure. This research specifically investigated the recurrence of syntactic errors and their possible correlations with certain linguistic attributes of the sentences. For this purpose, we built a corpus of 1,045 essays following ENEM specifications, that were written by high school students and segmented into a subcorpus of 10,652 sentences. This subcorpus was again segmented into train corpus (8,654 sentences) and test corpus (1,998 sentences). We established a manual annotation scheme in two phases: classification of sentences in containing or not syntactic errors, and categorization of the errors in 2,500 sentences based on a typology of 11 categories and 27 subcategories. The annotation showed that 73.34% of the annotated sentences contain syntactic errors (6,347 sentences from train corpus and 1,425 from test corpus), and the rest of the sentences do not contain syntactic errors (2,307 sentences from train corpus and 573 sentences from the test corpus). The most frequent categories among the 7,290 errors are those of punctuation (44%) and agreement (18.9%). We also carried out an extensive qualitative linguistic analysis of the phenomena in which the errors occur. This analysis looked at specific syntactic phenomena such as inversions of the canonical word order, coordination, subordination, etc., and at the phenomena that stem from further linguistic levels, such as missing accents, light-verb constructions and the use of specific verbs. In addition, the corpus was automatically annotated with the parser UDPipe, and we extracted from its output 17 linguistic features, which we correlated with the presence of errors via Supervised Machine Learning, using the software Weka. We obtained the best result in the test corpus with the algorithm Logistic Regression (75.62% accuracy). The features that were most strongly correlated with the presence of errors, indicated by feature engineering algorithms, were the sentence size and the depth of the syntactic tree. As an additional result, we built a computational-linguistic resource that can be useful to Natural Language Processing systems. The potential goal of such partnership is the development of writing assistance tools that can facilitate the process of identifying and correcting errors made by the authors of the essays themselves. |
| publishDate |
2020 |
| dc.date.accessioned.fl_str_mv |
2020-05-11T11:30:31Z |
| dc.date.available.fl_str_mv |
2020-05-11T11:30:31Z |
| dc.date.issued.fl_str_mv |
2020-03-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
RAMISCH, Renata. Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/12691. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/12691 |
| identifier_str_mv |
RAMISCH, Renata. Caracterização de desvios sintáticos em redações de estudantes do ensino médio: subsídios para o processamento automático das línguas naturais. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/12691. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/12691 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
600 600 |
| dc.relation.authority.fl_str_mv |
a974635b-a5f0-414f-a756-9a05174f96f4 |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Linguística - PPGL |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/afa9eb47-fbc4-49ae-9dca-d4642ed5989c/download https://repositorio.ufscar.br/bitstreams/d653a300-cfb2-468c-bf0c-c023dbbb0d77/download https://repositorio.ufscar.br/bitstreams/cba691e8-bf0a-439b-b7ad-f3acff6fece5/download https://repositorio.ufscar.br/bitstreams/375193af-6681-4a35-bae5-267d5efd7310/download https://repositorio.ufscar.br/bitstreams/6bc370b7-7147-431a-ba52-6b0a145e8260/download https://repositorio.ufscar.br/bitstreams/e85ecca6-6330-4542-b97d-24673e884243/download https://repositorio.ufscar.br/bitstreams/25f49165-4e93-4596-8bbf-08c4ca518735/download |
| bitstream.checksum.fl_str_mv |
8585cbba8804d1abb870a504be3f3471 0587010fc4653e6d9f2c2a87f19af18b e39d27027a6cc9cb039ad269a5db8e34 a251eeb84a60573aacdc6a55cac7154f f8de7c8fcd5e4dc9a345205ab4fe9a31 b15b3abd6cf68e4e1cc38cfcb1a5aaa2 75fcfe9c1203e9f5f9ea9f06c189eb37 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688878740602880 |