Abordagem computacional para a questão do acento no português brasileiro

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Guide, Bruno Ferrari
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/8/8139/tde-19122016-100651/
Resumo: O objetivo central do projeto foi investigar a questão do acento no português brasileiro por meio do uso de ferramentas computacionais, a fim de encontrar possíveis relações entre traços segmentais, prosódicos ou morfológicos com o acento. Tal análise foi realizada a partir do estudo crítico das principais soluções propostas para a questão advindas da Fonologia Teórica. Isso foi considerado o primeiro passo para desenvolver uma abordagem que traga inovação para a área. A discussão teórica foi concluída com a implementação de algoritmos que representam modelizações das propostas para o tratamento da questão do acento. Estas foram, posteriormente, testadas em corpora relevantes do português com o objetivo de analisar tanto os casos considerados como padrão pelas propostas, quanto aqueles que são considerados exceções ao comportamento do idioma. Simultaneamente, foi desenvolvido um corpus anotado de palavras acentuadas do português brasileiro, a partir do qual foram implementados os dois grupos de modelos de natureza probabilística que formam o quadro de abordagens desenhado pelo projeto. O primeiro grupo se baseia na noção de N-gramas, em que a atribuição de acento a uma palavra ocorre a partir da probabilidade das cadeias de tamanho \" que a compõem, configurando-se, assim, um modelo que enxerga padrões simples de coocorrência e que é computacionalmente eficiente. O segundo grupo de modelos foi chamado de classificador bayesiano ingênuo, que é uma abordagem probabilística mais sofisticada e exigente em termos de corpus e que leva em consideração um vetor de traços a serem definidos para, no caso, atribuir o acento de uma palavra. Esses traços englobaram tanto características morfológicas, quanto prosódicas e segmentais das palavras.
id USP_7c78f26035583cf5936483efa0e420ac
oai_identifier_str oai:teses.usp.br:tde-19122016-100651
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Abordagem computacional para a questão do acento no português brasileiroComputational approach for the matter of stress in Brazilian PortugueseAcentoComputational linguisticsFonologiaLingüística computacionalPhonologyProbabilidadeProbabilityProsódiaProsodicStressO objetivo central do projeto foi investigar a questão do acento no português brasileiro por meio do uso de ferramentas computacionais, a fim de encontrar possíveis relações entre traços segmentais, prosódicos ou morfológicos com o acento. Tal análise foi realizada a partir do estudo crítico das principais soluções propostas para a questão advindas da Fonologia Teórica. Isso foi considerado o primeiro passo para desenvolver uma abordagem que traga inovação para a área. A discussão teórica foi concluída com a implementação de algoritmos que representam modelizações das propostas para o tratamento da questão do acento. Estas foram, posteriormente, testadas em corpora relevantes do português com o objetivo de analisar tanto os casos considerados como padrão pelas propostas, quanto aqueles que são considerados exceções ao comportamento do idioma. Simultaneamente, foi desenvolvido um corpus anotado de palavras acentuadas do português brasileiro, a partir do qual foram implementados os dois grupos de modelos de natureza probabilística que formam o quadro de abordagens desenhado pelo projeto. O primeiro grupo se baseia na noção de N-gramas, em que a atribuição de acento a uma palavra ocorre a partir da probabilidade das cadeias de tamanho \" que a compõem, configurando-se, assim, um modelo que enxerga padrões simples de coocorrência e que é computacionalmente eficiente. O segundo grupo de modelos foi chamado de classificador bayesiano ingênuo, que é uma abordagem probabilística mais sofisticada e exigente em termos de corpus e que leva em consideração um vetor de traços a serem definidos para, no caso, atribuir o acento de uma palavra. Esses traços englobaram tanto características morfológicas, quanto prosódicas e segmentais das palavras.The main goal of this project was to provide insight into the behavior of stress patterns of Brazilian Portuguese using computational tools in order to find eventual relationships between segmental, prosodic or morphologic features and word stress. Such analysis was based on a critical reading of some of the main proposals from theoretical phonology regarding the matter. This was considered the first step towards an innovative approach for this field of research. Such discussion was concluded by implementing algorithms representing models of the theoretical proposals for treating the behavior of stress. Afterward, those solutions were tested in relevant corpora of Portuguese aiming to analyze both the words which fell inside what was considered standard and the words that should be considered exceptions to the typical behavior in the language. Simultaneously, a noted corpus of Brazilian Portuguese words was compiled, from which were implemented both groups of models that have probabilistic nature that completes the frame of approaches drawn from this project. The first group is composed of models based on the notion of N-grams, in which the attribution of stress to a word happens based on the probability attributed to the `n\' sized chains that compose this word, which results in a model that is sensitive to patterns of co-occurrence and computationally efficient. The second group of models is called Naive Bayes Classifier, which is a more sophisticated probabilistic approach that is more corpus demanding, this approach takes into account a vector of features that was defined in order to attribute stress to a word. Those features were morphological, prosodic and segmental characteristics of the words.Biblioteca Digitais de Teses e Dissertações da USPFerreira, Marcelo BarraGuide, Bruno Ferrari2016-08-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/8/8139/tde-19122016-100651/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2017-09-04T21:05:29Zoai:teses.usp.br:tde-19122016-100651Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212017-09-04T21:05:29Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Abordagem computacional para a questão do acento no português brasileiro
Computational approach for the matter of stress in Brazilian Portuguese
title Abordagem computacional para a questão do acento no português brasileiro
spellingShingle Abordagem computacional para a questão do acento no português brasileiro
Guide, Bruno Ferrari
Acento
Computational linguistics
Fonologia
Lingüística computacional
Phonology
Probabilidade
Probability
Prosódia
Prosodic
Stress
title_short Abordagem computacional para a questão do acento no português brasileiro
title_full Abordagem computacional para a questão do acento no português brasileiro
title_fullStr Abordagem computacional para a questão do acento no português brasileiro
title_full_unstemmed Abordagem computacional para a questão do acento no português brasileiro
title_sort Abordagem computacional para a questão do acento no português brasileiro
author Guide, Bruno Ferrari
author_facet Guide, Bruno Ferrari
author_role author
dc.contributor.none.fl_str_mv Ferreira, Marcelo Barra
dc.contributor.author.fl_str_mv Guide, Bruno Ferrari
dc.subject.por.fl_str_mv Acento
Computational linguistics
Fonologia
Lingüística computacional
Phonology
Probabilidade
Probability
Prosódia
Prosodic
Stress
topic Acento
Computational linguistics
Fonologia
Lingüística computacional
Phonology
Probabilidade
Probability
Prosódia
Prosodic
Stress
description O objetivo central do projeto foi investigar a questão do acento no português brasileiro por meio do uso de ferramentas computacionais, a fim de encontrar possíveis relações entre traços segmentais, prosódicos ou morfológicos com o acento. Tal análise foi realizada a partir do estudo crítico das principais soluções propostas para a questão advindas da Fonologia Teórica. Isso foi considerado o primeiro passo para desenvolver uma abordagem que traga inovação para a área. A discussão teórica foi concluída com a implementação de algoritmos que representam modelizações das propostas para o tratamento da questão do acento. Estas foram, posteriormente, testadas em corpora relevantes do português com o objetivo de analisar tanto os casos considerados como padrão pelas propostas, quanto aqueles que são considerados exceções ao comportamento do idioma. Simultaneamente, foi desenvolvido um corpus anotado de palavras acentuadas do português brasileiro, a partir do qual foram implementados os dois grupos de modelos de natureza probabilística que formam o quadro de abordagens desenhado pelo projeto. O primeiro grupo se baseia na noção de N-gramas, em que a atribuição de acento a uma palavra ocorre a partir da probabilidade das cadeias de tamanho \" que a compõem, configurando-se, assim, um modelo que enxerga padrões simples de coocorrência e que é computacionalmente eficiente. O segundo grupo de modelos foi chamado de classificador bayesiano ingênuo, que é uma abordagem probabilística mais sofisticada e exigente em termos de corpus e que leva em consideração um vetor de traços a serem definidos para, no caso, atribuir o acento de uma palavra. Esses traços englobaram tanto características morfológicas, quanto prosódicas e segmentais das palavras.
publishDate 2016
dc.date.none.fl_str_mv 2016-08-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/8/8139/tde-19122016-100651/
url http://www.teses.usp.br/teses/disponiveis/8/8139/tde-19122016-100651/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865490574038007808