A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Leal, Igor, 1991-
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: [s.n.]
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/20.500.12733/5002
Resumo: Orientador: Pablo Picasso Feliciano de Faria
id UNICAMP-30_327564d44abcd0f689de97245de99e53
oai_identifier_str oai::1245925
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacionalThe informativeness of morphology for the distributional categorization of words : a computational modelProcessamento de linguagem natural (Computação)Processamento de dadosAnálise por agrupamentoMorfologiaAquisição da linguagemNatural language processing (Computer science)Data processingCluster analysisMorphologyLanguage aquisitionOrientador: Pablo Picasso Feliciano de FariaDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da LinguagemResumo: Neste trabalho, o objetivo principal é inserir uma componente morfológica em um modelo computacional de aprendizagem de categorias de palavras, baseado em informação distribucional, e avaliar seu impacto na performance do aprendiz computacional. Para tanto, o modelo utilizado para a inserção dessa componente linguística foi o desenvolvido por Faria e Ohashi (2018), que tem como inspiração o modelo apresentado em Redington et al. (1998). Ambos os modelos foram baseados na ideia da informatividade do contexto, vista em Harris (1954). Não é assumido, a priori, uma visão inatista ou empirista para o modelo, visto que esta tomada de posição não é relevante no contexto desta modelagem, que explora tão somente a informatividade dos dados de entrada, de tal modo que os resultados obtidos são úteis para ambas as perspectivas. Os resultados foram obtidos a partir de 48 condições experimentais, sendo aplicadas em 7 simulações distintas, nas quais são avaliadas diferentes decomposições morfológicas. As condições experimentais são divididas em 8 tipos e visam analisar aspectos diferentes que podem estar envolvidos no processo de aquisição: (i) janela de contexto; (ii) quantidade de palavras-alvo e de contexto; (iii) avaliação de performance por categoria; (iv) tamanho do corpus; (v) fronteira das sentenças; (vi) frequência e ocorrência; (vii) palavras funcionais; e (viii) o quanto uma categoria ajuda na categorização das outras. Os resultados foram analisados qualitativa e quantitativamente, além de serem avaliados quanto à sua significância estatística. Nosso resultados demostram melhora no desempenho do modelo quando introduzida a morfologia, se comparada ao modelo sem a morfologia. Além desse resultado, vale ressaltar que os resultados demostraram que a seleção das palavras-alvo impacta na categorização, que o uso da informação sobre a função do morfema não impacta no desempenho do modelo e que a informação morfológica sozinha se mostrou tão informativa quanto a informação com o contexto e morfologiaAbstract: In this work, the main objective is to insert a morphological component in a computational model for learning word categories based on distributional information and to evaluate its impact on the computational learner's performance For that, the model used for the insertion of this linguistic component was the model developed by Faria and Ohashi (2018), which is inspired by the model presented in Redington et al. (1998). Both models are based on the idea of context informativeness found in Harris (1954). A priori, no innate or empirical view is assumed for the model, as this position is not relevant in the context of this modeling, which only examines the informativeness of the input data, so the results obtained are useful for both perspectives. The results come from 48 experimental conditions applied in 7 different simulations in which different morphological decompositions were evaluated. The experimental conditions are divided into 8 types and aim to analyze different aspects that may be involved in the acquisition process: (i) context window; (ii) set of target and context words; (iii) performance score by category; (iv) corpus size; (v) sentence boundary; (vi) frequency and occurrence; (vii) function words; (viii) and how much one category helps in categorizing the others. The results were analyzed qualitatively and quantitatively and additionally tested for statistical significance. Our results show an improvement in the performance of the model when the morphology is introduced compared to the model without the morphology. In addition to this result, it is worth noting that the results show that the choice of target words affects categorization, that the use of morpheme function information does not affect the performance of the model, and that morphological information alone proved to be as informative as information with context and morphologyMestradoLingüísticaMestre em LinguísticaCAPES88887.334802/2019-00[s.n.]Faria, Pablo, 1978-Ferreira, Marcelo BarraName, Maria Cristina LoboUniversidade Estadual de Campinas (UNICAMP). Instituto de Estudos da LinguagemPrograma de Pós-Graduação em LinguísticaUNIVERSIDADE ESTADUAL DE CAMPINASLeal, Igor, 1991-20222022-04-19T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online ( p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/5002LEAL, Igor. A informatividade da morfologia para a categorização distribucional de palavras: um modelo computacional. 2022. 1 recurso online ( p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/5002. Acesso em: 28 fev. 2025.https://repositorio.unicamp.br/acervo/detalhe/1245925Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2022-07-27T14:00:30Zoai::1245925Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2022-07-27T14:00:30Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
The informativeness of morphology for the distributional categorization of words : a computational model
title A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
spellingShingle A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
Leal, Igor, 1991-
Processamento de linguagem natural (Computação)
Processamento de dados
Análise por agrupamento
Morfologia
Aquisição da linguagem
Natural language processing (Computer science)
Data processing
Cluster analysis
Morphology
Language aquisition
title_short A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
title_full A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
title_fullStr A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
title_full_unstemmed A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
title_sort A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
author Leal, Igor, 1991-
author_facet Leal, Igor, 1991-
author_role author
dc.contributor.none.fl_str_mv Faria, Pablo, 1978-
Ferreira, Marcelo Barra
Name, Maria Cristina Lobo
Universidade Estadual de Campinas (UNICAMP). Instituto de Estudos da Linguagem
Programa de Pós-Graduação em Linguística
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Leal, Igor, 1991-
dc.subject.por.fl_str_mv Processamento de linguagem natural (Computação)
Processamento de dados
Análise por agrupamento
Morfologia
Aquisição da linguagem
Natural language processing (Computer science)
Data processing
Cluster analysis
Morphology
Language aquisition
topic Processamento de linguagem natural (Computação)
Processamento de dados
Análise por agrupamento
Morfologia
Aquisição da linguagem
Natural language processing (Computer science)
Data processing
Cluster analysis
Morphology
Language aquisition
description Orientador: Pablo Picasso Feliciano de Faria
publishDate 2022
dc.date.none.fl_str_mv 2022
2022-04-19T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/5002
LEAL, Igor. A informatividade da morfologia para a categorização distribucional de palavras: um modelo computacional. 2022. 1 recurso online ( p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/5002. Acesso em: 28 fev. 2025.
url https://hdl.handle.net/20.500.12733/5002
identifier_str_mv LEAL, Igor. A informatividade da morfologia para a categorização distribucional de palavras: um modelo computacional. 2022. 1 recurso online ( p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/5002. Acesso em: 28 fev. 2025.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1245925
Requisitos do sistema: Software para leitura de arquivo em PDF
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
1 recurso online ( p.) : il., digital, arquivo PDF.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1829137732298866688