A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
[s.n.]
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://hdl.handle.net/20.500.12733/5002 |
Resumo: | Orientador: Pablo Picasso Feliciano de Faria |
id |
UNICAMP-30_327564d44abcd0f689de97245de99e53 |
---|---|
oai_identifier_str |
oai::1245925 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacionalThe informativeness of morphology for the distributional categorization of words : a computational modelProcessamento de linguagem natural (Computação)Processamento de dadosAnálise por agrupamentoMorfologiaAquisição da linguagemNatural language processing (Computer science)Data processingCluster analysisMorphologyLanguage aquisitionOrientador: Pablo Picasso Feliciano de FariaDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da LinguagemResumo: Neste trabalho, o objetivo principal é inserir uma componente morfológica em um modelo computacional de aprendizagem de categorias de palavras, baseado em informação distribucional, e avaliar seu impacto na performance do aprendiz computacional. Para tanto, o modelo utilizado para a inserção dessa componente linguística foi o desenvolvido por Faria e Ohashi (2018), que tem como inspiração o modelo apresentado em Redington et al. (1998). Ambos os modelos foram baseados na ideia da informatividade do contexto, vista em Harris (1954). Não é assumido, a priori, uma visão inatista ou empirista para o modelo, visto que esta tomada de posição não é relevante no contexto desta modelagem, que explora tão somente a informatividade dos dados de entrada, de tal modo que os resultados obtidos são úteis para ambas as perspectivas. Os resultados foram obtidos a partir de 48 condições experimentais, sendo aplicadas em 7 simulações distintas, nas quais são avaliadas diferentes decomposições morfológicas. As condições experimentais são divididas em 8 tipos e visam analisar aspectos diferentes que podem estar envolvidos no processo de aquisição: (i) janela de contexto; (ii) quantidade de palavras-alvo e de contexto; (iii) avaliação de performance por categoria; (iv) tamanho do corpus; (v) fronteira das sentenças; (vi) frequência e ocorrência; (vii) palavras funcionais; e (viii) o quanto uma categoria ajuda na categorização das outras. Os resultados foram analisados qualitativa e quantitativamente, além de serem avaliados quanto à sua significância estatística. Nosso resultados demostram melhora no desempenho do modelo quando introduzida a morfologia, se comparada ao modelo sem a morfologia. Além desse resultado, vale ressaltar que os resultados demostraram que a seleção das palavras-alvo impacta na categorização, que o uso da informação sobre a função do morfema não impacta no desempenho do modelo e que a informação morfológica sozinha se mostrou tão informativa quanto a informação com o contexto e morfologiaAbstract: In this work, the main objective is to insert a morphological component in a computational model for learning word categories based on distributional information and to evaluate its impact on the computational learner's performance For that, the model used for the insertion of this linguistic component was the model developed by Faria and Ohashi (2018), which is inspired by the model presented in Redington et al. (1998). Both models are based on the idea of context informativeness found in Harris (1954). A priori, no innate or empirical view is assumed for the model, as this position is not relevant in the context of this modeling, which only examines the informativeness of the input data, so the results obtained are useful for both perspectives. The results come from 48 experimental conditions applied in 7 different simulations in which different morphological decompositions were evaluated. The experimental conditions are divided into 8 types and aim to analyze different aspects that may be involved in the acquisition process: (i) context window; (ii) set of target and context words; (iii) performance score by category; (iv) corpus size; (v) sentence boundary; (vi) frequency and occurrence; (vii) function words; (viii) and how much one category helps in categorizing the others. The results were analyzed qualitatively and quantitatively and additionally tested for statistical significance. Our results show an improvement in the performance of the model when the morphology is introduced compared to the model without the morphology. In addition to this result, it is worth noting that the results show that the choice of target words affects categorization, that the use of morpheme function information does not affect the performance of the model, and that morphological information alone proved to be as informative as information with context and morphologyMestradoLingüísticaMestre em LinguísticaCAPES88887.334802/2019-00[s.n.]Faria, Pablo, 1978-Ferreira, Marcelo BarraName, Maria Cristina LoboUniversidade Estadual de Campinas (UNICAMP). Instituto de Estudos da LinguagemPrograma de Pós-Graduação em LinguísticaUNIVERSIDADE ESTADUAL DE CAMPINASLeal, Igor, 1991-20222022-04-19T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online ( p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/5002LEAL, Igor. A informatividade da morfologia para a categorização distribucional de palavras: um modelo computacional. 2022. 1 recurso online ( p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/5002. Acesso em: 28 fev. 2025.https://repositorio.unicamp.br/acervo/detalhe/1245925Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2022-07-27T14:00:30Zoai::1245925Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2022-07-27T14:00:30Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional The informativeness of morphology for the distributional categorization of words : a computational model |
title |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional |
spellingShingle |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional Leal, Igor, 1991- Processamento de linguagem natural (Computação) Processamento de dados Análise por agrupamento Morfologia Aquisição da linguagem Natural language processing (Computer science) Data processing Cluster analysis Morphology Language aquisition |
title_short |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional |
title_full |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional |
title_fullStr |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional |
title_full_unstemmed |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional |
title_sort |
A informatividade da morfologia para a categorização distribucional de palavras : um modelo computacional |
author |
Leal, Igor, 1991- |
author_facet |
Leal, Igor, 1991- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Faria, Pablo, 1978- Ferreira, Marcelo Barra Name, Maria Cristina Lobo Universidade Estadual de Campinas (UNICAMP). Instituto de Estudos da Linguagem Programa de Pós-Graduação em Linguística UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Leal, Igor, 1991- |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural (Computação) Processamento de dados Análise por agrupamento Morfologia Aquisição da linguagem Natural language processing (Computer science) Data processing Cluster analysis Morphology Language aquisition |
topic |
Processamento de linguagem natural (Computação) Processamento de dados Análise por agrupamento Morfologia Aquisição da linguagem Natural language processing (Computer science) Data processing Cluster analysis Morphology Language aquisition |
description |
Orientador: Pablo Picasso Feliciano de Faria |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 2022-04-19T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/5002 LEAL, Igor. A informatividade da morfologia para a categorização distribucional de palavras: um modelo computacional. 2022. 1 recurso online ( p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/5002. Acesso em: 28 fev. 2025. |
url |
https://hdl.handle.net/20.500.12733/5002 |
identifier_str_mv |
LEAL, Igor. A informatividade da morfologia para a categorização distribucional de palavras: um modelo computacional. 2022. 1 recurso online ( p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/5002. Acesso em: 28 fev. 2025. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/1245925 Requisitos do sistema: Software para leitura de arquivo em PDF |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 1 recurso online ( p.) : il., digital, arquivo PDF. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1829137732298866688 |