Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Santos, Laila Pereira Mota lattes
Orientador(a): Claro, Daniela Barreiro lattes
Banca de defesa: Claro, Daniela Barreiro lattes, Souza, Jackson Wilke da Cruz lattes, Souza, Marlo Vieira dos Santos e lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Bahia
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Departamento: Instituto de Computação - IC
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufba.br/handle/ri/40511
Resumo: A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa.
id UFBA-2_a3cff45ee8d61d9fcbaccfde005fbd7e
oai_identifier_str oai:repositorio.ufba.br:ri/40511
network_acronym_str UFBA-2
network_name_str Repositório Institucional da UFBA
repository_id_str
spelling 2024-10-29T10:37:52Z2024-10-29T10:37:52Z2024-08-23SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.https://repositorio.ufba.br/handle/ri/40511A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa.Lexical Semantic Change (LSC) in the Portuguese language over time, focusing on the use of contextual language models. LSM, which refers to the change in the meaning of words over time, is a complex and multifaceted phenomenon that reflects the cultural, social and technological changes in society (AITCHISON, 2002). Understanding LSM has applications in several areas, from historical linguistics to Natural Language Processing (NLP). The proposal highlights the challenges of detecting and interpreting LSM, such as polysemy (a word with multiple meanings) and the gradual and subtle nature of semantic change. To address these challenges, the research proposes the use of contextualized semantic spaces, generated by models such as BERT (DEVLIN et al., 2019), which capture the meaning of words in their specific contexts. The central hypothesis is that these contextualized semantic spaces can represent the changes in lexical units of the Portuguese language. However, the temporal aspect of these approaches is limited to the data and is not represented. Thus, this research project proposes the construction of a diachronic corpus of the Portuguese language with the aim of generating contextual embeddings that have temporal characteristics to detect, quantify and interpret lexical semantic change. The validation of the approach will explore different metrics and approaches. It is expected that this research will contribute to the advancement of knowledge in the area of MSL, providing a model for the analysis of lexical semantic change with temporal identification in the Portuguese language.Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPqporUniversidade Federal da BahiaPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) UFBABrasilInstituto de Computação - ICNatural language processingLanguage modelsPolysemyComputingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProcessamento de linguagem naturalModelos de linguagemPolissemiaComputaçãoAnálise da mudança semântica lexical: identificação e caracterização na língua portuguesa.Analysis of lexical semantic change: identification and characterization in the portuguese language.Mestrado Acadêmicoinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionClaro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Araújo, Rerisson Cavalcante dehttps://orcid.org/0000-0002-7255-5422http://lattes.cnpq.br/9546551094655305Claro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Souza, Jackson Wilke da Cruzhttps://orcid.org/0000-0003-1881-6780http://lattes.cnpq.br/0019187301069627Souza, Marlo Vieira dos Santos ehttps://orcid.org/0000-0002-5373-7271http://lattes.cnpq.br/8734792579019380https://orcid.org/0009-0003-1849-0300http://lattes.cnpq.br/5248712875633926Santos, Laila Pereira Motainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALDissertacao_Laila.pdfDissertacao_Laila.pdfapplication/pdf7978346https://repositorio.ufba.br/bitstream/ri/40511/1/Dissertacao_Laila.pdfe2c191f9c633b8db911efbe0b745d580MD51open accessLICENSElicense.txtlicense.txttext/plain1720https://repositorio.ufba.br/bitstream/ri/40511/2/license.txtd9b7566281c22d808dbf8f29ff0425c8MD52open accessri/405112024-10-29 07:37:53.376open accessoai:repositorio.ufba.br:ri/40511TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCBvIGF1dG9yIG91IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pIGUvb3UgZGlzdHJpYnVpciBhIHN1YSBwdWJsaWNhw6fDo28gKGluY2x1aW5kbyBvIHJlc3Vtbykgbm8gZm9ybWF0byBpbXByZXNzbyBlL291IGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBlL291IHbDrWRlby4KCk8gYXV0b3Igb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgY29uY29yZGEgcXVlIG8gUmVwb3NpdMOzcmlvIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIGUvb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8OjbywgcG9kZW5kbyBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrdXAgZSBwcmVzZXJ2YcOnw6NvLiAKCk8gYXV0b3Igb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIG7Do28sIHF1ZSBzZWphIGRlIHNldSBjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIGFvIFJlcG9zaXTDs3JpbyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBSRVNVTFRFIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTywgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPLCBDT01PIFRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l0w7NyaW8gc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyLCBjbGFyYW1lbnRlLCBvIChzKSBzZXUocykgbm9tZSAocykgb3UgbyAocykgbm9tZSAocykgZG8gKHMpIGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHB1YmxpY2HDp8OjbyBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalPUBhttps://repositorio.ufba.br/oai/requestrepositorio@ufba.bropendoar:19322024-10-29T10:37:53Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
dc.title.alternative.pt_BR.fl_str_mv Analysis of lexical semantic change: identification and characterization in the portuguese language.
title Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
spellingShingle Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
Santos, Laila Pereira Mota
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Processamento de linguagem natural
Modelos de linguagem
Polissemia
Computação
Natural language processing
Language models
Polysemy
Computing
title_short Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
title_full Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
title_fullStr Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
title_full_unstemmed Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
title_sort Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
author Santos, Laila Pereira Mota
author_facet Santos, Laila Pereira Mota
author_role author
dc.contributor.advisor1.fl_str_mv Claro, Daniela Barreiro
dc.contributor.advisor1ID.fl_str_mv https://orcid.org/0000-0001-8586-1042
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9217378047217370
dc.contributor.advisor-co1.fl_str_mv Araújo, Rerisson Cavalcante de
dc.contributor.advisor-co1ID.fl_str_mv https://orcid.org/0000-0002-7255-5422
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/9546551094655305
dc.contributor.referee1.fl_str_mv Claro, Daniela Barreiro
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000-0001-8586-1042
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9217378047217370
dc.contributor.referee2.fl_str_mv Souza, Jackson Wilke da Cruz
dc.contributor.referee2ID.fl_str_mv https://orcid.org/0000-0003-1881-6780
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/0019187301069627
dc.contributor.referee3.fl_str_mv Souza, Marlo Vieira dos Santos e
dc.contributor.referee3ID.fl_str_mv https://orcid.org/0000-0002-5373-7271
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/8734792579019380
dc.contributor.authorID.fl_str_mv https://orcid.org/0009-0003-1849-0300
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5248712875633926
dc.contributor.author.fl_str_mv Santos, Laila Pereira Mota
contributor_str_mv Claro, Daniela Barreiro
Araújo, Rerisson Cavalcante de
Claro, Daniela Barreiro
Souza, Jackson Wilke da Cruz
Souza, Marlo Vieira dos Santos e
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Processamento de linguagem natural
Modelos de linguagem
Polissemia
Computação
Natural language processing
Language models
Polysemy
Computing
dc.subject.por.fl_str_mv Processamento de linguagem natural
Modelos de linguagem
Polissemia
Computação
dc.subject.other.pt_BR.fl_str_mv Natural language processing
Language models
Polysemy
Computing
description A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-10-29T10:37:52Z
dc.date.available.fl_str_mv 2024-10-29T10:37:52Z
dc.date.issued.fl_str_mv 2024-08-23
dc.type.driver.fl_str_mv Mestrado Acadêmico
info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.
dc.identifier.uri.fl_str_mv https://repositorio.ufba.br/handle/ri/40511
identifier_str_mv SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.
url https://repositorio.ufba.br/handle/ri/40511
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Bahia
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
dc.publisher.initials.fl_str_mv UFBA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Computação - IC
publisher.none.fl_str_mv Universidade Federal da Bahia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFBA
instname:Universidade Federal da Bahia (UFBA)
instacron:UFBA
instname_str Universidade Federal da Bahia (UFBA)
instacron_str UFBA
institution UFBA
reponame_str Repositório Institucional da UFBA
collection Repositório Institucional da UFBA
bitstream.url.fl_str_mv https://repositorio.ufba.br/bitstream/ri/40511/1/Dissertacao_Laila.pdf
https://repositorio.ufba.br/bitstream/ri/40511/2/license.txt
bitstream.checksum.fl_str_mv e2c191f9c633b8db911efbe0b745d580
d9b7566281c22d808dbf8f29ff0425c8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv repositorio@ufba.br
_version_ 1847342061746913280