Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal da Bahia
|
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
|
| Departamento: |
Instituto de Computação - IC
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufba.br/handle/ri/40511 |
Resumo: | A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa. |
| id |
UFBA-2_a3cff45ee8d61d9fcbaccfde005fbd7e |
|---|---|
| oai_identifier_str |
oai:repositorio.ufba.br:ri/40511 |
| network_acronym_str |
UFBA-2 |
| network_name_str |
Repositório Institucional da UFBA |
| repository_id_str |
|
| spelling |
2024-10-29T10:37:52Z2024-10-29T10:37:52Z2024-08-23SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.https://repositorio.ufba.br/handle/ri/40511A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa.Lexical Semantic Change (LSC) in the Portuguese language over time, focusing on the use of contextual language models. LSM, which refers to the change in the meaning of words over time, is a complex and multifaceted phenomenon that reflects the cultural, social and technological changes in society (AITCHISON, 2002). Understanding LSM has applications in several areas, from historical linguistics to Natural Language Processing (NLP). The proposal highlights the challenges of detecting and interpreting LSM, such as polysemy (a word with multiple meanings) and the gradual and subtle nature of semantic change. To address these challenges, the research proposes the use of contextualized semantic spaces, generated by models such as BERT (DEVLIN et al., 2019), which capture the meaning of words in their specific contexts. The central hypothesis is that these contextualized semantic spaces can represent the changes in lexical units of the Portuguese language. However, the temporal aspect of these approaches is limited to the data and is not represented. Thus, this research project proposes the construction of a diachronic corpus of the Portuguese language with the aim of generating contextual embeddings that have temporal characteristics to detect, quantify and interpret lexical semantic change. The validation of the approach will explore different metrics and approaches. It is expected that this research will contribute to the advancement of knowledge in the area of MSL, providing a model for the analysis of lexical semantic change with temporal identification in the Portuguese language.Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPqporUniversidade Federal da BahiaPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) UFBABrasilInstituto de Computação - ICNatural language processingLanguage modelsPolysemyComputingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProcessamento de linguagem naturalModelos de linguagemPolissemiaComputaçãoAnálise da mudança semântica lexical: identificação e caracterização na língua portuguesa.Analysis of lexical semantic change: identification and characterization in the portuguese language.Mestrado Acadêmicoinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionClaro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Araújo, Rerisson Cavalcante dehttps://orcid.org/0000-0002-7255-5422http://lattes.cnpq.br/9546551094655305Claro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Souza, Jackson Wilke da Cruzhttps://orcid.org/0000-0003-1881-6780http://lattes.cnpq.br/0019187301069627Souza, Marlo Vieira dos Santos ehttps://orcid.org/0000-0002-5373-7271http://lattes.cnpq.br/8734792579019380https://orcid.org/0009-0003-1849-0300http://lattes.cnpq.br/5248712875633926Santos, Laila Pereira Motainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALDissertacao_Laila.pdfDissertacao_Laila.pdfapplication/pdf7978346https://repositorio.ufba.br/bitstream/ri/40511/1/Dissertacao_Laila.pdfe2c191f9c633b8db911efbe0b745d580MD51open accessLICENSElicense.txtlicense.txttext/plain1720https://repositorio.ufba.br/bitstream/ri/40511/2/license.txtd9b7566281c22d808dbf8f29ff0425c8MD52open accessri/405112024-10-29 07:37:53.376open accessoai:repositorio.ufba.br:ri/40511TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCBvIGF1dG9yIG91IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pIGUvb3UgZGlzdHJpYnVpciBhIHN1YSBwdWJsaWNhw6fDo28gKGluY2x1aW5kbyBvIHJlc3Vtbykgbm8gZm9ybWF0byBpbXByZXNzbyBlL291IGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBlL291IHbDrWRlby4KCk8gYXV0b3Igb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgY29uY29yZGEgcXVlIG8gUmVwb3NpdMOzcmlvIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIGUvb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8OjbywgcG9kZW5kbyBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrdXAgZSBwcmVzZXJ2YcOnw6NvLiAKCk8gYXV0b3Igb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIG7Do28sIHF1ZSBzZWphIGRlIHNldSBjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIGFvIFJlcG9zaXTDs3JpbyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBSRVNVTFRFIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTywgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPLCBDT01PIFRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l0w7NyaW8gc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyLCBjbGFyYW1lbnRlLCBvIChzKSBzZXUocykgbm9tZSAocykgb3UgbyAocykgbm9tZSAocykgZG8gKHMpIGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHB1YmxpY2HDp8OjbyBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalPUBhttps://repositorio.ufba.br/oai/requestrepositorio@ufba.bropendoar:19322024-10-29T10:37:53Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false |
| dc.title.pt_BR.fl_str_mv |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| dc.title.alternative.pt_BR.fl_str_mv |
Analysis of lexical semantic change: identification and characterization in the portuguese language. |
| title |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| spellingShingle |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. Santos, Laila Pereira Mota CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Processamento de linguagem natural Modelos de linguagem Polissemia Computação Natural language processing Language models Polysemy Computing |
| title_short |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| title_full |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| title_fullStr |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| title_full_unstemmed |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| title_sort |
Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. |
| author |
Santos, Laila Pereira Mota |
| author_facet |
Santos, Laila Pereira Mota |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Claro, Daniela Barreiro |
| dc.contributor.advisor1ID.fl_str_mv |
https://orcid.org/0000-0001-8586-1042 |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/9217378047217370 |
| dc.contributor.advisor-co1.fl_str_mv |
Araújo, Rerisson Cavalcante de |
| dc.contributor.advisor-co1ID.fl_str_mv |
https://orcid.org/0000-0002-7255-5422 |
| dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/9546551094655305 |
| dc.contributor.referee1.fl_str_mv |
Claro, Daniela Barreiro |
| dc.contributor.referee1ID.fl_str_mv |
https://orcid.org/0000-0001-8586-1042 |
| dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/9217378047217370 |
| dc.contributor.referee2.fl_str_mv |
Souza, Jackson Wilke da Cruz |
| dc.contributor.referee2ID.fl_str_mv |
https://orcid.org/0000-0003-1881-6780 |
| dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/0019187301069627 |
| dc.contributor.referee3.fl_str_mv |
Souza, Marlo Vieira dos Santos e |
| dc.contributor.referee3ID.fl_str_mv |
https://orcid.org/0000-0002-5373-7271 |
| dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/8734792579019380 |
| dc.contributor.authorID.fl_str_mv |
https://orcid.org/0009-0003-1849-0300 |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/5248712875633926 |
| dc.contributor.author.fl_str_mv |
Santos, Laila Pereira Mota |
| contributor_str_mv |
Claro, Daniela Barreiro Araújo, Rerisson Cavalcante de Claro, Daniela Barreiro Souza, Jackson Wilke da Cruz Souza, Marlo Vieira dos Santos e |
| dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Processamento de linguagem natural Modelos de linguagem Polissemia Computação Natural language processing Language models Polysemy Computing |
| dc.subject.por.fl_str_mv |
Processamento de linguagem natural Modelos de linguagem Polissemia Computação |
| dc.subject.other.pt_BR.fl_str_mv |
Natural language processing Language models Polysemy Computing |
| description |
A Mudança Semântica Lexical (MSL) na língua portuguesa ao longo do tempo, com foco no uso de modelos de linguagem contextuais. A MSL, que se refere à alteração do significado das palavras ao longo do tempo, é um fenômeno complexo e multifacetado que reflete as mudanças culturais, sociais e tecnológicas da sociedade (AITCHISON, 2002). A compreensão da MSL tem aplicações em diversas áreas, desde a linguística histórica até o Processamento de Linguagem Natural (PLN). A proposta destaca os desafios da detecção e interpretação da MSL, como a polissemia (uma palavra com múltiplos sentidos) e a natureza gradual e sutil da mudança semântica. Para abordar esses desafios, a pesquisa propõe a utilização de espaços semânticos contextualizados, gerados por modelos como o BERT (DEVLIN et al., 2019), que capturam o significado das palavras em seus contextos específicos. A hipótese central é que esses espaços semânticos contextualizados podem representar as mudanças de unidades lexicais da língua portuguesa. Porém o aspecto temporal destas abordagens fica limitado aos dados e não são representados. Assim, o presente projeto de pesquisa propõe a construção de um corpus diacrônico da língua portuguesa com o objetivo de gerar embeddings contextuais que detenham características temporais para detectar, quantificar e interpretar a mudança semântica lexical. A validação da abordagem explorará diferentes métricas e abordagens. Espera-se que esta pesquisa contribua para o avanço do conhecimento na área de MSL, fornecendo um modelo para a análise da mudança semântica lexical com a identificação temporal na língua portuguesa. |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-10-29T10:37:52Z |
| dc.date.available.fl_str_mv |
2024-10-29T10:37:52Z |
| dc.date.issued.fl_str_mv |
2024-08-23 |
| dc.type.driver.fl_str_mv |
Mestrado Acadêmico info:eu-repo/semantics/masterThesis |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufba.br/handle/ri/40511 |
| identifier_str_mv |
SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024. |
| url |
https://repositorio.ufba.br/handle/ri/40511 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal da Bahia |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação (PGCOMP) |
| dc.publisher.initials.fl_str_mv |
UFBA |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Instituto de Computação - IC |
| publisher.none.fl_str_mv |
Universidade Federal da Bahia |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFBA instname:Universidade Federal da Bahia (UFBA) instacron:UFBA |
| instname_str |
Universidade Federal da Bahia (UFBA) |
| instacron_str |
UFBA |
| institution |
UFBA |
| reponame_str |
Repositório Institucional da UFBA |
| collection |
Repositório Institucional da UFBA |
| bitstream.url.fl_str_mv |
https://repositorio.ufba.br/bitstream/ri/40511/1/Dissertacao_Laila.pdf https://repositorio.ufba.br/bitstream/ri/40511/2/license.txt |
| bitstream.checksum.fl_str_mv |
e2c191f9c633b8db911efbe0b745d580 d9b7566281c22d808dbf8f29ff0425c8 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA) |
| repository.mail.fl_str_mv |
repositorio@ufba.br |
| _version_ |
1847342061746913280 |