Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025 |
Resumo: | Esta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas. Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua. |
| id |
UFOR_2b93d19d69dc0e953fa658c38ebcdde0 |
|---|---|
| oai_identifier_str |
oai::591025 |
| network_acronym_str |
UFOR |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| repository_id_str |
|
| spelling |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminaisLinguagem de programaçãoInvestigação criminalAnálise de dadosEsta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas. Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua.This dissertation presents contributions to the field of digital criminal investigation. Through the use of a corpus of social media messages from cell phones seized in prisons, a Portuguese language model called BERT Sherlock was improved to help classify excerpts of conversations that could indicate criminal activity. The comparison between algorithms that use the BERT Sherlock model and traditional approaches demonstrates an advantage of the former over conventional methods. Furthermore, analyzes revealed that BERT Sherlock is capable of identifying suspicious messages that indicate illicit activities, including those that use slang and specific language unknown to investigators. These results provide evidence that the model is effective in identifying suspicious messages, taking into account the context in which they are used. The research therefore contributes to increasing the efficiency of crime analysts when dealing with social media messages in criminal investigations, especially those related to illicit activities. Key-words: Natural Language Processing, Classification of Informal Messages, BERTimbau Model Refinement, Language Model Training.A Dissertação foi enviada com autorização e certificação via CI 5540/25 em 04/02/2025.Nepomuceno, Napoleão VieiraPinheiro, Vladia Celia MonteiroFurtado, João José Vasco PeixotoSilveira, Francisca Raquel de VasconcelosUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaLemos, Rafael Bezerra Melo Sousa2024info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf61f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025https://uol.unifor.br/auth-sophia/exibicao/39829porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2025-02-25T14:36:36Zoai::591025Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2025-02-25T14:36:36Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false |
| dc.title.none.fl_str_mv |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| title |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| spellingShingle |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais Lemos, Rafael Bezerra Melo Sousa Linguagem de programação Investigação criminal Análise de dados |
| title_short |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| title_full |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| title_fullStr |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| title_full_unstemmed |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| title_sort |
Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais |
| author |
Lemos, Rafael Bezerra Melo Sousa |
| author_facet |
Lemos, Rafael Bezerra Melo Sousa |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Nepomuceno, Napoleão Vieira Pinheiro, Vladia Celia Monteiro Furtado, João José Vasco Peixoto Silveira, Francisca Raquel de Vasconcelos Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada |
| dc.contributor.author.fl_str_mv |
Lemos, Rafael Bezerra Melo Sousa |
| dc.subject.por.fl_str_mv |
Linguagem de programação Investigação criminal Análise de dados |
| topic |
Linguagem de programação Investigação criminal Análise de dados |
| description |
Esta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas. Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025 |
| url |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
https://uol.unifor.br/auth-sophia/exibicao/39829 |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf 61f. |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR |
| instname_str |
Universidade de Fortaleza (UNIFOR) |
| instacron_str |
UNIFOR |
| institution |
UNIFOR |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| collection |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR) |
| repository.mail.fl_str_mv |
bib@unifor.br||bib@unifor.br |
| _version_ |
1846365346282340352 |