A lightweight language filtering model for Brazilian portuguese trained by using active learning
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/ |
Resumo: | Language filtering is the task of segregating a main language from other languages in a text. In this work, we propose and test a lightweight and effective sentence-level language filtering framework. The framework utilizes a language identification model based on only three parameters and character n-gram features. The proposed framework does require any previously labeled datasets nor external language models. Instead, active learning is used to query a small number of the most informative data points from an unlabeled dataset, which are manually labeled to train the language identification model. |
| id |
USP_2266721cc911581e72c5e8a046a617a6 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-22032025-175534 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
A lightweight language filtering model for Brazilian portuguese trained by using active learningUm modelo leve de filtragem da língua portuguesa do Brasil treinado utilizando aprendizado ativoActive learningAprendizado ativoBrazilian portugueseFiltragem de línguasIdentificação de línguasLanguage filteringLanguage identificationPortuguês do BrasilLanguage filtering is the task of segregating a main language from other languages in a text. In this work, we propose and test a lightweight and effective sentence-level language filtering framework. The framework utilizes a language identification model based on only three parameters and character n-gram features. The proposed framework does require any previously labeled datasets nor external language models. Instead, active learning is used to query a small number of the most informative data points from an unlabeled dataset, which are manually labeled to train the language identification model.Filtragem de línguas é a tarefa de segregar uma língua principal de outras línguas em um texto. Neste trabalho, propomos e testamos uma metodologia de filtragem de línguas leve e eficaz. A metodologia utiliza um modelo de identificação de línguas baseado apenas em três parâmetros e variáveis construídas com n-gramas de caracteres. A metodologia proposta não requer bases de dados anotadas previamente nem modelos de linguagem externos. Em vez disso, é utilizado aprendizado ativo para selecionar uma pequena quantidade dos elementos mais informativos de uma base de dados não anotada, que são anotados manualmente para treinar o modelo de identificação de línguas.Biblioteca Digitais de Teses e Dissertações da USPFinger, MarceloMéndez, Diego Andrés2024-11-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-04-16T15:43:02Zoai:teses.usp.br:tde-22032025-175534Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-04-16T15:43:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
A lightweight language filtering model for Brazilian portuguese trained by using active learning Um modelo leve de filtragem da língua portuguesa do Brasil treinado utilizando aprendizado ativo |
| title |
A lightweight language filtering model for Brazilian portuguese trained by using active learning |
| spellingShingle |
A lightweight language filtering model for Brazilian portuguese trained by using active learning Méndez, Diego Andrés Active learning Aprendizado ativo Brazilian portuguese Filtragem de línguas Identificação de línguas Language filtering Language identification Português do Brasil |
| title_short |
A lightweight language filtering model for Brazilian portuguese trained by using active learning |
| title_full |
A lightweight language filtering model for Brazilian portuguese trained by using active learning |
| title_fullStr |
A lightweight language filtering model for Brazilian portuguese trained by using active learning |
| title_full_unstemmed |
A lightweight language filtering model for Brazilian portuguese trained by using active learning |
| title_sort |
A lightweight language filtering model for Brazilian portuguese trained by using active learning |
| author |
Méndez, Diego Andrés |
| author_facet |
Méndez, Diego Andrés |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Finger, Marcelo |
| dc.contributor.author.fl_str_mv |
Méndez, Diego Andrés |
| dc.subject.por.fl_str_mv |
Active learning Aprendizado ativo Brazilian portuguese Filtragem de línguas Identificação de línguas Language filtering Language identification Português do Brasil |
| topic |
Active learning Aprendizado ativo Brazilian portuguese Filtragem de línguas Identificação de línguas Language filtering Language identification Português do Brasil |
| description |
Language filtering is the task of segregating a main language from other languages in a text. In this work, we propose and test a lightweight and effective sentence-level language filtering framework. The framework utilizes a language identification model based on only three parameters and character n-gram features. The proposed framework does require any previously labeled datasets nor external language models. Instead, active learning is used to query a small number of the most informative data points from an unlabeled dataset, which are manually labeled to train the language identification model. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-08 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1839839154678005760 |