Exportação concluída — 

A lightweight language filtering model for Brazilian portuguese trained by using active learning

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Méndez, Diego Andrés
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/
Resumo: Language filtering is the task of segregating a main language from other languages in a text. In this work, we propose and test a lightweight and effective sentence-level language filtering framework. The framework utilizes a language identification model based on only three parameters and character n-gram features. The proposed framework does require any previously labeled datasets nor external language models. Instead, active learning is used to query a small number of the most informative data points from an unlabeled dataset, which are manually labeled to train the language identification model.
id USP_2266721cc911581e72c5e8a046a617a6
oai_identifier_str oai:teses.usp.br:tde-22032025-175534
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling A lightweight language filtering model for Brazilian portuguese trained by using active learningUm modelo leve de filtragem da língua portuguesa do Brasil treinado utilizando aprendizado ativoActive learningAprendizado ativoBrazilian portugueseFiltragem de línguasIdentificação de línguasLanguage filteringLanguage identificationPortuguês do BrasilLanguage filtering is the task of segregating a main language from other languages in a text. In this work, we propose and test a lightweight and effective sentence-level language filtering framework. The framework utilizes a language identification model based on only three parameters and character n-gram features. The proposed framework does require any previously labeled datasets nor external language models. Instead, active learning is used to query a small number of the most informative data points from an unlabeled dataset, which are manually labeled to train the language identification model.Filtragem de línguas é a tarefa de segregar uma língua principal de outras línguas em um texto. Neste trabalho, propomos e testamos uma metodologia de filtragem de línguas leve e eficaz. A metodologia utiliza um modelo de identificação de línguas baseado apenas em três parâmetros e variáveis construídas com n-gramas de caracteres. A metodologia proposta não requer bases de dados anotadas previamente nem modelos de linguagem externos. Em vez disso, é utilizado aprendizado ativo para selecionar uma pequena quantidade dos elementos mais informativos de uma base de dados não anotada, que são anotados manualmente para treinar o modelo de identificação de línguas.Biblioteca Digitais de Teses e Dissertações da USPFinger, MarceloMéndez, Diego Andrés2024-11-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-04-16T15:43:02Zoai:teses.usp.br:tde-22032025-175534Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-04-16T15:43:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv A lightweight language filtering model for Brazilian portuguese trained by using active learning
Um modelo leve de filtragem da língua portuguesa do Brasil treinado utilizando aprendizado ativo
title A lightweight language filtering model for Brazilian portuguese trained by using active learning
spellingShingle A lightweight language filtering model for Brazilian portuguese trained by using active learning
Méndez, Diego Andrés
Active learning
Aprendizado ativo
Brazilian portuguese
Filtragem de línguas
Identificação de línguas
Language filtering
Language identification
Português do Brasil
title_short A lightweight language filtering model for Brazilian portuguese trained by using active learning
title_full A lightweight language filtering model for Brazilian portuguese trained by using active learning
title_fullStr A lightweight language filtering model for Brazilian portuguese trained by using active learning
title_full_unstemmed A lightweight language filtering model for Brazilian portuguese trained by using active learning
title_sort A lightweight language filtering model for Brazilian portuguese trained by using active learning
author Méndez, Diego Andrés
author_facet Méndez, Diego Andrés
author_role author
dc.contributor.none.fl_str_mv Finger, Marcelo
dc.contributor.author.fl_str_mv Méndez, Diego Andrés
dc.subject.por.fl_str_mv Active learning
Aprendizado ativo
Brazilian portuguese
Filtragem de línguas
Identificação de línguas
Language filtering
Language identification
Português do Brasil
topic Active learning
Aprendizado ativo
Brazilian portuguese
Filtragem de línguas
Identificação de línguas
Language filtering
Language identification
Português do Brasil
description Language filtering is the task of segregating a main language from other languages in a text. In this work, we propose and test a lightweight and effective sentence-level language filtering framework. The framework utilizes a language identification model based on only three parameters and character n-gram features. The proposed framework does require any previously labeled datasets nor external language models. Instead, active learning is used to query a small number of the most informative data points from an unlabeled dataset, which are manually labeled to train the language identification model.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22032025-175534/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839154678005760