Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Washington Luiz Miranda da Cunha
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/33474
Resumo: Pipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline.
id UFMG_6323c0ff7483944f6b8de4285d52745d
oai_identifier_str oai:repositorio.ufmg.br:1843/33474
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective samplingComputação - TesesAprendizado de máquina - TesesPipelines de classificação de texto - TesesPré-processamento de dados - TesesText classification pipelinesPre-processingMeta-featuresSparsificationSelective samplingPipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas Gerais2020-05-15T17:50:19Z2025-09-09T01:12:38Z2020-05-15T17:50:19Z2019-11-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1843/33474engWashington Luiz Miranda da Cunhainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-09T01:12:38Zoai:repositorio.ufmg.br:1843/33474Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T01:12:38Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
title Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
spellingShingle Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
Washington Luiz Miranda da Cunha
Computação - Teses
Aprendizado de máquina - Teses
Pipelines de classificação de texto - Teses
Pré-processamento de dados - Teses
Text classification pipelines
Pre-processing
Meta-features
Sparsification
Selective sampling
title_short Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
title_full Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
title_fullStr Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
title_full_unstemmed Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
title_sort Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
author Washington Luiz Miranda da Cunha
author_facet Washington Luiz Miranda da Cunha
author_role author
dc.contributor.author.fl_str_mv Washington Luiz Miranda da Cunha
dc.subject.por.fl_str_mv Computação - Teses
Aprendizado de máquina - Teses
Pipelines de classificação de texto - Teses
Pré-processamento de dados - Teses
Text classification pipelines
Pre-processing
Meta-features
Sparsification
Selective sampling
topic Computação - Teses
Aprendizado de máquina - Teses
Pipelines de classificação de texto - Teses
Pré-processamento de dados - Teses
Text classification pipelines
Pre-processing
Meta-features
Sparsification
Selective sampling
description Pipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline.
publishDate 2019
dc.date.none.fl_str_mv 2019-11-08
2020-05-15T17:50:19Z
2020-05-15T17:50:19Z
2025-09-09T01:12:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/33474
url https://hdl.handle.net/1843/33474
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1856414113501020160