Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal de Minas Gerais
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1843/33474 |
Resumo: | Pipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline. |
| id |
UFMG_6323c0ff7483944f6b8de4285d52745d |
|---|---|
| oai_identifier_str |
oai:repositorio.ufmg.br:1843/33474 |
| network_acronym_str |
UFMG |
| network_name_str |
Repositório Institucional da UFMG |
| repository_id_str |
|
| spelling |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective samplingComputação - TesesAprendizado de máquina - TesesPipelines de classificação de texto - TesesPré-processamento de dados - TesesText classification pipelinesPre-processingMeta-featuresSparsificationSelective samplingPipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas Gerais2020-05-15T17:50:19Z2025-09-09T01:12:38Z2020-05-15T17:50:19Z2019-11-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1843/33474engWashington Luiz Miranda da Cunhainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-09T01:12:38Zoai:repositorio.ufmg.br:1843/33474Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T01:12:38Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
| dc.title.none.fl_str_mv |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| title |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| spellingShingle |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling Washington Luiz Miranda da Cunha Computação - Teses Aprendizado de máquina - Teses Pipelines de classificação de texto - Teses Pré-processamento de dados - Teses Text classification pipelines Pre-processing Meta-features Sparsification Selective sampling |
| title_short |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| title_full |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| title_fullStr |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| title_full_unstemmed |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| title_sort |
Extended pre-processing pipeline for text classification: on the role of meta-features, sparsification and selective sampling |
| author |
Washington Luiz Miranda da Cunha |
| author_facet |
Washington Luiz Miranda da Cunha |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Washington Luiz Miranda da Cunha |
| dc.subject.por.fl_str_mv |
Computação - Teses Aprendizado de máquina - Teses Pipelines de classificação de texto - Teses Pré-processamento de dados - Teses Text classification pipelines Pre-processing Meta-features Sparsification Selective sampling |
| topic |
Computação - Teses Aprendizado de máquina - Teses Pipelines de classificação de texto - Teses Pré-processamento de dados - Teses Text classification pipelines Pre-processing Meta-features Sparsification Selective sampling |
| description |
Pipelines de classificação de texto são uma sequência de tarefas que devem ser executadas para classificar documentos em um conjunto de categorias predefinidas. A fase de pré-processamento (antes do treinamento) desses pipelines envolve diferentes maneiras de transformar e manipular os documentos para a próxima fase (aprendizado). Nesta dissertação, apresentamos três novas etapas na fase de pré-processamento dos pipelines de classificação de texto para melhorar a eficácia e reduzir os custos associados. A etapa de geração de meta-features (MFs) baseadas em distância visa reduzir a dimensionalidade da matriz termo-documento original, enquanto produz um espaço potencialmente mais informativo, o qual explora explicitamente as informações discriminativas sobre as categorias. O segundo passo é a esparsificação que visa tornar a representação do MF menos densa para reduzir os custos de treinamento. A terceira etapa é a amostragem seletiva (SS), destinada a remover linhas (documentos) da matriz obtida na etapa anterior, selecionando cuidadosamente os “melhores” documentos para a fase de aprendizado. Nossos experimentos mostram que o pipeline de pré-processamento estendido proposto pode obter ganhos significativos em eficácia quando comparado ao TF-IDF original (até 52 %) e às representações baseadas em embeddings (até 46 %), a um custo muito menor (até 9,7x mais rápido em alguns conjuntos de dados). Outra contribuição principal é uma avaliação completa e rigorosa do trade-off entre custo e eficácia associadas à introdução dessas novas etapas no pipeline. |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-11-08 2020-05-15T17:50:19Z 2020-05-15T17:50:19Z 2025-09-09T01:12:38Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1843/33474 |
| url |
https://hdl.handle.net/1843/33474 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
| instname_str |
Universidade Federal de Minas Gerais (UFMG) |
| instacron_str |
UFMG |
| institution |
UFMG |
| reponame_str |
Repositório Institucional da UFMG |
| collection |
Repositório Institucional da UFMG |
| repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
| repository.mail.fl_str_mv |
repositorio@ufmg.br |
| _version_ |
1856414113501020160 |