A Thorough exploitation of distance-based meta-features for Automated text classification

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Sergio Daniel Carvalho Canuto
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/34071
Resumo: Classificação Automática de Texto (CAT) têm adquirido notória importância em uma variedade de tarefas, como a categorização de notícias, organização de bibliotecas digitais, criação de diretórios da web, análise de sentimentos em conteúdos gerados por usuários e detecção de spam. Dado um conjunto de documentos de treinamento classificados em uma ou mais categorias predefinidas, a tarefa do CAT é aprender automaticamente como classificar novos documentos (não classificados), usando uma combinação de atributos desses documentos que os associam a categorias. Devido ao fato de o problema do CAt ocorrer em vários contextos, diversos algoritmos de aprendizado de máquina foram propostos para lidar com CAT.Embora o próprio algoritmo de classificação tenha um papel importante na CAT, os atributos que representam documentos podem ser igualmente importantes para determinar a eficácia da classificação. Especificamente, representar documentos em um espaço de atributos é um trabalho que precede a CAT, pois esses algoritmos de classificação são projetados para descobrir padrões discriminativos usando esses atributos. Nesse sentido, uma tarefa importante consiste em promover a manipulação espaço de atributos para abordar a CAT do ponto de vista da engenharia de dados. Nesse contexto, abordamos o problema de aprender a classificar textos de forma automática, explorando informações derivadas de meta-atributos, ou seja, atributos criados a partir da representação original dos documentos (bag of words). Particularmente, os meta-atributos explorados contam com medidas de distância capazes de sumarizar relacionamentos potencialmente complexos entre documentos e apresentar informações relevantes para classificação.Neste trabalho, não apenas propomos novos meta-atributos que fornecem evidências discriminativas para classificação, mas também novos mecanismos para analisar e selecionar meta-atributos. sentido, utilizamos estratégias multiobjetivo capazes de minimizar o número de meta-atributos e maximizar a eficácia da classificação, considerando a adequação dos meta-atributos selecionados a uma coleção de dados ou método de classificação específico. Além disso, fornecemos contribuições adicionais para aprimorar a eficiência e a eficácia da utilização de meta-atributos. Em particular, propomos o uso de GPUs (Graphical Processxiing Units) para reduzir o tempo computacional da geração de meta-atributos, o uso de aprendizado supervisionado para o enriquecimento dos relacionamentos de distância com dados rotulados, e a construção de novos meta-atributos específicos para o contexto da análise de sentimento. Nossos resultados experimentais em cinco coleções tradicionalmente usadas na classificação em tópicos mostram que, com as técnicas de seleção apropriadas, nossos metaatributos baseados em distância podem alcançar excelentes resultados de classificação considerando os resultados previamente obtidos no espaço de atributos original ou outros metaatributos baseados em distância recentemente propostos. Além disso, avançamos nossa análise experimental com a identificação e discussão de meta-atributos que, quando combinados, fornecem informações centrais para a classificação de documentos. Aprimoramentos adicionais nesses meta-atributos a partir do enriquecimento dos relacionamentos de distância com informações de rotulação proporcionaram ganhos adicionais sobre nossos melhores resultados obtidos em coleções de classificação em tópicos. Também avaliamos meta-atributos em dezenove coleções de análise de sentimento. Nesse contexto, nossas propostas para classificação de sentimento apresentaram excelentes resultados quando comparados aos metaatributos anteriores que não levam em consideração as idiossincrasias da tarefa de análise de sentimento
id UFMG_2421b23aaedb7461499385a2ff4b6065
oai_identifier_str oai:repositorio.ufmg.br:1843/34071
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling A Thorough exploitation of distance-based meta-features for Automated text classificationComputação – TesesAprendizado supervisionado.Meta característicasAprendizado de máquinaSupervised classificationText classificationMeta-featuresMachine learningClassificação Automática de Texto (CAT) têm adquirido notória importância em uma variedade de tarefas, como a categorização de notícias, organização de bibliotecas digitais, criação de diretórios da web, análise de sentimentos em conteúdos gerados por usuários e detecção de spam. Dado um conjunto de documentos de treinamento classificados em uma ou mais categorias predefinidas, a tarefa do CAT é aprender automaticamente como classificar novos documentos (não classificados), usando uma combinação de atributos desses documentos que os associam a categorias. Devido ao fato de o problema do CAt ocorrer em vários contextos, diversos algoritmos de aprendizado de máquina foram propostos para lidar com CAT.Embora o próprio algoritmo de classificação tenha um papel importante na CAT, os atributos que representam documentos podem ser igualmente importantes para determinar a eficácia da classificação. Especificamente, representar documentos em um espaço de atributos é um trabalho que precede a CAT, pois esses algoritmos de classificação são projetados para descobrir padrões discriminativos usando esses atributos. Nesse sentido, uma tarefa importante consiste em promover a manipulação espaço de atributos para abordar a CAT do ponto de vista da engenharia de dados. Nesse contexto, abordamos o problema de aprender a classificar textos de forma automática, explorando informações derivadas de meta-atributos, ou seja, atributos criados a partir da representação original dos documentos (bag of words). Particularmente, os meta-atributos explorados contam com medidas de distância capazes de sumarizar relacionamentos potencialmente complexos entre documentos e apresentar informações relevantes para classificação.Neste trabalho, não apenas propomos novos meta-atributos que fornecem evidências discriminativas para classificação, mas também novos mecanismos para analisar e selecionar meta-atributos. sentido, utilizamos estratégias multiobjetivo capazes de minimizar o número de meta-atributos e maximizar a eficácia da classificação, considerando a adequação dos meta-atributos selecionados a uma coleção de dados ou método de classificação específico. Além disso, fornecemos contribuições adicionais para aprimorar a eficiência e a eficácia da utilização de meta-atributos. Em particular, propomos o uso de GPUs (Graphical Processxiing Units) para reduzir o tempo computacional da geração de meta-atributos, o uso de aprendizado supervisionado para o enriquecimento dos relacionamentos de distância com dados rotulados, e a construção de novos meta-atributos específicos para o contexto da análise de sentimento. Nossos resultados experimentais em cinco coleções tradicionalmente usadas na classificação em tópicos mostram que, com as técnicas de seleção apropriadas, nossos metaatributos baseados em distância podem alcançar excelentes resultados de classificação considerando os resultados previamente obtidos no espaço de atributos original ou outros metaatributos baseados em distância recentemente propostos. Além disso, avançamos nossa análise experimental com a identificação e discussão de meta-atributos que, quando combinados, fornecem informações centrais para a classificação de documentos. Aprimoramentos adicionais nesses meta-atributos a partir do enriquecimento dos relacionamentos de distância com informações de rotulação proporcionaram ganhos adicionais sobre nossos melhores resultados obtidos em coleções de classificação em tópicos. Também avaliamos meta-atributos em dezenove coleções de análise de sentimento. Nesse contexto, nossas propostas para classificação de sentimento apresentaram excelentes resultados quando comparados aos metaatributos anteriores que não levam em consideração as idiossincrasias da tarefa de análise de sentimentoCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas Gerais2020-08-28T19:39:14Z2025-09-09T00:04:18Z2020-08-28T19:39:14Z2019-11-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://hdl.handle.net/1843/34071engSergio Daniel Carvalho Canutoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-09T00:04:18Zoai:repositorio.ufmg.br:1843/34071Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T00:04:18Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv A Thorough exploitation of distance-based meta-features for Automated text classification
title A Thorough exploitation of distance-based meta-features for Automated text classification
spellingShingle A Thorough exploitation of distance-based meta-features for Automated text classification
Sergio Daniel Carvalho Canuto
Computação – Teses
Aprendizado supervisionado.
Meta características
Aprendizado de máquina
Supervised classification
Text classification
Meta-features
Machine learning
title_short A Thorough exploitation of distance-based meta-features for Automated text classification
title_full A Thorough exploitation of distance-based meta-features for Automated text classification
title_fullStr A Thorough exploitation of distance-based meta-features for Automated text classification
title_full_unstemmed A Thorough exploitation of distance-based meta-features for Automated text classification
title_sort A Thorough exploitation of distance-based meta-features for Automated text classification
author Sergio Daniel Carvalho Canuto
author_facet Sergio Daniel Carvalho Canuto
author_role author
dc.contributor.author.fl_str_mv Sergio Daniel Carvalho Canuto
dc.subject.por.fl_str_mv Computação – Teses
Aprendizado supervisionado.
Meta características
Aprendizado de máquina
Supervised classification
Text classification
Meta-features
Machine learning
topic Computação – Teses
Aprendizado supervisionado.
Meta características
Aprendizado de máquina
Supervised classification
Text classification
Meta-features
Machine learning
description Classificação Automática de Texto (CAT) têm adquirido notória importância em uma variedade de tarefas, como a categorização de notícias, organização de bibliotecas digitais, criação de diretórios da web, análise de sentimentos em conteúdos gerados por usuários e detecção de spam. Dado um conjunto de documentos de treinamento classificados em uma ou mais categorias predefinidas, a tarefa do CAT é aprender automaticamente como classificar novos documentos (não classificados), usando uma combinação de atributos desses documentos que os associam a categorias. Devido ao fato de o problema do CAt ocorrer em vários contextos, diversos algoritmos de aprendizado de máquina foram propostos para lidar com CAT.Embora o próprio algoritmo de classificação tenha um papel importante na CAT, os atributos que representam documentos podem ser igualmente importantes para determinar a eficácia da classificação. Especificamente, representar documentos em um espaço de atributos é um trabalho que precede a CAT, pois esses algoritmos de classificação são projetados para descobrir padrões discriminativos usando esses atributos. Nesse sentido, uma tarefa importante consiste em promover a manipulação espaço de atributos para abordar a CAT do ponto de vista da engenharia de dados. Nesse contexto, abordamos o problema de aprender a classificar textos de forma automática, explorando informações derivadas de meta-atributos, ou seja, atributos criados a partir da representação original dos documentos (bag of words). Particularmente, os meta-atributos explorados contam com medidas de distância capazes de sumarizar relacionamentos potencialmente complexos entre documentos e apresentar informações relevantes para classificação.Neste trabalho, não apenas propomos novos meta-atributos que fornecem evidências discriminativas para classificação, mas também novos mecanismos para analisar e selecionar meta-atributos. sentido, utilizamos estratégias multiobjetivo capazes de minimizar o número de meta-atributos e maximizar a eficácia da classificação, considerando a adequação dos meta-atributos selecionados a uma coleção de dados ou método de classificação específico. Além disso, fornecemos contribuições adicionais para aprimorar a eficiência e a eficácia da utilização de meta-atributos. Em particular, propomos o uso de GPUs (Graphical Processxiing Units) para reduzir o tempo computacional da geração de meta-atributos, o uso de aprendizado supervisionado para o enriquecimento dos relacionamentos de distância com dados rotulados, e a construção de novos meta-atributos específicos para o contexto da análise de sentimento. Nossos resultados experimentais em cinco coleções tradicionalmente usadas na classificação em tópicos mostram que, com as técnicas de seleção apropriadas, nossos metaatributos baseados em distância podem alcançar excelentes resultados de classificação considerando os resultados previamente obtidos no espaço de atributos original ou outros metaatributos baseados em distância recentemente propostos. Além disso, avançamos nossa análise experimental com a identificação e discussão de meta-atributos que, quando combinados, fornecem informações centrais para a classificação de documentos. Aprimoramentos adicionais nesses meta-atributos a partir do enriquecimento dos relacionamentos de distância com informações de rotulação proporcionaram ganhos adicionais sobre nossos melhores resultados obtidos em coleções de classificação em tópicos. Também avaliamos meta-atributos em dezenove coleções de análise de sentimento. Nesse contexto, nossas propostas para classificação de sentimento apresentaram excelentes resultados quando comparados aos metaatributos anteriores que não levam em consideração as idiossincrasias da tarefa de análise de sentimento
publishDate 2019
dc.date.none.fl_str_mv 2019-11-22
2020-08-28T19:39:14Z
2020-08-28T19:39:14Z
2025-09-09T00:04:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/34071
url https://hdl.handle.net/1843/34071
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1856413941068988416