A Thorough exploitation of distance-based meta-features for Automated text classification
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal de Minas Gerais
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1843/34071 |
Resumo: | Classificação Automática de Texto (CAT) têm adquirido notória importância em uma variedade de tarefas, como a categorização de notícias, organização de bibliotecas digitais, criação de diretórios da web, análise de sentimentos em conteúdos gerados por usuários e detecção de spam. Dado um conjunto de documentos de treinamento classificados em uma ou mais categorias predefinidas, a tarefa do CAT é aprender automaticamente como classificar novos documentos (não classificados), usando uma combinação de atributos desses documentos que os associam a categorias. Devido ao fato de o problema do CAt ocorrer em vários contextos, diversos algoritmos de aprendizado de máquina foram propostos para lidar com CAT.Embora o próprio algoritmo de classificação tenha um papel importante na CAT, os atributos que representam documentos podem ser igualmente importantes para determinar a eficácia da classificação. Especificamente, representar documentos em um espaço de atributos é um trabalho que precede a CAT, pois esses algoritmos de classificação são projetados para descobrir padrões discriminativos usando esses atributos. Nesse sentido, uma tarefa importante consiste em promover a manipulação espaço de atributos para abordar a CAT do ponto de vista da engenharia de dados. Nesse contexto, abordamos o problema de aprender a classificar textos de forma automática, explorando informações derivadas de meta-atributos, ou seja, atributos criados a partir da representação original dos documentos (bag of words). Particularmente, os meta-atributos explorados contam com medidas de distância capazes de sumarizar relacionamentos potencialmente complexos entre documentos e apresentar informações relevantes para classificação.Neste trabalho, não apenas propomos novos meta-atributos que fornecem evidências discriminativas para classificação, mas também novos mecanismos para analisar e selecionar meta-atributos. sentido, utilizamos estratégias multiobjetivo capazes de minimizar o número de meta-atributos e maximizar a eficácia da classificação, considerando a adequação dos meta-atributos selecionados a uma coleção de dados ou método de classificação específico. Além disso, fornecemos contribuições adicionais para aprimorar a eficiência e a eficácia da utilização de meta-atributos. Em particular, propomos o uso de GPUs (Graphical Processxiing Units) para reduzir o tempo computacional da geração de meta-atributos, o uso de aprendizado supervisionado para o enriquecimento dos relacionamentos de distância com dados rotulados, e a construção de novos meta-atributos específicos para o contexto da análise de sentimento. Nossos resultados experimentais em cinco coleções tradicionalmente usadas na classificação em tópicos mostram que, com as técnicas de seleção apropriadas, nossos metaatributos baseados em distância podem alcançar excelentes resultados de classificação considerando os resultados previamente obtidos no espaço de atributos original ou outros metaatributos baseados em distância recentemente propostos. Além disso, avançamos nossa análise experimental com a identificação e discussão de meta-atributos que, quando combinados, fornecem informações centrais para a classificação de documentos. Aprimoramentos adicionais nesses meta-atributos a partir do enriquecimento dos relacionamentos de distância com informações de rotulação proporcionaram ganhos adicionais sobre nossos melhores resultados obtidos em coleções de classificação em tópicos. Também avaliamos meta-atributos em dezenove coleções de análise de sentimento. Nesse contexto, nossas propostas para classificação de sentimento apresentaram excelentes resultados quando comparados aos metaatributos anteriores que não levam em consideração as idiossincrasias da tarefa de análise de sentimento |
| id |
UFMG_2421b23aaedb7461499385a2ff4b6065 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufmg.br:1843/34071 |
| network_acronym_str |
UFMG |
| network_name_str |
Repositório Institucional da UFMG |
| repository_id_str |
|
| spelling |
A Thorough exploitation of distance-based meta-features for Automated text classificationComputação – TesesAprendizado supervisionado.Meta característicasAprendizado de máquinaSupervised classificationText classificationMeta-featuresMachine learningClassificação Automática de Texto (CAT) têm adquirido notória importância em uma variedade de tarefas, como a categorização de notícias, organização de bibliotecas digitais, criação de diretórios da web, análise de sentimentos em conteúdos gerados por usuários e detecção de spam. Dado um conjunto de documentos de treinamento classificados em uma ou mais categorias predefinidas, a tarefa do CAT é aprender automaticamente como classificar novos documentos (não classificados), usando uma combinação de atributos desses documentos que os associam a categorias. Devido ao fato de o problema do CAt ocorrer em vários contextos, diversos algoritmos de aprendizado de máquina foram propostos para lidar com CAT.Embora o próprio algoritmo de classificação tenha um papel importante na CAT, os atributos que representam documentos podem ser igualmente importantes para determinar a eficácia da classificação. Especificamente, representar documentos em um espaço de atributos é um trabalho que precede a CAT, pois esses algoritmos de classificação são projetados para descobrir padrões discriminativos usando esses atributos. Nesse sentido, uma tarefa importante consiste em promover a manipulação espaço de atributos para abordar a CAT do ponto de vista da engenharia de dados. Nesse contexto, abordamos o problema de aprender a classificar textos de forma automática, explorando informações derivadas de meta-atributos, ou seja, atributos criados a partir da representação original dos documentos (bag of words). Particularmente, os meta-atributos explorados contam com medidas de distância capazes de sumarizar relacionamentos potencialmente complexos entre documentos e apresentar informações relevantes para classificação.Neste trabalho, não apenas propomos novos meta-atributos que fornecem evidências discriminativas para classificação, mas também novos mecanismos para analisar e selecionar meta-atributos. sentido, utilizamos estratégias multiobjetivo capazes de minimizar o número de meta-atributos e maximizar a eficácia da classificação, considerando a adequação dos meta-atributos selecionados a uma coleção de dados ou método de classificação específico. Além disso, fornecemos contribuições adicionais para aprimorar a eficiência e a eficácia da utilização de meta-atributos. Em particular, propomos o uso de GPUs (Graphical Processxiing Units) para reduzir o tempo computacional da geração de meta-atributos, o uso de aprendizado supervisionado para o enriquecimento dos relacionamentos de distância com dados rotulados, e a construção de novos meta-atributos específicos para o contexto da análise de sentimento. Nossos resultados experimentais em cinco coleções tradicionalmente usadas na classificação em tópicos mostram que, com as técnicas de seleção apropriadas, nossos metaatributos baseados em distância podem alcançar excelentes resultados de classificação considerando os resultados previamente obtidos no espaço de atributos original ou outros metaatributos baseados em distância recentemente propostos. Além disso, avançamos nossa análise experimental com a identificação e discussão de meta-atributos que, quando combinados, fornecem informações centrais para a classificação de documentos. Aprimoramentos adicionais nesses meta-atributos a partir do enriquecimento dos relacionamentos de distância com informações de rotulação proporcionaram ganhos adicionais sobre nossos melhores resultados obtidos em coleções de classificação em tópicos. Também avaliamos meta-atributos em dezenove coleções de análise de sentimento. Nesse contexto, nossas propostas para classificação de sentimento apresentaram excelentes resultados quando comparados aos metaatributos anteriores que não levam em consideração as idiossincrasias da tarefa de análise de sentimentoCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas Gerais2020-08-28T19:39:14Z2025-09-09T00:04:18Z2020-08-28T19:39:14Z2019-11-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://hdl.handle.net/1843/34071engSergio Daniel Carvalho Canutoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-09T00:04:18Zoai:repositorio.ufmg.br:1843/34071Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T00:04:18Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
| dc.title.none.fl_str_mv |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| title |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| spellingShingle |
A Thorough exploitation of distance-based meta-features for Automated text classification Sergio Daniel Carvalho Canuto Computação – Teses Aprendizado supervisionado. Meta características Aprendizado de máquina Supervised classification Text classification Meta-features Machine learning |
| title_short |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| title_full |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| title_fullStr |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| title_full_unstemmed |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| title_sort |
A Thorough exploitation of distance-based meta-features for Automated text classification |
| author |
Sergio Daniel Carvalho Canuto |
| author_facet |
Sergio Daniel Carvalho Canuto |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Sergio Daniel Carvalho Canuto |
| dc.subject.por.fl_str_mv |
Computação – Teses Aprendizado supervisionado. Meta características Aprendizado de máquina Supervised classification Text classification Meta-features Machine learning |
| topic |
Computação – Teses Aprendizado supervisionado. Meta características Aprendizado de máquina Supervised classification Text classification Meta-features Machine learning |
| description |
Classificação Automática de Texto (CAT) têm adquirido notória importância em uma variedade de tarefas, como a categorização de notícias, organização de bibliotecas digitais, criação de diretórios da web, análise de sentimentos em conteúdos gerados por usuários e detecção de spam. Dado um conjunto de documentos de treinamento classificados em uma ou mais categorias predefinidas, a tarefa do CAT é aprender automaticamente como classificar novos documentos (não classificados), usando uma combinação de atributos desses documentos que os associam a categorias. Devido ao fato de o problema do CAt ocorrer em vários contextos, diversos algoritmos de aprendizado de máquina foram propostos para lidar com CAT.Embora o próprio algoritmo de classificação tenha um papel importante na CAT, os atributos que representam documentos podem ser igualmente importantes para determinar a eficácia da classificação. Especificamente, representar documentos em um espaço de atributos é um trabalho que precede a CAT, pois esses algoritmos de classificação são projetados para descobrir padrões discriminativos usando esses atributos. Nesse sentido, uma tarefa importante consiste em promover a manipulação espaço de atributos para abordar a CAT do ponto de vista da engenharia de dados. Nesse contexto, abordamos o problema de aprender a classificar textos de forma automática, explorando informações derivadas de meta-atributos, ou seja, atributos criados a partir da representação original dos documentos (bag of words). Particularmente, os meta-atributos explorados contam com medidas de distância capazes de sumarizar relacionamentos potencialmente complexos entre documentos e apresentar informações relevantes para classificação.Neste trabalho, não apenas propomos novos meta-atributos que fornecem evidências discriminativas para classificação, mas também novos mecanismos para analisar e selecionar meta-atributos. sentido, utilizamos estratégias multiobjetivo capazes de minimizar o número de meta-atributos e maximizar a eficácia da classificação, considerando a adequação dos meta-atributos selecionados a uma coleção de dados ou método de classificação específico. Além disso, fornecemos contribuições adicionais para aprimorar a eficiência e a eficácia da utilização de meta-atributos. Em particular, propomos o uso de GPUs (Graphical Processxiing Units) para reduzir o tempo computacional da geração de meta-atributos, o uso de aprendizado supervisionado para o enriquecimento dos relacionamentos de distância com dados rotulados, e a construção de novos meta-atributos específicos para o contexto da análise de sentimento. Nossos resultados experimentais em cinco coleções tradicionalmente usadas na classificação em tópicos mostram que, com as técnicas de seleção apropriadas, nossos metaatributos baseados em distância podem alcançar excelentes resultados de classificação considerando os resultados previamente obtidos no espaço de atributos original ou outros metaatributos baseados em distância recentemente propostos. Além disso, avançamos nossa análise experimental com a identificação e discussão de meta-atributos que, quando combinados, fornecem informações centrais para a classificação de documentos. Aprimoramentos adicionais nesses meta-atributos a partir do enriquecimento dos relacionamentos de distância com informações de rotulação proporcionaram ganhos adicionais sobre nossos melhores resultados obtidos em coleções de classificação em tópicos. Também avaliamos meta-atributos em dezenove coleções de análise de sentimento. Nesse contexto, nossas propostas para classificação de sentimento apresentaram excelentes resultados quando comparados aos metaatributos anteriores que não levam em consideração as idiossincrasias da tarefa de análise de sentimento |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-11-22 2020-08-28T19:39:14Z 2020-08-28T19:39:14Z 2025-09-09T00:04:18Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1843/34071 |
| url |
https://hdl.handle.net/1843/34071 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
| instname_str |
Universidade Federal de Minas Gerais (UFMG) |
| instacron_str |
UFMG |
| institution |
UFMG |
| reponame_str |
Repositório Institucional da UFMG |
| collection |
Repositório Institucional da UFMG |
| repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
| repository.mail.fl_str_mv |
repositorio@ufmg.br |
| _version_ |
1856413941068988416 |