Efeitos temporais em classificação de textos: caracterização e engenharia de dados

Renata Braga Araujo

Efeitos temporais em classificação de textos: caracterização e engenharia de dados

Detalhes bibliográficos
Ano de defesa:	2008
Autor(a) principal:	Renata Braga Araujo
Orientador(a):	Wagner Meira Junior
Banca de defesa:	Gisele Lobo Pappa, Alberto F. de Souza
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Minas Gerais
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Análise Temporal
Link de acesso:	http://hdl.handle.net/1843/SLSS-8CEG6C
Resumo:	A Classificação Automática de Documentos (CAD) tem se tornado um tópico de pesquisa importante devido à crescente quantidade de informação disponível na Internet. A CAD normalmente segue uma estratégia de aprendizado supervisionada, em que, primeiramente, um modelo de classificação é construído utilizando documentos pré-classificados e, em seguida, esse modelo é utilizado para classificar novos documentos. Um grande desafio para a CAD, em diversos cenários, é que as características dos documentos e das classes às quais eles pertencem podem mudar ao longo do tempo. Entretanto, a maioria das técnicas recentes para a CAD sãoaplicadas sem considerar a evolução temporal da coleção de documentos.Neste trabalho, caracterizamos detalhadamente a evolução temporal na CAD, com base em uma metodologia de análise dos efeitos temporais, e propomos estratégias de engenharia de dados para tratar esses efeitos. Na metodologia de análise, foi mostrado que a evolução temporal pode serexplicada por três fatores: distribuição de classes, distribuição de termos e similaridade de classes. Aplicamos também metodologias experimentais e métricas capazes de isolar cada um desses fatores para que eles sejam analisados separadamente. Além disso, apresentamos estratégias de engenhariade dados que incorporam os aspectos temporais nas bases, através dos processos de filtragem e transformação dos dados. Enquanto a filtragem de dados envolve apenas uma seleção dos documentos que devem compor o conjunto de treino, a transformação dos dados envolve um processo de modificaçãodos termos dos documentos da base de dados, atribuindo a eles um novo rótulo de forma a incorporar os aspectos temporais. Através da estratégia exaustiva de filtragem, mostramos que, utilizando apenas 69% da base dedados da ACM, foi possível obter uma acurácia de 89,76%, e com apenas 25% da coleção MedLine, uma acurácia de 87,57%. Isso significa um ganho de até 20% na eficácia do classificador, com conjuntos de treino muito menores do que a base de dados inteira. Entretanto, sabemos que utilizar tal estratégia em cenários reais é inviável. Por outro lado, com nossas estratégias de transformação de dados, obtivemos um ganho de até 6,5% na acurácia do processo de classificação, sendo essas estratégias aplicáveis em cenários reais e extensíveis à utilização de outros algoritmos.

Metadados do item

id	UFMG_7dcbda09691a84b43dfb1d1664d188f1
oai_identifier_str	oai:repositorio.ufmg.br:1843/SLSS-8CEG6C
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Wagner Meira JuniorMarcos Andre GoncalvesGisele Lobo PappaAlberto F. de SouzaRenata Braga Araujo2019-08-09T15:41:13Z2019-08-09T15:41:13Z2008-12-04http://hdl.handle.net/1843/SLSS-8CEG6CA Classificação Automática de Documentos (CAD) tem se tornado um tópico de pesquisa importante devido à crescente quantidade de informação disponível na Internet. A CAD normalmente segue uma estratégia de aprendizado supervisionada, em que, primeiramente, um modelo de classificação é construído utilizando documentos pré-classificados e, em seguida, esse modelo é utilizado para classificar novos documentos. Um grande desafio para a CAD, em diversos cenários, é que as características dos documentos e das classes às quais eles pertencem podem mudar ao longo do tempo. Entretanto, a maioria das técnicas recentes para a CAD sãoaplicadas sem considerar a evolução temporal da coleção de documentos.Neste trabalho, caracterizamos detalhadamente a evolução temporal na CAD, com base em uma metodologia de análise dos efeitos temporais, e propomos estratégias de engenharia de dados para tratar esses efeitos. Na metodologia de análise, foi mostrado que a evolução temporal pode serexplicada por três fatores: distribuição de classes, distribuição de termos e similaridade de classes. Aplicamos também metodologias experimentais e métricas capazes de isolar cada um desses fatores para que eles sejam analisados separadamente. Além disso, apresentamos estratégias de engenhariade dados que incorporam os aspectos temporais nas bases, através dos processos de filtragem e transformação dos dados. Enquanto a filtragem de dados envolve apenas uma seleção dos documentos que devem compor o conjunto de treino, a transformação dos dados envolve um processo de modificaçãodos termos dos documentos da base de dados, atribuindo a eles um novo rótulo de forma a incorporar os aspectos temporais. Através da estratégia exaustiva de filtragem, mostramos que, utilizando apenas 69% da base dedados da ACM, foi possível obter uma acurácia de 89,76%, e com apenas 25% da coleção MedLine, uma acurácia de 87,57%. Isso significa um ganho de até 20% na eficácia do classificador, com conjuntos de treino muito menores do que a base de dados inteira. Entretanto, sabemos que utilizar tal estratégia em cenários reais é inviável. Por outro lado, com nossas estratégias de transformação de dados, obtivemos um ganho de até 6,5% na acurácia do processo de classificação, sendo essas estratégias aplicáveis em cenários reais e extensíveis à utilização de outros algoritmos.The Automatic Document Classification (ADC) has become an important research topicdue to the increasing amount of information available on the Internet. ADC usuallyfollows a standard supervised learning strategy, in which we first build a classificationmodel using pre-classified documents and then this model is used to classify new documents.One major challenge for ADC in many scenarios is that the characteristics ofthe documents and the classes to which they belong may change over time. However,most of the current techniques for ADC are applied without taking into account thetemporal evolution of the collection of documents.In this work, we characterize the temporal evolution in ADC in details, based onan analysis methodology for the temporal effects, and we propose data engineeringstrategies to deal with these effects. In the analysis methodology, we show that thetemporal evolution may be explained by three factors: class distribution, term distributionand class similarity. We employ experimental methodologies and metrics capableof isolating each of these factors in order to analyze them separately. Moreover, wepresent some data engineering strategies that incorporate the temporal aspects in thedatabases, through processes of data filtering and transformation. While data filteringconsists of selecting the documents that will be part of the training set, data transformationis a process in which the terms of the documents in the database are changed,assigning them a new label that will somehow incorporate the temporal aspects.Using an exhaustive filtering strategy, we showed that, with only 69% of the ACMdatabase, we are able to have an accuracy of 89.76%, and with only 25% of the MedLine,an accuracy of 87.57%, which means gains of up to 20% in the accuracy with muchsmaller training sets than the entire database. However, we know that this strategyis not feasible in real scenarios. On the other hand, with our data transformationstrategies, we obtained a gain of up to 6.5% in the accuracy, and these strategies mayme applied in real scenarios and even extended to the use of other algorithms.Universidade Federal de Minas GeraisUFMGBanco de dadosComputaçãoRecuperação de informaçãoMineração de dados (Computação)Análise TemporalEfeitos temporais em classificação de textos: caracterização e engenharia de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALrenataaraujo.pdfapplication/pdf1185292https://repositorio.ufmg.br/bitstream/1843/SLSS-8CEG6C/1/renataaraujo.pdf668c773aa833b330fac0d3bd18bc660aMD51TEXTrenataaraujo.pdf.txtrenataaraujo.pdf.txtExtracted texttext/plain211783https://repositorio.ufmg.br/bitstream/1843/SLSS-8CEG6C/2/renataaraujo.pdf.txtf75e46f4938203dd2aa49d6d29e5ca65MD521843/SLSS-8CEG6C2019-11-14 03:07:03.048oai:repositorio.ufmg.br:1843/SLSS-8CEG6CRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T06:07:03Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
title	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
spellingShingle	Efeitos temporais em classificação de textos: caracterização e engenharia de dados Renata Braga Araujo Análise Temporal Banco de dados Computação Recuperação de informação Mineração de dados (Computação)
title_short	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
title_full	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
title_fullStr	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
title_full_unstemmed	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
title_sort	Efeitos temporais em classificação de textos: caracterização e engenharia de dados
author	Renata Braga Araujo
author_facet	Renata Braga Araujo
author_role	author
dc.contributor.advisor1.fl_str_mv	Wagner Meira Junior
dc.contributor.advisor-co1.fl_str_mv	Marcos Andre Goncalves
dc.contributor.referee1.fl_str_mv	Gisele Lobo Pappa
dc.contributor.referee2.fl_str_mv	Alberto F. de Souza
dc.contributor.author.fl_str_mv	Renata Braga Araujo
contributor_str_mv	Wagner Meira Junior Marcos Andre Goncalves Gisele Lobo Pappa Alberto F. de Souza
dc.subject.por.fl_str_mv	Análise Temporal
topic	Análise Temporal Banco de dados Computação Recuperação de informação Mineração de dados (Computação)
dc.subject.other.pt_BR.fl_str_mv	Banco de dados Computação Recuperação de informação Mineração de dados (Computação)
description	A Classificação Automática de Documentos (CAD) tem se tornado um tópico de pesquisa importante devido à crescente quantidade de informação disponível na Internet. A CAD normalmente segue uma estratégia de aprendizado supervisionada, em que, primeiramente, um modelo de classificação é construído utilizando documentos pré-classificados e, em seguida, esse modelo é utilizado para classificar novos documentos. Um grande desafio para a CAD, em diversos cenários, é que as características dos documentos e das classes às quais eles pertencem podem mudar ao longo do tempo. Entretanto, a maioria das técnicas recentes para a CAD sãoaplicadas sem considerar a evolução temporal da coleção de documentos.Neste trabalho, caracterizamos detalhadamente a evolução temporal na CAD, com base em uma metodologia de análise dos efeitos temporais, e propomos estratégias de engenharia de dados para tratar esses efeitos. Na metodologia de análise, foi mostrado que a evolução temporal pode serexplicada por três fatores: distribuição de classes, distribuição de termos e similaridade de classes. Aplicamos também metodologias experimentais e métricas capazes de isolar cada um desses fatores para que eles sejam analisados separadamente. Além disso, apresentamos estratégias de engenhariade dados que incorporam os aspectos temporais nas bases, através dos processos de filtragem e transformação dos dados. Enquanto a filtragem de dados envolve apenas uma seleção dos documentos que devem compor o conjunto de treino, a transformação dos dados envolve um processo de modificaçãodos termos dos documentos da base de dados, atribuindo a eles um novo rótulo de forma a incorporar os aspectos temporais. Através da estratégia exaustiva de filtragem, mostramos que, utilizando apenas 69% da base dedados da ACM, foi possível obter uma acurácia de 89,76%, e com apenas 25% da coleção MedLine, uma acurácia de 87,57%. Isso significa um ganho de até 20% na eficácia do classificador, com conjuntos de treino muito menores do que a base de dados inteira. Entretanto, sabemos que utilizar tal estratégia em cenários reais é inviável. Por outro lado, com nossas estratégias de transformação de dados, obtivemos um ganho de até 6,5% na acurácia do processo de classificação, sendo essas estratégias aplicáveis em cenários reais e extensíveis à utilização de outros algoritmos.
publishDate	2008
dc.date.issued.fl_str_mv	2008-12-04
dc.date.accessioned.fl_str_mv	2019-08-09T15:41:13Z
dc.date.available.fl_str_mv	2019-08-09T15:41:13Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/SLSS-8CEG6C
url	http://hdl.handle.net/1843/SLSS-8CEG6C
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/SLSS-8CEG6C/1/renataaraujo.pdf https://repositorio.ufmg.br/bitstream/1843/SLSS-8CEG6C/2/renataaraujo.pdf.txt
bitstream.checksum.fl_str_mv	668c773aa833b330fac0d3bd18bc660a f75e46f4938203dd2aa49d6d29e5ca65
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1797973307935424512

Efeitos temporais em classificação de textos: caracterização e engenharia de dados

Registros relacionados