Análise de algoritmos de agrupamento para base de dados textuais

Almeida, Luiz Gonzaga Paula de

Análise de algoritmos de agrupamento para base de dados textuais

Detalhes bibliográficos
Ano de defesa:	2007
Autor(a) principal:	Almeida, Luiz Gonzaga Paula de
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Laboratório Nacional de Computação Científica Serviço de Análise e Apoio a Formação de Recursos Humanos BR LNCC Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Análise por agrupamento Seleção de características Mineração de textos Clustering analysis Feature selection Text mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
Link de acesso:	https://tede.lncc.br/handle/tede/75
Resumo:	O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características.

Metadados do item

id	LNCC_8d9dc72ae5711cb318a779b447d095f7
oai_identifier_str	oai:tede-server.lncc.br:tede/75
network_acronym_str	LNCC
network_name_str	Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling	Análise de algoritmos de agrupamento para base de dados textuaisAnalysis of the clustering algorithms for the databasesAnálise por agrupamentoSeleção de característicasMineração de textosClustering analysisFeature selectionText miningCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAOO volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características.The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access. The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms. This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning.Laboratório Nacional de Computação CientíficaServiço de Análise e Apoio a Formação de Recursos HumanosBRLNCCPrograma de Pós-Graduação em Modelagem ComputacionalVasconcelos, Ana Tereza RibeiroCPF:81737963787http://lattes.cnpq.br/8989199088323836Maia, Marco Antonio Grivet Mattosohtta://lattes.cnpq.br/2519031892464448Baczynski, JackCPF:33304165720http://lattes.cnpq.br/2332051647489024Carvalho, Alexandre Plastino dehttp://lattes.cnpq.br/4985266524417261Almeida, Luiz Gonzaga Paula de2015-03-04T18:50:55Z2008-04-172007-08-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfALMEIDA, Luiz Gonzaga Paula de. Análise de algoritmos de agrupamento para base de dados textuais. 2007. 139 f. Dissertação (Mestrado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2007.https://tede.lncc.br/handle/tede/75porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-05-18T14:40:55Zoai:tede-server.lncc.br:tede/75Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br\|\|library@lncc.bropendoar:2023-05-18T14:40:55Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv	Análise de algoritmos de agrupamento para base de dados textuais Analysis of the clustering algorithms for the databases
title	Análise de algoritmos de agrupamento para base de dados textuais
spellingShingle	Análise de algoritmos de agrupamento para base de dados textuais Almeida, Luiz Gonzaga Paula de Análise por agrupamento Seleção de características Mineração de textos Clustering analysis Feature selection Text mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
title_short	Análise de algoritmos de agrupamento para base de dados textuais
title_full	Análise de algoritmos de agrupamento para base de dados textuais
title_fullStr	Análise de algoritmos de agrupamento para base de dados textuais
title_full_unstemmed	Análise de algoritmos de agrupamento para base de dados textuais
title_sort	Análise de algoritmos de agrupamento para base de dados textuais
author	Almeida, Luiz Gonzaga Paula de
author_facet	Almeida, Luiz Gonzaga Paula de
author_role	author
dc.contributor.none.fl_str_mv	Vasconcelos, Ana Tereza Ribeiro CPF:81737963787 http://lattes.cnpq.br/8989199088323836 Maia, Marco Antonio Grivet Mattoso htta://lattes.cnpq.br/2519031892464448 Baczynski, Jack CPF:33304165720 http://lattes.cnpq.br/2332051647489024 Carvalho, Alexandre Plastino de http://lattes.cnpq.br/4985266524417261
dc.contributor.author.fl_str_mv	Almeida, Luiz Gonzaga Paula de
dc.subject.por.fl_str_mv	Análise por agrupamento Seleção de características Mineração de textos Clustering analysis Feature selection Text mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
topic	Análise por agrupamento Seleção de características Mineração de textos Clustering analysis Feature selection Text mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
description	O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características.
publishDate	2007
dc.date.none.fl_str_mv	2007-08-31 2008-04-17 2015-03-04T18:50:55Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	ALMEIDA, Luiz Gonzaga Paula de. Análise de algoritmos de agrupamento para base de dados textuais. 2007. 139 f. Dissertação (Mestrado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2007. https://tede.lncc.br/handle/tede/75
identifier_str_mv	ALMEIDA, Luiz Gonzaga Paula de. Análise de algoritmos de agrupamento para base de dados textuais. 2007. 139 f. Dissertação (Mestrado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2007.
url	https://tede.lncc.br/handle/tede/75
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Laboratório Nacional de Computação Científica Serviço de Análise e Apoio a Formação de Recursos Humanos BR LNCC Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv	Laboratório Nacional de Computação Científica Serviço de Análise e Apoio a Formação de Recursos Humanos BR LNCC Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC
instname_str	Laboratório Nacional de Computação Científica (LNCC)
instacron_str	LNCC
institution	LNCC
reponame_str	Biblioteca Digital de Teses e Dissertações do LNCC
collection	Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv	library@lncc.br\|\|library@lncc.br
_version_	1832738026353065984

Análise de algoritmos de agrupamento para base de dados textuais

Registros relacionados