Um método para extração de palavras-chave de documentos representados em grafos

Abilhoa, Willyan Daniel

Um método para extração de palavras-chave de documentos representados em grafos

Detalhes bibliográficos
Ano de defesa:	2014
Autor(a) principal:	Abilhoa, Willyan Daniel
Orientador(a):	Silva, Leandro Nunes de Castro
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	mineração de textos representação de textos em grafo extração de palavras-chave medidas de centralidade
Palavras-chave em Inglês:	text mining text representation in graphs keyword extraction centrality measures
Área do conhecimento CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Link de acesso:	http://dspace.mackenzie.br/handle/10899/24351
Resumo:	O Twitter é um serviço de microblog que gera um grande volume de dados textuais. Todo esse conteúdo precisa ser explorado por meio de técnicas de mineração de textos, processamento de linguagem natural e recuperação de informação com o objetivo de extrair um conhecimento que seja útil de alguma forma ou em algum processo. Nesse contexto, a extração automática de palavras-chave é uma tarefa que pode ser usada para a indexação, sumarização e compreensão de documentos. Um passo fundamental nas técnicas de mineração de textos consiste em construir um modelo de representação de documentos. O modelo chamado mode-lo de espaço vetorial, VSM, é o mais conhecido e utilizado dentre essas técnicas. No entanto, algumas dificuldades e limitações do VSM, tais como escalabilidade e esparsidade, motivam a proposta de abordagens alternativas. O presente trabalho propõe o método TKG (Twitter Keyword Graph) de extração de palavras-chave de coleções de tweets que representa textos como grafos e aplica medidas de centralidade para encontrar vértices relevantes, correspondentes às palavras-chave. Para medir o desempenho da abordagem proposta, dois diferentes experimentos são realizados e comparações com TF-IDF e KEA são feitas, tendo classifica-ções humanas como referência. Os experimentos realizados mostraram que algumas variações do TKG são superiores a outras e também aos algoritmos usados para comparação.

Metadados do item

id	UPM_786b6282c7ad027dba9abfb447cb6475
oai_identifier_str	oai:dspace.mackenzie.br:10899/24351
network_acronym_str	UPM
network_name_str	Repositório Digital do Mackenzie
repository_id_str
spelling	Abilhoa, Willyan Danielhttp://lattes.cnpq.br/2741458816539568Silva, Leandro Nunes de Castrohttp://lattes.cnpq.br/92598596264701722016-03-15T19:37:48Z2020-05-28T18:08:35Z2014-06-302020-05-28T18:08:35Z2014-02-05ABILHOA, Willyan Daniel. Um método para extração de palavras-chave de documentos representados em grafos. 2014. 87 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2014.http://dspace.mackenzie.br/handle/10899/24351O Twitter é um serviço de microblog que gera um grande volume de dados textuais. Todo esse conteúdo precisa ser explorado por meio de técnicas de mineração de textos, processamento de linguagem natural e recuperação de informação com o objetivo de extrair um conhecimento que seja útil de alguma forma ou em algum processo. Nesse contexto, a extração automática de palavras-chave é uma tarefa que pode ser usada para a indexação, sumarização e compreensão de documentos. Um passo fundamental nas técnicas de mineração de textos consiste em construir um modelo de representação de documentos. O modelo chamado mode-lo de espaço vetorial, VSM, é o mais conhecido e utilizado dentre essas técnicas. No entanto, algumas dificuldades e limitações do VSM, tais como escalabilidade e esparsidade, motivam a proposta de abordagens alternativas. O presente trabalho propõe o método TKG (Twitter Keyword Graph) de extração de palavras-chave de coleções de tweets que representa textos como grafos e aplica medidas de centralidade para encontrar vértices relevantes, correspondentes às palavras-chave. Para medir o desempenho da abordagem proposta, dois diferentes experimentos são realizados e comparações com TF-IDF e KEA são feitas, tendo classifica-ções humanas como referência. Os experimentos realizados mostraram que algumas variações do TKG são superiores a outras e também aos algoritmos usados para comparação.Twitter is a microblog service that generates a huge amount of textual content daily. All this content needs to be explored by means of techniques, such as text mining, natural language processing and information retrieval. In this context, the automatic keyword extraction is a task of great usefulness that can be applied to indexing, summarization and knowledge extrac-tion from texts. A fundamental step in text mining consists of building a text representation model. The model known as vector space model, VSM, is the most well-known and used among these techniques. However, some difficulties and limitations of VSM, such as scalabil-ity and sparsity, motivate the proposal of alternative approaches. This dissertation proposes a keyword extraction method, called TKG (Twitter Keyword Graph), for tweet collections that represents texts as graphs and applies centrality measures for finding the relevant vertices (keywords). To assess the performance of the proposed approach, two different sets of exper-iments are performed and comparisons with TF-IDF and KEA are made, having human clas-sifications as benchmarks. The experiments performed showed that some variations of TKG are invariably superior to others and to the algorithms used for comparisons.Fundação de Amparo a Pesquisa do Estado de São Pauloapplication/pdfporUniversidade Presbiteriana Mackenziemineração de textosrepresentação de textos em grafoextração de palavras-chavemedidas de centralidadetext miningtext representation in graphskeyword extractioncentrality measuresCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAUm método para extração de palavras-chave de documentos representados em grafosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://tede.mackenzie.br/jspui/retrieve/3853/Willyan%20Daniel%20Abilhoa.pdf.jpginfo:eu-repo/semantics/openAccessreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEOliveira, Pedro Paulo Balbi dehttp://lattes.cnpq.br/9556738277476279Omar, Nizamhttp://lattes.cnpq.br/2067336430076971Carvalho, Marco Antônio Garcia deFrança, Fabricio Olivetti dehttp://lattes.cnpq.br/6366443994619479http://lattes.cnpq.br/8788356220698686BREngenharia ElétricaUPMEngenharia ElétricaORIGINALWillyan Daniel Abilhoa.pdfWillyan Daniel Abilhoa.pdfapplication/pdf1956668https://dspace.mackenzie.br/bitstreams/866f0bd0-4056-4f43-adb2-beda4c3f1f14/downloada2284f19a87052d03ab5023248d40c6eMD51trueAnonymousREADTEXTWillyan Daniel Abilhoa.pdf.txtWillyan Daniel Abilhoa.pdf.txtExtracted texttext/plain168802https://dspace.mackenzie.br/bitstreams/59d5ffe9-abef-4c6c-916c-ea38f1d3d293/download6d861b2982a202ebedda93fdccbcda3bMD52falseAnonymousREADTHUMBNAILWillyan Daniel Abilhoa.pdf.jpgWillyan Daniel Abilhoa.pdf.jpgGenerated Thumbnailimage/jpeg1193https://dspace.mackenzie.br/bitstreams/ade0ac96-8eb5-4d96-b8e0-4dec4d1caa16/downloadf73b171b7ea30f914fe9888955406309MD53falseAnonymousREAD10899/243512022-03-14T21:01:33.172Zopen.accessoai:dspace.mackenzie.br:10899/24351https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br\|\|paola.damato@mackenzie.bropendoar:102772022-03-14T21:01:33Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)false
dc.title.por.fl_str_mv	Um método para extração de palavras-chave de documentos representados em grafos
title	Um método para extração de palavras-chave de documentos representados em grafos
spellingShingle	Um método para extração de palavras-chave de documentos representados em grafos Abilhoa, Willyan Daniel mineração de textos representação de textos em grafo extração de palavras-chave medidas de centralidade text mining text representation in graphs keyword extraction centrality measures CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
title_short	Um método para extração de palavras-chave de documentos representados em grafos
title_full	Um método para extração de palavras-chave de documentos representados em grafos
title_fullStr	Um método para extração de palavras-chave de documentos representados em grafos
title_full_unstemmed	Um método para extração de palavras-chave de documentos representados em grafos
title_sort	Um método para extração de palavras-chave de documentos representados em grafos
author	Abilhoa, Willyan Daniel
author_facet	Abilhoa, Willyan Daniel
author_role	author
dc.contributor.author.fl_str_mv	Abilhoa, Willyan Daniel
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/2741458816539568
dc.contributor.advisor1.fl_str_mv	Silva, Leandro Nunes de Castro
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/9259859626470172
contributor_str_mv	Silva, Leandro Nunes de Castro
dc.subject.por.fl_str_mv	mineração de textos representação de textos em grafo extração de palavras-chave medidas de centralidade
topic	mineração de textos representação de textos em grafo extração de palavras-chave medidas de centralidade text mining text representation in graphs keyword extraction centrality measures CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
dc.subject.eng.fl_str_mv	text mining text representation in graphs keyword extraction centrality measures
dc.subject.cnpq.fl_str_mv	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
description	O Twitter é um serviço de microblog que gera um grande volume de dados textuais. Todo esse conteúdo precisa ser explorado por meio de técnicas de mineração de textos, processamento de linguagem natural e recuperação de informação com o objetivo de extrair um conhecimento que seja útil de alguma forma ou em algum processo. Nesse contexto, a extração automática de palavras-chave é uma tarefa que pode ser usada para a indexação, sumarização e compreensão de documentos. Um passo fundamental nas técnicas de mineração de textos consiste em construir um modelo de representação de documentos. O modelo chamado mode-lo de espaço vetorial, VSM, é o mais conhecido e utilizado dentre essas técnicas. No entanto, algumas dificuldades e limitações do VSM, tais como escalabilidade e esparsidade, motivam a proposta de abordagens alternativas. O presente trabalho propõe o método TKG (Twitter Keyword Graph) de extração de palavras-chave de coleções de tweets que representa textos como grafos e aplica medidas de centralidade para encontrar vértices relevantes, correspondentes às palavras-chave. Para medir o desempenho da abordagem proposta, dois diferentes experimentos são realizados e comparações com TF-IDF e KEA são feitas, tendo classifica-ções humanas como referência. Os experimentos realizados mostraram que algumas variações do TKG são superiores a outras e também aos algoritmos usados para comparação.
publishDate	2014
dc.date.available.fl_str_mv	2014-06-30 2020-05-28T18:08:35Z
dc.date.issued.fl_str_mv	2014-02-05
dc.date.accessioned.fl_str_mv	2016-03-15T19:37:48Z 2020-05-28T18:08:35Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	ABILHOA, Willyan Daniel. Um método para extração de palavras-chave de documentos representados em grafos. 2014. 87 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2014.
dc.identifier.uri.fl_str_mv	http://dspace.mackenzie.br/handle/10899/24351
identifier_str_mv	ABILHOA, Willyan Daniel. Um método para extração de palavras-chave de documentos representados em grafos. 2014. 87 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo, 2014.
url	http://dspace.mackenzie.br/handle/10899/24351
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv	Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv	reponame:Repositório Digital do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE
instname_str	Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str	MACKENZIE
institution	MACKENZIE
reponame_str	Repositório Digital do Mackenzie
collection	Repositório Digital do Mackenzie
bitstream.url.fl_str_mv	https://dspace.mackenzie.br/bitstreams/866f0bd0-4056-4f43-adb2-beda4c3f1f14/download https://dspace.mackenzie.br/bitstreams/59d5ffe9-abef-4c6c-916c-ea38f1d3d293/download https://dspace.mackenzie.br/bitstreams/ade0ac96-8eb5-4d96-b8e0-4dec4d1caa16/download
bitstream.checksum.fl_str_mv	a2284f19a87052d03ab5023248d40c6e 6d861b2982a202ebedda93fdccbcda3b f73b171b7ea30f914fe9888955406309
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv	repositorio@mackenzie.br\|\|paola.damato@mackenzie.br
_version_	1863649743804039168

Um método para extração de palavras-chave de documentos representados em grafos

Registros relacionados