Text mining applied to SQL queries: a case study for SDSS SkyServer
Ano de defesa: | 2015 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Instituto Nacional de Pesquisas Espaciais (INPE)
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação do INPE em Computação Aplicada
|
Departamento: |
Não Informado pela instituição
|
País: |
BR
|
Link de acesso: | http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43 |
Resumo: | SkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience. |
id |
INPE_3f38935f43a867d67c9d7808caa3feb5 |
---|---|
oai_identifier_str |
oai:urlib.net:sid.inpe.br/mtc-m21b/2015/08.31.17.43.36-0 |
network_acronym_str |
INPE |
network_name_str |
Biblioteca Digital de Teses e Dissertações do INPE |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisText mining applied to SQL queries: a case study for SDSS SkyServerMineração de texto aplicado a consultas SQL: um estudo de caso para SDSS SkyServer2015-09-21Rafael Duarte Coelho dos SantosKarine Reis Ferreira GomesGilberto Ribeiro de QueirozDaniela Leal MusaVitor Hirota MakiyamaInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRtext miningSQLKDDSDSSmineração de textoSkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience.SkyServer, o portal de Internet para o catálogo \emph{Sloan Digital Sky Survey} (SDSS), fornece um conjunto de ferramentas que permitem acesso a dados para astrônomos e para educação científica. Uma das interfaces disponíveis permite a inserção de instruções SQL ad-hoc para consultar o catálogo, e já recebeu mais de 280 milhões de consultas desde 2001. Para avaliar e investigar o comportamento de uso, análises de log foram realizadas após o 5$^{o}$ e 10$^{o}$ ano de vida do portal. Tais análises, no entanto, focaram no acesso HTTP, e apenas informações básicas de utlização do banco de dados. Este trabalho tem por objetivo aplicar técnicas de mineração de texto sobre os logs SQL com o intuito de definir uma metodologia para analisar, limpar e dividir em símbolos tais declarações em uma representação numérica intermediária para posterior mineração de dados e extração de conhecimento; possibilitando análises mais profundas sobre o uso de SQL, e também aplicações previstas em otimização de banco de dados e para melhora de experiência de usuário.http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:54:51Zoai:urlib.net:sid.inpe.br/mtc-m21b/2015/08.31.17.43.36-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:54:53.045Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false |
dc.title.en.fl_str_mv |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
dc.title.alternative.pt.fl_str_mv |
Mineração de texto aplicado a consultas SQL: um estudo de caso para SDSS SkyServer |
title |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
spellingShingle |
Text mining applied to SQL queries: a case study for SDSS SkyServer Vitor Hirota Makiyama |
title_short |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
title_full |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
title_fullStr |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
title_full_unstemmed |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
title_sort |
Text mining applied to SQL queries: a case study for SDSS SkyServer |
author |
Vitor Hirota Makiyama |
author_facet |
Vitor Hirota Makiyama |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Rafael Duarte Coelho dos Santos |
dc.contributor.referee1.fl_str_mv |
Karine Reis Ferreira Gomes |
dc.contributor.referee2.fl_str_mv |
Gilberto Ribeiro de Queiroz |
dc.contributor.referee3.fl_str_mv |
Daniela Leal Musa |
dc.contributor.author.fl_str_mv |
Vitor Hirota Makiyama |
contributor_str_mv |
Rafael Duarte Coelho dos Santos Karine Reis Ferreira Gomes Gilberto Ribeiro de Queiroz Daniela Leal Musa |
dc.description.abstract.por.fl_txt_mv |
SkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience. SkyServer, o portal de Internet para o catálogo \emph{Sloan Digital Sky Survey} (SDSS), fornece um conjunto de ferramentas que permitem acesso a dados para astrônomos e para educação científica. Uma das interfaces disponíveis permite a inserção de instruções SQL ad-hoc para consultar o catálogo, e já recebeu mais de 280 milhões de consultas desde 2001. Para avaliar e investigar o comportamento de uso, análises de log foram realizadas após o 5$^{o}$ e 10$^{o}$ ano de vida do portal. Tais análises, no entanto, focaram no acesso HTTP, e apenas informações básicas de utlização do banco de dados. Este trabalho tem por objetivo aplicar técnicas de mineração de texto sobre os logs SQL com o intuito de definir uma metodologia para analisar, limpar e dividir em símbolos tais declarações em uma representação numérica intermediária para posterior mineração de dados e extração de conhecimento; possibilitando análises mais profundas sobre o uso de SQL, e também aplicações previstas em otimização de banco de dados e para melhora de experiência de usuário. |
description |
SkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-09-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
status_str |
publishedVersion |
format |
masterThesis |
dc.identifier.uri.fl_str_mv |
http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43 |
url |
http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
INPE |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do INPE |
collection |
Biblioteca Digital de Teses e Dissertações do INPE |
instname_str |
Instituto Nacional de Pesquisas Espaciais (INPE) |
instacron_str |
INPE |
institution |
INPE |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE) |
repository.mail.fl_str_mv |
|
publisher_program_txtF_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
contributor_advisor1_txtF_mv |
Rafael Duarte Coelho dos Santos |
_version_ |
1706805038381268992 |