Text mining applied to SQL queries: a case study for SDSS SkyServer

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Vitor Hirota Makiyama
Orientador(a): Rafael Duarte Coelho dos Santos
Banca de defesa: Karine Reis Ferreira Gomes, Gilberto Ribeiro de Queiroz, Daniela Leal Musa
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Instituto Nacional de Pesquisas Espaciais (INPE)
Programa de Pós-Graduação: Programa de Pós-Graduação do INPE em Computação Aplicada
Departamento: Não Informado pela instituição
País: BR
Link de acesso: http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43
Resumo: SkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience.
id INPE_3f38935f43a867d67c9d7808caa3feb5
oai_identifier_str oai:urlib.net:sid.inpe.br/mtc-m21b/2015/08.31.17.43.36-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisText mining applied to SQL queries: a case study for SDSS SkyServerMineração de texto aplicado a consultas SQL: um estudo de caso para SDSS SkyServer2015-09-21Rafael Duarte Coelho dos SantosKarine Reis Ferreira GomesGilberto Ribeiro de QueirozDaniela Leal MusaVitor Hirota MakiyamaInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRtext miningSQLKDDSDSSmineração de textoSkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience.SkyServer, o portal de Internet para o catálogo \emph{Sloan Digital Sky Survey} (SDSS), fornece um conjunto de ferramentas que permitem acesso a dados para astrônomos e para educação científica. Uma das interfaces disponíveis permite a inserção de instruções SQL ad-hoc para consultar o catálogo, e já recebeu mais de 280 milhões de consultas desde 2001. Para avaliar e investigar o comportamento de uso, análises de log foram realizadas após o 5$^{o}$ e 10$^{o}$ ano de vida do portal. Tais análises, no entanto, focaram no acesso HTTP, e apenas informações básicas de utlização do banco de dados. Este trabalho tem por objetivo aplicar técnicas de mineração de texto sobre os logs SQL com o intuito de definir uma metodologia para analisar, limpar e dividir em símbolos tais declarações em uma representação numérica intermediária para posterior mineração de dados e extração de conhecimento; possibilitando análises mais profundas sobre o uso de SQL, e também aplicações previstas em otimização de banco de dados e para melhora de experiência de usuário.http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:54:51Zoai:urlib.net:sid.inpe.br/mtc-m21b/2015/08.31.17.43.36-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:54:53.045Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.en.fl_str_mv Text mining applied to SQL queries: a case study for SDSS SkyServer
dc.title.alternative.pt.fl_str_mv Mineração de texto aplicado a consultas SQL: um estudo de caso para SDSS SkyServer
title Text mining applied to SQL queries: a case study for SDSS SkyServer
spellingShingle Text mining applied to SQL queries: a case study for SDSS SkyServer
Vitor Hirota Makiyama
title_short Text mining applied to SQL queries: a case study for SDSS SkyServer
title_full Text mining applied to SQL queries: a case study for SDSS SkyServer
title_fullStr Text mining applied to SQL queries: a case study for SDSS SkyServer
title_full_unstemmed Text mining applied to SQL queries: a case study for SDSS SkyServer
title_sort Text mining applied to SQL queries: a case study for SDSS SkyServer
author Vitor Hirota Makiyama
author_facet Vitor Hirota Makiyama
author_role author
dc.contributor.advisor1.fl_str_mv Rafael Duarte Coelho dos Santos
dc.contributor.referee1.fl_str_mv Karine Reis Ferreira Gomes
dc.contributor.referee2.fl_str_mv Gilberto Ribeiro de Queiroz
dc.contributor.referee3.fl_str_mv Daniela Leal Musa
dc.contributor.author.fl_str_mv Vitor Hirota Makiyama
contributor_str_mv Rafael Duarte Coelho dos Santos
Karine Reis Ferreira Gomes
Gilberto Ribeiro de Queiroz
Daniela Leal Musa
dc.description.abstract.por.fl_txt_mv SkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience.
SkyServer, o portal de Internet para o catálogo \emph{Sloan Digital Sky Survey} (SDSS), fornece um conjunto de ferramentas que permitem acesso a dados para astrônomos e para educação científica. Uma das interfaces disponíveis permite a inserção de instruções SQL ad-hoc para consultar o catálogo, e já recebeu mais de 280 milhões de consultas desde 2001. Para avaliar e investigar o comportamento de uso, análises de log foram realizadas após o 5$^{o}$ e 10$^{o}$ ano de vida do portal. Tais análises, no entanto, focaram no acesso HTTP, e apenas informações básicas de utlização do banco de dados. Este trabalho tem por objetivo aplicar técnicas de mineração de texto sobre os logs SQL com o intuito de definir uma metodologia para analisar, limpar e dividir em símbolos tais declarações em uma representação numérica intermediária para posterior mineração de dados e extração de conhecimento; possibilitando análises mais profundas sobre o uso de SQL, e também aplicações previstas em otimização de banco de dados e para melhora de experiência de usuário.
description SkyServer, the Internet portal for the Sloan Digital Sky Survey (SDSS) catalog, provides a set of tools that allows data access for astronomers and scientific education. One of the available interfaces allows users to enter ad-hoc SQL statements to query the catalog, and has logged over 280 million queries since 2001. To assess and investigate usage behavior, log analyses were performed after the 5$^{th}$ and 10$^{th}$ year of the portal being in production. Such analyses, however, focused on the HTTP access, and just simple information for the database usage. This work aims to apply text mining techniques over the SQL logs to define a methodology to parse, clean and tokenize statements into an intermediate numerical representation for data mining and knowledge discovery, which can provide deeper analysis over SQL usage, and also has a number of foreseen applications in database optimization and improving user experience.
publishDate 2015
dc.date.issued.fl_str_mv 2015-09-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43
url http://urlib.net/sid.inpe.br/mtc-m21b/2015/08.31.17.43
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Rafael Duarte Coelho dos Santos
_version_ 1706805038381268992