Compressão gramatical com extração eficiente

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Angelo, Danyelle da Silva Oliveira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Administração
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufu.br/handle/123456789/42067
https://doi.org/10.14393/ufu.di.2024.341
Resumo: We present a grammar compressor, called GCX (Grammar Compression modulo X), based on the induced suffix sorting grammar compression technique introduced in GCIS. Our method incorporates the text factorization used by algorithm DC3 to create a context-free grammar that produces the input string. We evaluated the performance of our algorithm using different values of covering X, and we introduce a heuristic based on the average longest common prefix between the rules of the grammar to define this coverage. GCX supports very fast extraction on the encoded grammar without the need to complete decompression. Experiments with real and artificial datasets showed that GCX, compared with GCIS, in most cases, is faster to compress, faster to decompress, have worse compression ratio most often; however, it has an extraction speed approximately 100 times larger. Similar behavior is observed when comparing the performance of GCX with that of RePair.
id UFU_746bc5b3d0be1a5fbc9216e14eafb43d
oai_identifier_str oai:repositorio.ufu.br:123456789/42067
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling Compressão gramatical com extração eficienteGrammar compression with efficient extractionCompressãoExtraçãoGramáticaEstrutura de dados compactasAlgoritmosCompressionExtractionGrammarCompact data structuresAlgorithmsCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAOComputaçãoODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.We present a grammar compressor, called GCX (Grammar Compression modulo X), based on the induced suffix sorting grammar compression technique introduced in GCIS. Our method incorporates the text factorization used by algorithm DC3 to create a context-free grammar that produces the input string. We evaluated the performance of our algorithm using different values of covering X, and we introduce a heuristic based on the average longest common prefix between the rules of the grammar to define this coverage. GCX supports very fast extraction on the encoded grammar without the need to complete decompression. Experiments with real and artificial datasets showed that GCX, compared with GCIS, in most cases, is faster to compress, faster to decompress, have worse compression ratio most often; however, it has an extraction speed approximately 100 times larger. Similar behavior is observed when comparing the performance of GCX with that of RePair.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorDissertação (Mestrado)Apresentamos um compressor, denominado GCX (Grammar Compression modulo X), baseado na técnica de compressão gramatical por ordenação de sufixos induzida, introduzida no GCIS. Nosso método incorpora a fatoração de textos utilizada pelo algoritmo de ordenação de sufixos DC3, para criar uma gramática livre de contexto capaz de produzir o texto de entrada. Nós avaliamos o desempenho do nosso algoritmo utilizando diferentes valores de cobertura X, e introduzimos uma heurística baseada na média do prefixo comum mais longo entre as regras da gramática para definir o valor dessa cobertura. GCX suporta operações de extração rápidas sobre o texto codificado sem a necessidade de descompressão completa. Nossos experimentos foram realizados com conjuntos de dados reais e artificiais e os resultados mostraram que o GCX, em comparação com o GCIS, na maioria dos casos é mais rápido para comprimir, mais rápido para descomprimir, tem uma taxa de compressão pior na maioria das vezes; por outro lado, possui velocidade de extração, aproximadamente 100 vezes mais rápida. Observa-se um comportamento semelhante ao comparar o desempenho do GCX com o do método RePair.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em AdministraçãoTelles, Guilherme Pimentelhttp://lattes.cnpq.br/9783560852644016Louza, Felipe Alves dahttp://lattes.cnpq.br/7042349168112978Albertini, Marcelo Keesehttp://lattes.cnpq.br/1404596833493304Badino, Gonzalo Navarrohttps://orcid.org/0000-0002-2286-741XAngelo, Danyelle da Silva Oliveira2024-08-06T14:00:22Z2024-08-06T14:00:22Z2024-05-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfANGELO, Danyelle da Silva Oliveira. Compressão Gramatical com extração eficiente. 2024. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.341.https://repositorio.ufu.br/handle/123456789/42067https://doi.org/10.14393/ufu.di.2024.341porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2024-08-07T06:30:06Zoai:repositorio.ufu.br:123456789/42067Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2024-08-07T06:30:06Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Compressão gramatical com extração eficiente
Grammar compression with efficient extraction
title Compressão gramatical com extração eficiente
spellingShingle Compressão gramatical com extração eficiente
Angelo, Danyelle da Silva Oliveira
Compressão
Extração
Gramática
Estrutura de dados compactas
Algoritmos
Compression
Extraction
Grammar
Compact data structures
Algorithms
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAO
Computação
ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
title_short Compressão gramatical com extração eficiente
title_full Compressão gramatical com extração eficiente
title_fullStr Compressão gramatical com extração eficiente
title_full_unstemmed Compressão gramatical com extração eficiente
title_sort Compressão gramatical com extração eficiente
author Angelo, Danyelle da Silva Oliveira
author_facet Angelo, Danyelle da Silva Oliveira
author_role author
dc.contributor.none.fl_str_mv Telles, Guilherme Pimentel
http://lattes.cnpq.br/9783560852644016
Louza, Felipe Alves da
http://lattes.cnpq.br/7042349168112978
Albertini, Marcelo Keese
http://lattes.cnpq.br/1404596833493304
Badino, Gonzalo Navarro
https://orcid.org/0000-0002-2286-741X
dc.contributor.author.fl_str_mv Angelo, Danyelle da Silva Oliveira
dc.subject.por.fl_str_mv Compressão
Extração
Gramática
Estrutura de dados compactas
Algoritmos
Compression
Extraction
Grammar
Compact data structures
Algorithms
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAO
Computação
ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
topic Compressão
Extração
Gramática
Estrutura de dados compactas
Algoritmos
Compression
Extraction
Grammar
Compact data structures
Algorithms
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAO
Computação
ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
description We present a grammar compressor, called GCX (Grammar Compression modulo X), based on the induced suffix sorting grammar compression technique introduced in GCIS. Our method incorporates the text factorization used by algorithm DC3 to create a context-free grammar that produces the input string. We evaluated the performance of our algorithm using different values of covering X, and we introduce a heuristic based on the average longest common prefix between the rules of the grammar to define this coverage. GCX supports very fast extraction on the encoded grammar without the need to complete decompression. Experiments with real and artificial datasets showed that GCX, compared with GCIS, in most cases, is faster to compress, faster to decompress, have worse compression ratio most often; however, it has an extraction speed approximately 100 times larger. Similar behavior is observed when comparing the performance of GCX with that of RePair.
publishDate 2024
dc.date.none.fl_str_mv 2024-08-06T14:00:22Z
2024-08-06T14:00:22Z
2024-05-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ANGELO, Danyelle da Silva Oliveira. Compressão Gramatical com extração eficiente. 2024. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.341.
https://repositorio.ufu.br/handle/123456789/42067
https://doi.org/10.14393/ufu.di.2024.341
identifier_str_mv ANGELO, Danyelle da Silva Oliveira. Compressão Gramatical com extração eficiente. 2024. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI http://doi.org/10.14393/ufu.di.2024.341.
url https://repositorio.ufu.br/handle/123456789/42067
https://doi.org/10.14393/ufu.di.2024.341
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Administração
publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Administração
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1827843440254124032