Grammar compression by induced suffix sorting

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Nunes, Daniel Saad Nogueira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.unb.br/handle/10482/43873
Resumo: Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
id UNB_74da34002e10050bf692c75bdf4f37a2
oai_identifier_str oai:repositorio.unb.br:10482/43873
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Grammar compression by induced suffix sortingCompressão por gramáticaSufixos por induçãoGramática livreTese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.Este trabalho apresenta um novo método de compressão por gramáticas chamado GCIS. Este método é baseado na abordagem de ordenação de sufixos por indução, SAIS, apresentada por Nong et al. em 2009. A solução proposta utiliza os fatores produzidos pela ordenação SAIS para construir uma gramática livre de contexto que gera o texto. As regras das gramáticas são formadas substituindo cada fator encontrado pela ordenação SAIS por um símbolo não terminal. O método é aplicado recursivamente na sequência composta por não terminais que substitui o texto original até que todos os fatores produzidos sejam distintos. A gramática gerada ainda pode ser comprimida ao explorar redundâncias, tais como os prefixos comuns compartilhado pelo lado direito das regras de produção, que por construção, estão ordenadas. O método GCIS se destaca pelo seu tempo de compressão enquanto mantém a taxa de compressão competitiva. Através de experimentos sobre textos regulares, repetitivos e imensos, GCIS demonstra ser uma escolha factível quando comparado com outros compressores como: Gzip, 7-zip, RePair, a principal referência para compressores baseados em gramáticas, e as recentes alternativas; SOLCA; LZRR; e LZD. Em contrapartida, GCIS não possui uma descompressão tão rápida. Contudo, compressores baseados em gramáticas são mais convenientes do que aqueles baseados nas técnicas de compressão Lempel-Ziv haja vista que possibilitam a extração de subpalavras diretamente da informação comprimida, sem que seja necessário gerar o texto original para tal. Neste cenário, de compressores por gramática, GCIS possui pontos fortes quando comparado aos demais. Também apresentamos que, devido a sua proximidade com a abordagem SAIS, podemos usar GCIS para construir os vetores de sufixos e longest common prefix do texto, estruturas fundamentais no processamento de palavras, durante a descompressão da informação.A grammar compression algorithm, called GCIS, is introduced in this work. GCIS is based on the induced suffix sorting algorithm SAIS, presented by Nong et al. in 2009. The proposed solution builds on the factorization performed by SAIS during suffix sorting to construct a context-free grammar that replaces each distinct factor with a nonterminal. The algorithm is then recursively applied on the shorter sequence of nonterminals. The resulting grammar is encoded by exploiting redundancies, such as common prefixes between right-hands of rules, sorted according to SAIS. GCIS excels for its low space and time required for compression while obtaining competitive compression ratios. Our experiments on regular, repetitive, moderate, and very large texts show that GCIS is a very convenient choice compared to well-known compressors such as Gzip, 7-Zip, RePair, the gold standard in grammar compression, and recent compressors like SOLCA, LZRR, and LZD. In exchange, GCIS is slow at decompressing. Nevertheless, grammar compressors are more convenient than Lempel-Ziv compressors in that one can access text substrings directly in compressed form without ever decompressing the text. We demonstrate that GCIS is an excellent candidate for this scenario because it shows to be competitive among its RePair based alternatives. We also show that the relation with SAIS makes GCIS a good intermediate structure to build the suffix and longest common prefix arrays during decompression of the text.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaAyala-Rincón, MauricioNunes, Daniel Saad Nogueira2022-06-01T22:17:04Z2022-06-01T22:17:04Z2022-06-012022-03-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfNUNES, Daniel Saad Nogueira. Grammar compression by induced suffix sorting. 2022. x, 110 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022.https://repositorio.unb.br/handle/10482/43873engA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-19T16:22:40Zoai:repositorio.unb.br:10482/43873Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-19T16:22:40Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Grammar compression by induced suffix sorting
title Grammar compression by induced suffix sorting
spellingShingle Grammar compression by induced suffix sorting
Nunes, Daniel Saad Nogueira
Compressão por gramática
Sufixos por indução
Gramática livre
title_short Grammar compression by induced suffix sorting
title_full Grammar compression by induced suffix sorting
title_fullStr Grammar compression by induced suffix sorting
title_full_unstemmed Grammar compression by induced suffix sorting
title_sort Grammar compression by induced suffix sorting
author Nunes, Daniel Saad Nogueira
author_facet Nunes, Daniel Saad Nogueira
author_role author
dc.contributor.none.fl_str_mv Ayala-Rincón, Mauricio
dc.contributor.author.fl_str_mv Nunes, Daniel Saad Nogueira
dc.subject.por.fl_str_mv Compressão por gramática
Sufixos por indução
Gramática livre
topic Compressão por gramática
Sufixos por indução
Gramática livre
description Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
publishDate 2022
dc.date.none.fl_str_mv 2022-06-01T22:17:04Z
2022-06-01T22:17:04Z
2022-06-01
2022-03-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv NUNES, Daniel Saad Nogueira. Grammar compression by induced suffix sorting. 2022. x, 110 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022.
https://repositorio.unb.br/handle/10482/43873
identifier_str_mv NUNES, Daniel Saad Nogueira. Grammar compression by induced suffix sorting. 2022. x, 110 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022.
url https://repositorio.unb.br/handle/10482/43873
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083767125245952