Grammar compression by induced suffix sorting
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.unb.br/handle/10482/43873 |
Resumo: | Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
| id |
UNB_74da34002e10050bf692c75bdf4f37a2 |
|---|---|
| oai_identifier_str |
oai:repositorio.unb.br:10482/43873 |
| network_acronym_str |
UNB |
| network_name_str |
Repositório Institucional da UnB |
| repository_id_str |
|
| spelling |
Grammar compression by induced suffix sortingCompressão por gramáticaSufixos por induçãoGramática livreTese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.Este trabalho apresenta um novo método de compressão por gramáticas chamado GCIS. Este método é baseado na abordagem de ordenação de sufixos por indução, SAIS, apresentada por Nong et al. em 2009. A solução proposta utiliza os fatores produzidos pela ordenação SAIS para construir uma gramática livre de contexto que gera o texto. As regras das gramáticas são formadas substituindo cada fator encontrado pela ordenação SAIS por um símbolo não terminal. O método é aplicado recursivamente na sequência composta por não terminais que substitui o texto original até que todos os fatores produzidos sejam distintos. A gramática gerada ainda pode ser comprimida ao explorar redundâncias, tais como os prefixos comuns compartilhado pelo lado direito das regras de produção, que por construção, estão ordenadas. O método GCIS se destaca pelo seu tempo de compressão enquanto mantém a taxa de compressão competitiva. Através de experimentos sobre textos regulares, repetitivos e imensos, GCIS demonstra ser uma escolha factível quando comparado com outros compressores como: Gzip, 7-zip, RePair, a principal referência para compressores baseados em gramáticas, e as recentes alternativas; SOLCA; LZRR; e LZD. Em contrapartida, GCIS não possui uma descompressão tão rápida. Contudo, compressores baseados em gramáticas são mais convenientes do que aqueles baseados nas técnicas de compressão Lempel-Ziv haja vista que possibilitam a extração de subpalavras diretamente da informação comprimida, sem que seja necessário gerar o texto original para tal. Neste cenário, de compressores por gramática, GCIS possui pontos fortes quando comparado aos demais. Também apresentamos que, devido a sua proximidade com a abordagem SAIS, podemos usar GCIS para construir os vetores de sufixos e longest common prefix do texto, estruturas fundamentais no processamento de palavras, durante a descompressão da informação.A grammar compression algorithm, called GCIS, is introduced in this work. GCIS is based on the induced suffix sorting algorithm SAIS, presented by Nong et al. in 2009. The proposed solution builds on the factorization performed by SAIS during suffix sorting to construct a context-free grammar that replaces each distinct factor with a nonterminal. The algorithm is then recursively applied on the shorter sequence of nonterminals. The resulting grammar is encoded by exploiting redundancies, such as common prefixes between right-hands of rules, sorted according to SAIS. GCIS excels for its low space and time required for compression while obtaining competitive compression ratios. Our experiments on regular, repetitive, moderate, and very large texts show that GCIS is a very convenient choice compared to well-known compressors such as Gzip, 7-Zip, RePair, the gold standard in grammar compression, and recent compressors like SOLCA, LZRR, and LZD. In exchange, GCIS is slow at decompressing. Nevertheless, grammar compressors are more convenient than Lempel-Ziv compressors in that one can access text substrings directly in compressed form without ever decompressing the text. We demonstrate that GCIS is an excellent candidate for this scenario because it shows to be competitive among its RePair based alternatives. We also show that the relation with SAIS makes GCIS a good intermediate structure to build the suffix and longest common prefix arrays during decompression of the text.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaAyala-Rincón, MauricioNunes, Daniel Saad Nogueira2022-06-01T22:17:04Z2022-06-01T22:17:04Z2022-06-012022-03-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfNUNES, Daniel Saad Nogueira. Grammar compression by induced suffix sorting. 2022. x, 110 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022.https://repositorio.unb.br/handle/10482/43873engA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-19T16:22:40Zoai:repositorio.unb.br:10482/43873Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-19T16:22:40Repositório Institucional da UnB - Universidade de Brasília (UnB)false |
| dc.title.none.fl_str_mv |
Grammar compression by induced suffix sorting |
| title |
Grammar compression by induced suffix sorting |
| spellingShingle |
Grammar compression by induced suffix sorting Nunes, Daniel Saad Nogueira Compressão por gramática Sufixos por indução Gramática livre |
| title_short |
Grammar compression by induced suffix sorting |
| title_full |
Grammar compression by induced suffix sorting |
| title_fullStr |
Grammar compression by induced suffix sorting |
| title_full_unstemmed |
Grammar compression by induced suffix sorting |
| title_sort |
Grammar compression by induced suffix sorting |
| author |
Nunes, Daniel Saad Nogueira |
| author_facet |
Nunes, Daniel Saad Nogueira |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Ayala-Rincón, Mauricio |
| dc.contributor.author.fl_str_mv |
Nunes, Daniel Saad Nogueira |
| dc.subject.por.fl_str_mv |
Compressão por gramática Sufixos por indução Gramática livre |
| topic |
Compressão por gramática Sufixos por indução Gramática livre |
| description |
Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-06-01T22:17:04Z 2022-06-01T22:17:04Z 2022-06-01 2022-03-11 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
NUNES, Daniel Saad Nogueira. Grammar compression by induced suffix sorting. 2022. x, 110 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022. https://repositorio.unb.br/handle/10482/43873 |
| identifier_str_mv |
NUNES, Daniel Saad Nogueira. Grammar compression by induced suffix sorting. 2022. x, 110 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022. |
| url |
https://repositorio.unb.br/handle/10482/43873 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
| instname_str |
Universidade de Brasília (UnB) |
| instacron_str |
UNB |
| institution |
UNB |
| reponame_str |
Repositório Institucional da UnB |
| collection |
Repositório Institucional da UnB |
| repository.name.fl_str_mv |
Repositório Institucional da UnB - Universidade de Brasília (UnB) |
| repository.mail.fl_str_mv |
repositorio@unb.br |
| _version_ |
1839083767125245952 |