Índices completos para casamento de padrões e inferência de motifs

Gustavo Soares da Fonseca, Paulo

Índices completos para casamento de padrões e inferência de motifs

Detalhes bibliográficos
Ano de defesa:	2003
Autor(a) principal:	Gustavo Soares da Fonseca, Paulo
Orientador(a):	Silva Guimarães, Katia
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Pernambuco
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Casamento de padrões Estruturas de Índice, Árvores de sufixos, Árvores de afixos
Link de acesso:	https://repositorio.ufpe.br/handle/123456789/2533
Resumo:	Uma das maneiras mais eficientes (notadamente do ponto de vista computacional) empregada pela humanidade para a representação da informação tem sido através da forma de texto, ou seja, através de cadeias unidimensionais de símbolos (ou caracteres) tomados sobre conjuntos discretos finitos (ou alfabetos). As fecundas teorias, técnicas e algoritmos destinados ao processamento de texto têm ocupado um papel central em diversos âmbitos da Ciência da Computação, constituindo-se, sobretudo ao longo das últimas três décadas, em um campo de particular interesse no seio da grande área de Algoritmos e Estruturas de Dados. Grande parte do recente interesse com respeito ao processamento de texto deve-se ao emergente ramo da ciência denominado Biologia Molecular Computacional, que, a grosso modo, comporta o estudo, através de técnicas matemáticas e computacionais, da estrutura e da função dos artefatos bio-moleculares respons´aveis pela conformação e pelas atividades fisiológicas dos organismos vivos. A confluência dos problemas de Biologia Molecular e de processamento de textos dá-se na medida em que as estruturas macromoleculares fundamentais (DNA, RNA e proteínas) podem ser representadas através de cadeias (muito longas) de caracteres tomados sobre alfabetos (curtos) específicos. O problema fundamental relacionado ao processamento de cadeias corresponde à determinação das ocorrências, exatas ou aproximadas, de um determinado padrão em um dado texto problema do casamento de padrões problema esse que admite inúmeras variações. Os problemas de casamento de padrões podem ser particionados em duas grandes categorias com respeito ao conhecimento prévio ou não do texto a ser examinado. Os algoritmos clássicos destinados à resolução do problema do casamento de padrões dizem respeito ao caso no qual o texto não é conhecido previamente. Nesse caso, cada um dos seus caracteres deve ser examinado pelo menos uma vez, o que resulta em soluções de custo, no mínimo, linearmente proporcional ao tamanho do texto. Se, todavia, o texto a ser examinado é conhecido a priori, então ele pode ser pré-processado (tipicamente em tempo linear), dando origem a uma estrutura auxiliar (tipicamente de tamanho linear) denominada índice, contra a qual os padrões podem então ser confrontados para que as suas ocorrências sejam determinadas. Nesse caso, o custo da solução ótima do problema é linearmente proporcional ao comprimento do padrão (em geral, muito menor do que o texto). Em Biologia Molecular Computacional, frequentemente estamos interessados em localizar as ocorrências de uma determinada subsequência molecular (ou motif ) dentro de estruturas maiores. Esses motifs representam, em geral, regiões altamente conservadas, i.e., pouco afetadas por mutações, que desempenham funções biológicas específicas. Esse problema de localização de motifs limita-se com o problema do casamento de padrões e pode ser abordado através das mesmas técnicas. Em outras situações, todavia, estamos interessados não em localizar motifs mas sim em inferi-los. Isto é, dado um conjunto de sequências moleculares, queremos descobrir que subsequências aparecem repetidas emuma quantidade significativa dessas sequências de maneira suficientemente conservada e que, portanto, possuem uma boa probabilidade de representar um objeto biológico de particular interesse. Neste trabalho, nos propomos a reunir em uma obra única, boa parte da informação fundamental dispersa na literatura acerca dos principais índices completos conhecidos, com ênfase nas suas propriedades estruturais. Nossa apresentação não intenciona ser estritamente panorâmica e, portanto, algum sacrif´ıcio da fluência deve ser depositado no altar do rigor matemático. Além disso, apresentamos uma análise crítica da adequa ção e desempenho das estruturas de índice estudadas para a resolução do problema da inferência de motifs através de algoritmos exatos e combinatórios

Metadados do item

id	UFPE_229687fcc05c129bf44de3569fa16dc4
oai_identifier_str	oai:repositorio.ufpe.br:123456789/2533
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str
spelling	Gustavo Soares da Fonseca, PauloSilva Guimarães, Katia 2014-06-12T15:59:03Z2014-06-12T15:59:03Z2003Gustavo Soares da Fonseca, Paulo; Silva Guimarães, Katia. Índices completos para casamento de padrões e inferência de motifs. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003.https://repositorio.ufpe.br/handle/123456789/2533Uma das maneiras mais eficientes (notadamente do ponto de vista computacional) empregada pela humanidade para a representação da informação tem sido através da forma de texto, ou seja, através de cadeias unidimensionais de símbolos (ou caracteres) tomados sobre conjuntos discretos finitos (ou alfabetos). As fecundas teorias, técnicas e algoritmos destinados ao processamento de texto têm ocupado um papel central em diversos âmbitos da Ciência da Computação, constituindo-se, sobretudo ao longo das últimas três décadas, em um campo de particular interesse no seio da grande área de Algoritmos e Estruturas de Dados. Grande parte do recente interesse com respeito ao processamento de texto deve-se ao emergente ramo da ciência denominado Biologia Molecular Computacional, que, a grosso modo, comporta o estudo, através de técnicas matemáticas e computacionais, da estrutura e da função dos artefatos bio-moleculares respons´aveis pela conformação e pelas atividades fisiológicas dos organismos vivos. A confluência dos problemas de Biologia Molecular e de processamento de textos dá-se na medida em que as estruturas macromoleculares fundamentais (DNA, RNA e proteínas) podem ser representadas através de cadeias (muito longas) de caracteres tomados sobre alfabetos (curtos) específicos. O problema fundamental relacionado ao processamento de cadeias corresponde à determinação das ocorrências, exatas ou aproximadas, de um determinado padrão em um dado texto problema do casamento de padrões problema esse que admite inúmeras variações. Os problemas de casamento de padrões podem ser particionados em duas grandes categorias com respeito ao conhecimento prévio ou não do texto a ser examinado. Os algoritmos clássicos destinados à resolução do problema do casamento de padrões dizem respeito ao caso no qual o texto não é conhecido previamente. Nesse caso, cada um dos seus caracteres deve ser examinado pelo menos uma vez, o que resulta em soluções de custo, no mínimo, linearmente proporcional ao tamanho do texto. Se, todavia, o texto a ser examinado é conhecido a priori, então ele pode ser pré-processado (tipicamente em tempo linear), dando origem a uma estrutura auxiliar (tipicamente de tamanho linear) denominada índice, contra a qual os padrões podem então ser confrontados para que as suas ocorrências sejam determinadas. Nesse caso, o custo da solução ótima do problema é linearmente proporcional ao comprimento do padrão (em geral, muito menor do que o texto). Em Biologia Molecular Computacional, frequentemente estamos interessados em localizar as ocorrências de uma determinada subsequência molecular (ou motif ) dentro de estruturas maiores. Esses motifs representam, em geral, regiões altamente conservadas, i.e., pouco afetadas por mutações, que desempenham funções biológicas específicas. Esse problema de localização de motifs limita-se com o problema do casamento de padrões e pode ser abordado através das mesmas técnicas. Em outras situações, todavia, estamos interessados não em localizar motifs mas sim em inferi-los. Isto é, dado um conjunto de sequências moleculares, queremos descobrir que subsequências aparecem repetidas emuma quantidade significativa dessas sequências de maneira suficientemente conservada e que, portanto, possuem uma boa probabilidade de representar um objeto biológico de particular interesse. Neste trabalho, nos propomos a reunir em uma obra única, boa parte da informação fundamental dispersa na literatura acerca dos principais índices completos conhecidos, com ênfase nas suas propriedades estruturais. Nossa apresentação não intenciona ser estritamente panorâmica e, portanto, algum sacrif´ıcio da fluência deve ser depositado no altar do rigor matemático. Além disso, apresentamos uma análise crítica da adequa ção e desempenho das estruturas de índice estudadas para a resolução do problema da inferência de motifs através de algoritmos exatos e combinatóriosCoordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCasamento de padrõesEstruturas de Índice, Árvores de sufixos, Árvores de afixosÍndices completos para casamento de padrões e inferência de motifsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALarquivo4823_1.pdfapplication/pdf1258995https://repositorio.ufpe.br/bitstream/123456789/2533/1/arquivo4823_1.pdfc83e73b81e30c352afae5e1805a2c9c2MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/2533/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo4823_1.pdf.txtarquivo4823_1.pdf.txtExtracted texttext/plain298524https://repositorio.ufpe.br/bitstream/123456789/2533/3/arquivo4823_1.pdf.txtb12e23046d88fdddec9641f1483ad2aeMD53THUMBNAILarquivo4823_1.pdf.jpgarquivo4823_1.pdf.jpgGenerated Thumbnailimage/jpeg1225https://repositorio.ufpe.br/bitstream/123456789/2533/4/arquivo4823_1.pdf.jpg1e74badbae7ef759c34581fba77fa7dfMD54123456789/25332019-10-25 02:45:30.815oai:repositorio.ufpe.br:123456789/2533Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T05:45:30Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv	Índices completos para casamento de padrões e inferência de motifs
title	Índices completos para casamento de padrões e inferência de motifs
spellingShingle	Índices completos para casamento de padrões e inferência de motifs Gustavo Soares da Fonseca, Paulo Casamento de padrões Estruturas de Índice, Árvores de sufixos, Árvores de afixos
title_short	Índices completos para casamento de padrões e inferência de motifs
title_full	Índices completos para casamento de padrões e inferência de motifs
title_fullStr	Índices completos para casamento de padrões e inferência de motifs
title_full_unstemmed	Índices completos para casamento de padrões e inferência de motifs
title_sort	Índices completos para casamento de padrões e inferência de motifs
author	Gustavo Soares da Fonseca, Paulo
author_facet	Gustavo Soares da Fonseca, Paulo
author_role	author
dc.contributor.author.fl_str_mv	Gustavo Soares da Fonseca, Paulo
dc.contributor.advisor1.fl_str_mv	Silva Guimarães, Katia
contributor_str_mv	Silva Guimarães, Katia
dc.subject.por.fl_str_mv	Casamento de padrões Estruturas de Índice, Árvores de sufixos, Árvores de afixos
topic	Casamento de padrões Estruturas de Índice, Árvores de sufixos, Árvores de afixos
description	Uma das maneiras mais eficientes (notadamente do ponto de vista computacional) empregada pela humanidade para a representação da informação tem sido através da forma de texto, ou seja, através de cadeias unidimensionais de símbolos (ou caracteres) tomados sobre conjuntos discretos finitos (ou alfabetos). As fecundas teorias, técnicas e algoritmos destinados ao processamento de texto têm ocupado um papel central em diversos âmbitos da Ciência da Computação, constituindo-se, sobretudo ao longo das últimas três décadas, em um campo de particular interesse no seio da grande área de Algoritmos e Estruturas de Dados. Grande parte do recente interesse com respeito ao processamento de texto deve-se ao emergente ramo da ciência denominado Biologia Molecular Computacional, que, a grosso modo, comporta o estudo, através de técnicas matemáticas e computacionais, da estrutura e da função dos artefatos bio-moleculares respons´aveis pela conformação e pelas atividades fisiológicas dos organismos vivos. A confluência dos problemas de Biologia Molecular e de processamento de textos dá-se na medida em que as estruturas macromoleculares fundamentais (DNA, RNA e proteínas) podem ser representadas através de cadeias (muito longas) de caracteres tomados sobre alfabetos (curtos) específicos. O problema fundamental relacionado ao processamento de cadeias corresponde à determinação das ocorrências, exatas ou aproximadas, de um determinado padrão em um dado texto problema do casamento de padrões problema esse que admite inúmeras variações. Os problemas de casamento de padrões podem ser particionados em duas grandes categorias com respeito ao conhecimento prévio ou não do texto a ser examinado. Os algoritmos clássicos destinados à resolução do problema do casamento de padrões dizem respeito ao caso no qual o texto não é conhecido previamente. Nesse caso, cada um dos seus caracteres deve ser examinado pelo menos uma vez, o que resulta em soluções de custo, no mínimo, linearmente proporcional ao tamanho do texto. Se, todavia, o texto a ser examinado é conhecido a priori, então ele pode ser pré-processado (tipicamente em tempo linear), dando origem a uma estrutura auxiliar (tipicamente de tamanho linear) denominada índice, contra a qual os padrões podem então ser confrontados para que as suas ocorrências sejam determinadas. Nesse caso, o custo da solução ótima do problema é linearmente proporcional ao comprimento do padrão (em geral, muito menor do que o texto). Em Biologia Molecular Computacional, frequentemente estamos interessados em localizar as ocorrências de uma determinada subsequência molecular (ou motif ) dentro de estruturas maiores. Esses motifs representam, em geral, regiões altamente conservadas, i.e., pouco afetadas por mutações, que desempenham funções biológicas específicas. Esse problema de localização de motifs limita-se com o problema do casamento de padrões e pode ser abordado através das mesmas técnicas. Em outras situações, todavia, estamos interessados não em localizar motifs mas sim em inferi-los. Isto é, dado um conjunto de sequências moleculares, queremos descobrir que subsequências aparecem repetidas emuma quantidade significativa dessas sequências de maneira suficientemente conservada e que, portanto, possuem uma boa probabilidade de representar um objeto biológico de particular interesse. Neste trabalho, nos propomos a reunir em uma obra única, boa parte da informação fundamental dispersa na literatura acerca dos principais índices completos conhecidos, com ênfase nas suas propriedades estruturais. Nossa apresentação não intenciona ser estritamente panorâmica e, portanto, algum sacrif´ıcio da fluência deve ser depositado no altar do rigor matemático. Além disso, apresentamos uma análise crítica da adequa ção e desempenho das estruturas de índice estudadas para a resolução do problema da inferência de motifs através de algoritmos exatos e combinatórios
publishDate	2003
dc.date.issued.fl_str_mv	2003
dc.date.accessioned.fl_str_mv	2014-06-12T15:59:03Z
dc.date.available.fl_str_mv	2014-06-12T15:59:03Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	Gustavo Soares da Fonseca, Paulo; Silva Guimarães, Katia. Índices completos para casamento de padrões e inferência de motifs. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003.
dc.identifier.uri.fl_str_mv	https://repositorio.ufpe.br/handle/123456789/2533
identifier_str_mv	Gustavo Soares da Fonseca, Paulo; Silva Guimarães, Katia. Índices completos para casamento de padrões e inferência de motifs. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003.
url	https://repositorio.ufpe.br/handle/123456789/2533
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco
publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
bitstream.url.fl_str_mv	https://repositorio.ufpe.br/bitstream/123456789/2533/1/arquivo4823_1.pdf https://repositorio.ufpe.br/bitstream/123456789/2533/2/license.txt https://repositorio.ufpe.br/bitstream/123456789/2533/3/arquivo4823_1.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/2533/4/arquivo4823_1.pdf.jpg
bitstream.checksum.fl_str_mv	c83e73b81e30c352afae5e1805a2c9c2 8a4605be74aa9ea9d79846c1fba20a33 b12e23046d88fdddec9641f1483ad2ae 1e74badbae7ef759c34581fba77fa7df
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1862741752074469376

Índices completos para casamento de padrões e inferência de motifs

Registros relacionados