Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: ARRUDA, Milena Marinho. lattes
Orientador(a): ASSIS, Francisco Marcos de. lattes
Banca de defesa: SOUZA, Benemar Alencar de. lattes, PEREIRA, Helder Alves. lattes, SILVA, Danilo. lattes, LA GUARDIA, Giuliano Gadioli. lattes, CAVALCANTE, Charles Casimiro. lattes
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/28317
Resumo: O crescimento dos bancos de dados biológicos e a necessidade de compreender como os muitos componentes presentes em uma célula viva estão interagindo e trabalhando juntos para execução de funções celulares são razões que justificam a aplicação interdisciplinar de teorias matemáticas, estatísticas e computacionais para análise e processamento da informação genômica. A informação genética de um organismo está codificada em moléculas de ácido desoxirribonucleico (DNA, do inglês: deoxyribonucleic acid) por meio de unidades denominadas bases. A análise e o processamento de sequências de DNA para obtenção de conhecimento biológico constituem o domínio deste documento de tese. A pesquisa desenvolvida visa integrar a teoria e os métodos de processamento de sinais e a teoria da informação para extração de informações genômicas. Um dos principais desafios é, portanto, definir uma regra de mapeamento para representação de sequências de DNA que estão, inicialmente, em um domínio simbólico, e levá-las para um domínio numérico. O primeiro resultado apresentado nesta tese considera um mapeamento unidimensional bijetivo para elementos de um corpo finito com o objetivo de analisar a hipótese de que o DNA está atuando como um código linear na transmissão da informação armazenada. Dessa maneira, existiria um código de correção de erros subjacente às sequências de DNA. Nesse contexto, é proposto um novo algoritmo para buscar códigos BCH cujas palavras - código estão a uma distância de Hamming no máximo unitária do vetor numérico resultante do mapeamento de uma dada sequência de DNA. Além disso, é demonstrado que as sequências de DNA estão distribuídas de maneira aproximadamente uniforme, sob a métrica de Hamming, em um espaço vetorial de dimensão n. Sendo assim, os polinômios geradores dos códigos que identificam coleções de sequências taxonomicamente próximas não fornecem informações biológicas suficientes para agrupar e classificar tais coleções. O segundo resultado apresentado foi alcançado com base na hipótese de que ao considerar um mapeamento fixo para todas as sequências de DNA não é possível garantir que as características intrínsecas de cada sequência estarão sendo devidamente extraídas. Portanto, são propostos dois novos algoritmos: SNR - SE e TBP - SE, ambos baseados na teoria de envoltória espectral para o cálculo desses mapeamentos. A aplicabilidade desses métodos no contexto da análise espectral para discriminação de sequências codificantes e não codificantes de proteínas é analisada e comparada com outros mapeamentos já consolidados na literatura. Nesse cenário, o algoritmo proposto, TBP-SE, teve a maior acurácia e sensibilidade entre todos avaliados. Destacando-se assim, uma vez que, nesta aplicação a sensibilidade é especialmente importante, pois, assim, a probabilidade de ter uma sequência de codificação que não será identificada é baixa. Além disso, o TBP - SE demonstrou bom desempenho até mesmo para detectar regiões com sequências de codificação mais curtas.
id UFCG_b45612d09c5eee78810ce1e3e6b3735e
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/28317
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling ASSIS, Francisco Marcos de.ASSIS, F. M.F. M. de Assis.DE ASSIS, FRANCISCO M.http://lattes.cnpq.br/2368523362272656SOUZA, Benemar Alencar de.SOUZA, B. A.DE SOUZA, BENEMAR ALENCAR.DE SOUZA, B. A.http://lattes.cnpq.br/4987294390789975PEREIRA, Helder Alves.PEREIRA, H. APEREIRA, HELDER.http://lattes.cnpq.br/7393937425520096SILVA, Danilo.SILVA, D.http://lattes.cnpq.br/1809239078505173LA GUARDIA, Giuliano Gadioli.LA GUARDIA, G. G.LA GUARDIA, GIULIANO G.http://lattes.cnpq.br/1417494604246941CAVALCANTE, Charles Casimiro.CAVALCANTE, C. C.CAVALCANTE, CHARLES C.http://lattes.cnpq.br/4751699166195344ARRUDA, M. M.ARRUDA, MILENA M.http://lattes.cnpq.br/3299838657781132ARRUDA, Milena Marinho.O crescimento dos bancos de dados biológicos e a necessidade de compreender como os muitos componentes presentes em uma célula viva estão interagindo e trabalhando juntos para execução de funções celulares são razões que justificam a aplicação interdisciplinar de teorias matemáticas, estatísticas e computacionais para análise e processamento da informação genômica. A informação genética de um organismo está codificada em moléculas de ácido desoxirribonucleico (DNA, do inglês: deoxyribonucleic acid) por meio de unidades denominadas bases. A análise e o processamento de sequências de DNA para obtenção de conhecimento biológico constituem o domínio deste documento de tese. A pesquisa desenvolvida visa integrar a teoria e os métodos de processamento de sinais e a teoria da informação para extração de informações genômicas. Um dos principais desafios é, portanto, definir uma regra de mapeamento para representação de sequências de DNA que estão, inicialmente, em um domínio simbólico, e levá-las para um domínio numérico. O primeiro resultado apresentado nesta tese considera um mapeamento unidimensional bijetivo para elementos de um corpo finito com o objetivo de analisar a hipótese de que o DNA está atuando como um código linear na transmissão da informação armazenada. Dessa maneira, existiria um código de correção de erros subjacente às sequências de DNA. Nesse contexto, é proposto um novo algoritmo para buscar códigos BCH cujas palavras - código estão a uma distância de Hamming no máximo unitária do vetor numérico resultante do mapeamento de uma dada sequência de DNA. Além disso, é demonstrado que as sequências de DNA estão distribuídas de maneira aproximadamente uniforme, sob a métrica de Hamming, em um espaço vetorial de dimensão n. Sendo assim, os polinômios geradores dos códigos que identificam coleções de sequências taxonomicamente próximas não fornecem informações biológicas suficientes para agrupar e classificar tais coleções. O segundo resultado apresentado foi alcançado com base na hipótese de que ao considerar um mapeamento fixo para todas as sequências de DNA não é possível garantir que as características intrínsecas de cada sequência estarão sendo devidamente extraídas. Portanto, são propostos dois novos algoritmos: SNR - SE e TBP - SE, ambos baseados na teoria de envoltória espectral para o cálculo desses mapeamentos. A aplicabilidade desses métodos no contexto da análise espectral para discriminação de sequências codificantes e não codificantes de proteínas é analisada e comparada com outros mapeamentos já consolidados na literatura. Nesse cenário, o algoritmo proposto, TBP-SE, teve a maior acurácia e sensibilidade entre todos avaliados. Destacando-se assim, uma vez que, nesta aplicação a sensibilidade é especialmente importante, pois, assim, a probabilidade de ter uma sequência de codificação que não será identificada é baixa. Além disso, o TBP - SE demonstrou bom desempenho até mesmo para detectar regiões com sequências de codificação mais curtas.The growth of biological databases and the need to understand how the many components present in a living cell are interacting and working together to perform cellular functions are reasons that justify the interdisciplinary application of mathematical, statistical and computational theories for the analysis and processing of genomic information. The genetic information of an organism is encoded in deoxyribonucleic acid molecules (DNA) by means of units called bases. The analysis and processing of DNA sequences to obtain biological knowledge constitute the domain of this document. The research developed aims to integrate the theory and methods of signal processing and information theory to extract genomic information. One of the main challenges is, therefore, to define a mapping rule to represent DNA sequences that are initially in a symbolic domain, taking them to a numerical domain. The first result considers a bijective unidimensional mapping for elements of a finite field with the aim of analyzing the hypothesis that DNA is acting as a linear code in the transmission of stored information. Hence, there will be an error-correcting code underlying the DNA sequences. In this context, a new algorithm is proposed to search for BCH codes whose codewords are at a Hamming distance at most unity from the numerical vector resulting from the mapping of a given DNA sequence. Furthermore, it is shown that the DNA sequences are approximately uniformly distributed, under the Hamming metric, in a vector space of dimension n. Therefore, the genrator polynomial of the codes that identify collections of taxonomically close sequences do not provide enough biological information to group and classify them. The second result based on the hypothesis that when considering a fixed mapping for all DNA sequences, it is not possible to guarantee that the intrinsic characteristics of each sequence will be properly extracted. Therefore, two new algorithms are proposed: SNR-SE and TBP-SE, both based on the spectral envelope theory to calculate these mappings. The applicability of these methods in the context of spectral analysis to discriminate coding and non-coding sequences of proteins is analyzed and compared with other mappings already consolidated in the literature. In this scenario, the proposed algorithm, TBP-SE, had the highest accuracy and sensitivity among all evaluated. This stands out, since, in this application, sensitivity is especially important, as the probability of having a coding sequence that will not be identified is low. In addition, TBP-SE demonstrated good assertiveness even to detect regions with shorter coding sequences.Submitted by Francisca Araujo (rosaguedes251@hotmail.com) on 2022-12-13T17:44:04Z No. of bitstreams: 1 MILENA MARINHO ARRUDA – TESE PPGEE 2022.pdf: 5302439 bytes, checksum: 0924875e3f1334c9cba6c9b571340991 (MD5)Made available in DSpace on 2022-12-13T17:44:04Z (GMT). No. of bitstreams: 1 MILENA MARINHO ARRUDA – TESE PPGEE 2022.pdf: 5302439 bytes, checksum: 0924875e3f1334c9cba6c9b571340991 (MD5) Previous issue date: 2022-10-07El crecimiento de las bases de datos biológicas y la necesidad de entender cómo muchos componentes presentes en una célula viva están interactuando y trabajando juntos para realizar funciones celulares son razones que justifican la aplicación interdisciplinaria teorías matemáticas, estadísticas y computacionales para el análisis y procesamiento de información genómica. La información genética de un organismo está codificada en moléculas de ácido desoxirribonucleico (ADN) a través de unidades llamadas bases. El análisis y procesamiento de secuencias de ADN para la obtención de conocimientos biológicos constituyen el dominio de este documento de tesis. A investigación desarrollada tiene como objetivo integrar la teoría y los métodos de procesamiento de señales y la teoría de la información para la extracción de información genómica. Uno de los principales retos es por lo tanto definir una regla de mapeo para representar secuencias de ADN que están, inicialmente, en un dominio simbólico, y llevarlos a un dominio numérico. El primer resultado presentado en esta tesis considera un mapeo unidimensional biyectiva para elementos de un campo finito con el fin de analizar la hipótesis de que El ADN actúa como un código lineal en la transmisión de información almacenada. De esta forma, existiría un código de corrección de errores subyacente a las secuencias de ADN. En este contexto, se propone un nuevo algoritmo para buscar códigos BCH cuyas las palabras clave están a una distancia máxima de Hamming unitaria del vector numérico resultado del mapeo de una secuencia de ADN dada. Además, se demuestra que las secuencias de ADN están distribuidas de manera aproximadamente uniforme, bajo la métrica de Hamming, en un espacio vectorial de dimensión n. Por lo tanto, la polinomios que generan los códigos que identifican taxonómicamente colecciones de secuencias proximidad no proporcionan suficiente información biológica para agrupar y clasificar tales colecciones Al segundo resultado presentado se llegó con base en la hipótesis de que cuando considere un mapeo fijo para todas las secuencias de ADN El ADN no puede garantizar que se están extrayendo debidamente las características intrínsecas de cada secuencia. Por lo tanto, se proponen dos nuevos algoritmos: SNR-SE y TBP-SE, ambos basados ​​en la teoría de la envolvente espectral para calcular estos mapeos. La aplicabilidad de estos métodos en el contexto del análisis espectral para la discriminación de secuencias de codificación y las proteínas no codificantes se analizan y comparan con otros mapeos ya consolidado en la literatura. En este escenario, el algoritmo propuesto, TBP-SE, tuvo la mayor precisión y sensibilidad entre todos los evaluados. Esto se destaca, ya que, en este la sensibilidad de la aplicación es especialmente importante, ya que por lo tanto la probabilidad de tener una secuencia de codificación que no se identificará es bajo. además, el TBP-SE mostró un buen rendimiento incluso para detectar regiones con secuencias codificaciones más cortas.Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICAUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEIEngenharia ElétricaEletrônica e telecomunicaçõesCódigos BCHCódigos corretores de errosProcessamento de sinal genômicoSequências de DNATeoria da informação e codificaçãoSequências de codificaçãoProcessamento da informaçãoElectronics and telecommunicationsError correcting codesDNA sequencesCoding sequencesBCH codesGenomic signal processingInformation theory and codingInformation processingContribuições no contexto da teoria da Informação para o processamento de sinal genômico.Contributions in the context of Information theory for processing of genomic signal.Contribuciones en el contexto de la teoría de la información al procesamiento de señales genómicas.2022-10-072022-12-13T17:44:04Z2022-12-132022-12-13T17:44:04Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/28317ARRUDA, Milena Marinho. Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. 2022. 137 fl. Tese (Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2022. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/28317info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTMILENA MARINHO ARRUDA – TESE PPGEE 2022.pdf.txtMILENA MARINHO ARRUDA – TESE PPGEE 2022.pdf.txttext/plain247057https://dspace.sti.ufcg.edu.br/bitstream/riufcg/28317/3/MILENA+MARINHO+ARRUDA+%E2%80%93+TESE+PPGEE+2022.pdf.txt74a8d1f0717f2516f336f92152e82696MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/28317/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALMILENA MARINHO ARRUDA – TESE PPGEE 2022.pdfMILENA MARINHO ARRUDA – TESE PPGEE 2022.pdfapplication/pdf5302439https://dspace.sti.ufcg.edu.br/bitstream/riufcg/28317/1/MILENA+MARINHO+ARRUDA+%E2%80%93+TESE+PPGEE+2022.pdf0924875e3f1334c9cba6c9b571340991MD51riufcg/283172025-11-18 03:47:32.689oai:dspace.sti.ufcg.edu.br:riufcg/28317Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T06:47:32Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
dc.title.alternative.pt_BR.fl_str_mv Contributions in the context of Information theory for processing of genomic signal.
dc.title.alternative.none.fl_str_mv Contribuciones en el contexto de la teoría de la información al procesamiento de señales genómicas.
title Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
spellingShingle Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
ARRUDA, Milena Marinho.
Engenharia Elétrica
Eletrônica e telecomunicações
Códigos BCH
Códigos corretores de erros
Processamento de sinal genômico
Sequências de DNA
Teoria da informação e codificação
Sequências de codificação
Processamento da informação
Electronics and telecommunications
Error correcting codes
DNA sequences
Coding sequences
BCH codes
Genomic signal processing
Information theory and coding
Information processing
title_short Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
title_full Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
title_fullStr Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
title_full_unstemmed Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
title_sort Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
author ARRUDA, Milena Marinho.
author_facet ARRUDA, Milena Marinho.
author_role author
dc.contributor.advisor1.fl_str_mv ASSIS, Francisco Marcos de.
dc.contributor.advisor1ID.fl_str_mv ASSIS, F. M.
F. M. de Assis.
DE ASSIS, FRANCISCO M.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2368523362272656
dc.contributor.referee1.fl_str_mv SOUZA, Benemar Alencar de.
dc.contributor.referee1ID.fl_str_mv SOUZA, B. A.
DE SOUZA, BENEMAR ALENCAR.
DE SOUZA, B. A.
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/4987294390789975
dc.contributor.referee2.fl_str_mv PEREIRA, Helder Alves.
dc.contributor.referee2ID.fl_str_mv PEREIRA, H. A
PEREIRA, HELDER.
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/7393937425520096
dc.contributor.referee3.fl_str_mv SILVA, Danilo.
dc.contributor.referee3ID.fl_str_mv SILVA, D.
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/1809239078505173
dc.contributor.referee4.fl_str_mv LA GUARDIA, Giuliano Gadioli.
dc.contributor.referee4ID.fl_str_mv LA GUARDIA, G. G.
LA GUARDIA, GIULIANO G.
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/1417494604246941
dc.contributor.referee5.fl_str_mv CAVALCANTE, Charles Casimiro.
dc.contributor.referee5ID.fl_str_mv CAVALCANTE, C. C.
CAVALCANTE, CHARLES C.
dc.contributor.referee5Lattes.fl_str_mv http://lattes.cnpq.br/4751699166195344
dc.contributor.authorID.fl_str_mv ARRUDA, M. M.
ARRUDA, MILENA M.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3299838657781132
dc.contributor.author.fl_str_mv ARRUDA, Milena Marinho.
contributor_str_mv ASSIS, Francisco Marcos de.
SOUZA, Benemar Alencar de.
PEREIRA, Helder Alves.
SILVA, Danilo.
LA GUARDIA, Giuliano Gadioli.
CAVALCANTE, Charles Casimiro.
dc.subject.cnpq.fl_str_mv Engenharia Elétrica
topic Engenharia Elétrica
Eletrônica e telecomunicações
Códigos BCH
Códigos corretores de erros
Processamento de sinal genômico
Sequências de DNA
Teoria da informação e codificação
Sequências de codificação
Processamento da informação
Electronics and telecommunications
Error correcting codes
DNA sequences
Coding sequences
BCH codes
Genomic signal processing
Information theory and coding
Information processing
dc.subject.por.fl_str_mv Eletrônica e telecomunicações
Códigos BCH
Códigos corretores de erros
Processamento de sinal genômico
Sequências de DNA
Teoria da informação e codificação
Sequências de codificação
Processamento da informação
Electronics and telecommunications
Error correcting codes
DNA sequences
Coding sequences
BCH codes
Genomic signal processing
Information theory and coding
Information processing
description O crescimento dos bancos de dados biológicos e a necessidade de compreender como os muitos componentes presentes em uma célula viva estão interagindo e trabalhando juntos para execução de funções celulares são razões que justificam a aplicação interdisciplinar de teorias matemáticas, estatísticas e computacionais para análise e processamento da informação genômica. A informação genética de um organismo está codificada em moléculas de ácido desoxirribonucleico (DNA, do inglês: deoxyribonucleic acid) por meio de unidades denominadas bases. A análise e o processamento de sequências de DNA para obtenção de conhecimento biológico constituem o domínio deste documento de tese. A pesquisa desenvolvida visa integrar a teoria e os métodos de processamento de sinais e a teoria da informação para extração de informações genômicas. Um dos principais desafios é, portanto, definir uma regra de mapeamento para representação de sequências de DNA que estão, inicialmente, em um domínio simbólico, e levá-las para um domínio numérico. O primeiro resultado apresentado nesta tese considera um mapeamento unidimensional bijetivo para elementos de um corpo finito com o objetivo de analisar a hipótese de que o DNA está atuando como um código linear na transmissão da informação armazenada. Dessa maneira, existiria um código de correção de erros subjacente às sequências de DNA. Nesse contexto, é proposto um novo algoritmo para buscar códigos BCH cujas palavras - código estão a uma distância de Hamming no máximo unitária do vetor numérico resultante do mapeamento de uma dada sequência de DNA. Além disso, é demonstrado que as sequências de DNA estão distribuídas de maneira aproximadamente uniforme, sob a métrica de Hamming, em um espaço vetorial de dimensão n. Sendo assim, os polinômios geradores dos códigos que identificam coleções de sequências taxonomicamente próximas não fornecem informações biológicas suficientes para agrupar e classificar tais coleções. O segundo resultado apresentado foi alcançado com base na hipótese de que ao considerar um mapeamento fixo para todas as sequências de DNA não é possível garantir que as características intrínsecas de cada sequência estarão sendo devidamente extraídas. Portanto, são propostos dois novos algoritmos: SNR - SE e TBP - SE, ambos baseados na teoria de envoltória espectral para o cálculo desses mapeamentos. A aplicabilidade desses métodos no contexto da análise espectral para discriminação de sequências codificantes e não codificantes de proteínas é analisada e comparada com outros mapeamentos já consolidados na literatura. Nesse cenário, o algoritmo proposto, TBP-SE, teve a maior acurácia e sensibilidade entre todos avaliados. Destacando-se assim, uma vez que, nesta aplicação a sensibilidade é especialmente importante, pois, assim, a probabilidade de ter uma sequência de codificação que não será identificada é baixa. Além disso, o TBP - SE demonstrou bom desempenho até mesmo para detectar regiões com sequências de codificação mais curtas.
publishDate 2022
dc.date.issued.fl_str_mv 2022-10-07
dc.date.accessioned.fl_str_mv 2022-12-13T17:44:04Z
dc.date.available.fl_str_mv 2022-12-13
2022-12-13T17:44:04Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/28317
dc.identifier.citation.fl_str_mv ARRUDA, Milena Marinho. Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. 2022. 137 fl. Tese (Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2022. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/28317
url https://dspace.sti.ufcg.edu.br/handle/riufcg/28317
identifier_str_mv ARRUDA, Milena Marinho. Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. 2022. 137 fl. Tese (Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2022. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/28317
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv https://dspace.sti.ufcg.edu.br/bitstream/riufcg/28317/3/MILENA+MARINHO+ARRUDA+%E2%80%93+TESE+PPGEE+2022.pdf.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/28317/2/license.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/28317/1/MILENA+MARINHO+ARRUDA+%E2%80%93+TESE+PPGEE+2022.pdf
bitstream.checksum.fl_str_mv 74a8d1f0717f2516f336f92152e82696
8a4605be74aa9ea9d79846c1fba20a33
0924875e3f1334c9cba6c9b571340991
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1863363529380200448