Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: SANZ, Albaro Ramon Paiva lattes
Orientador(a): FERREIRA, Tiago Alessandro Espínola
Banca de defesa: CUNHA FILHO, Moacyr, BALBINO, Valdir Queiroz, SANTOS, Antônio de Pádua, MIRANDA, Péricles Barbosa Cunha de
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal Rural de Pernambuco
Programa de Pós-Graduação: Programa de Pós-Graduação em Biometria e Estatística Aplicada
Departamento: Departamento de Estatística e Informática
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150
Resumo: Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification.
id URPE_ba5c329df92a9e5ba71df4c56618c0ed
oai_identifier_str oai:tede2:tede2/8150
network_acronym_str URPE
network_name_str Biblioteca Digital de Teses e Dissertações da UFRPE
repository_id_str
spelling FERREIRA, Tiago Alessandro EspínolaCUNHA FILHO, MoacyrBALBINO, Valdir QueirozSANTOS, Antônio de PáduaMIRANDA, Péricles Barbosa Cunha dehttp://lattes.cnpq.br/9331786260432286SANZ, Albaro Ramon Paiva2019-07-17T13:07:29Z2019-02-27SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife.http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification.As técnicas de classificação são frequentemente utilizadas na solução de diferentes problemas da bioinformática. A maioria dos genes na sequência do DNA é transcrita pelo RNA mensageiro e traduzida para proteína. O DNA contém regiões que codificam as proteínas chamadas exons, e regiões que não codificam as proteinas são chamadas de introns, os limites entre os exons e introns são chamados de splice site. Durante o processo de transcrição, os introns são "cortados", isso é conhecido como splicing, que coloca os exons de um gene um atrás do outro consecutivamente, prontos para serem traduzidos na sequência de aminoácidos que compõem a proteína. Nos splice sites, a transição da região codificante exon para a região não codificante intron (EI) é distinguida com os nucleótidos GT, e a transição da região não codificante intron para a região codificante exon (IE) é distinguida com os nucleótidos AG. Uma pequena porcentagem dessas combinações são splice sites reais. Neste estudo, é apresentada uma metodologia para o problema de classificação EI e IE que consistem em obter distribuições de probabilidades usando técnicas de aprendizagem de máquina, e a partir delas obter diferentes medidas de desempenho. Uma série de algoritmos (Support Vector Machine (SVM), Neural Networks (RNA), Random Forest (RF), Naive Bayes(NB)) foram testados e comparados para encontrar o melhor classificador. Para fazer a seleção do melhor classificador, as medidas mais conhecidas, foram aplicadas com base na matriz de confusão: Acurácia, Especificidade, Sensibilidade, dentre outros, bem como a distância de Kolgomorov-Smirnov (KS) como medida de desempenho dos modelos de classificação. Mais precisamente, a KS é uma medida do grau de separação entre as distribuições de classe de probabilidade, sendo este um indicativo de maior acurácia. Os resultados apresentados neste estudo foram iguais ou superiores em acurácia quando são comparado com os trabalhos apresentados na literatura.Submitted by Mario BC (mario@bc.ufrpe.br) on 2019-07-17T13:07:29Z No. of bitstreams: 1 Albaro Ramon Paiva Sanz.pdf: 1588433 bytes, checksum: 079ea859e16f08cd1678049a7acf4458 (MD5)Made available in DSpace on 2019-07-17T13:07:29Z (GMT). No. of bitstreams: 1 Albaro Ramon Paiva Sanz.pdf: 1588433 bytes, checksum: 079ea859e16f08cd1678049a7acf4458 (MD5) Previous issue date: 2019-02-27Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfporUniversidade Federal Rural de PernambucoPrograma de Pós-Graduação em Biometria e Estatística AplicadaUFRPEBrasilDepartamento de Estatística e InformáticaClassificação exon-intronClassificação intron-exonAprendizagem de máquinaAlgoritmoCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAAprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humanoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis768382242446187918600600600600-6774555140396120501-58364078281851435172075167498588264571info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRPEinstname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPEORIGINALAlbaro Ramon Paiva Sanz.pdfAlbaro Ramon Paiva Sanz.pdfapplication/pdf1588433http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/2/Albaro+Ramon+Paiva+Sanz.pdf079ea859e16f08cd1678049a7acf4458MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51tede2/81502019-07-17 10:07:29.412oai:tede2:tede2/8150Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://www.tede2.ufrpe.br:8080/tede/PUBhttp://www.tede2.ufrpe.br:8080/oai/requestbdtd@ufrpe.br ||bdtd@ufrpe.bropendoar:2019-07-17T13:07:29Biblioteca Digital de Teses e Dissertações da UFRPE - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.por.fl_str_mv Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
title Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
spellingShingle Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
SANZ, Albaro Ramon Paiva
Classificação exon-intron
Classificação intron-exon
Aprendizagem de máquina
Algoritmo
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
title_full Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
title_fullStr Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
title_full_unstemmed Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
title_sort Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
author SANZ, Albaro Ramon Paiva
author_facet SANZ, Albaro Ramon Paiva
author_role author
dc.contributor.advisor1.fl_str_mv FERREIRA, Tiago Alessandro Espínola
dc.contributor.referee1.fl_str_mv CUNHA FILHO, Moacyr
dc.contributor.referee2.fl_str_mv BALBINO, Valdir Queiroz
dc.contributor.referee3.fl_str_mv SANTOS, Antônio de Pádua
dc.contributor.referee4.fl_str_mv MIRANDA, Péricles Barbosa Cunha de
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9331786260432286
dc.contributor.author.fl_str_mv SANZ, Albaro Ramon Paiva
contributor_str_mv FERREIRA, Tiago Alessandro Espínola
CUNHA FILHO, Moacyr
BALBINO, Valdir Queiroz
SANTOS, Antônio de Pádua
MIRANDA, Péricles Barbosa Cunha de
dc.subject.por.fl_str_mv Classificação exon-intron
Classificação intron-exon
Aprendizagem de máquina
Algoritmo
topic Classificação exon-intron
Classificação intron-exon
Aprendizagem de máquina
Algoritmo
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-07-17T13:07:29Z
dc.date.issued.fl_str_mv 2019-02-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
dc.identifier.uri.fl_str_mv http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150
identifier_str_mv SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
url http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 768382242446187918
dc.relation.confidence.fl_str_mv 600
600
600
600
dc.relation.department.fl_str_mv -6774555140396120501
dc.relation.cnpq.fl_str_mv -5836407828185143517
dc.relation.sponsorship.fl_str_mv 2075167498588264571
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal Rural de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Biometria e Estatística Aplicada
dc.publisher.initials.fl_str_mv UFRPE
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento de Estatística e Informática
publisher.none.fl_str_mv Universidade Federal Rural de Pernambuco
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRPE
instname:Universidade Federal Rural de Pernambuco (UFRPE)
instacron:UFRPE
instname_str Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str UFRPE
institution UFRPE
reponame_str Biblioteca Digital de Teses e Dissertações da UFRPE
collection Biblioteca Digital de Teses e Dissertações da UFRPE
bitstream.url.fl_str_mv http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/2/Albaro+Ramon+Paiva+Sanz.pdf
http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/1/license.txt
bitstream.checksum.fl_str_mv 079ea859e16f08cd1678049a7acf4458
bd3efa91386c1718a7f26a329fdcb468
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRPE - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv bdtd@ufrpe.br ||bdtd@ufrpe.br
_version_ 1794501130936385536