Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes
| Ano de defesa: | 2018 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Uberlândia
Brasil Programa de Pós-graduação em Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufu.br/handle/123456789/21190 http://dx.doi.org/10.14393/ufu.di.2018.287 |
Resumo: | Protein-protein interaction (PPI) networks often carry expressive numbers of proteins and interactions in the order of thousands, possibly millions. The promising nodes in large PPI networks, which can be used in drug production, can be identified through exact methods such as bridging centrality, however, this can become computationally expensive to be overcome due to the complexity of these networks. As an alternative, the use of machine learning is suggested. The objective of this study was analyzed machine learning algorithms (ML) applied to the problem of determining bridging centrality in PPI networks, modeled by Complex Network, and identify the algorithm which offers results closest to generated by the exact algorithm taken as a reference, but with less computational effort. PPI networks were selected from nine different bacteria, on which a set of structural metrics were generated using Gephi. Then, each PPI file containing the generated metrics was submitted to the analysis of 15 algorithms selected for ML available in the WEKA. The prediction metrics files were submitted to the best predictive model identified and then the nodes were classified as weak or strong. Finally, the performance of the classifier was evaluated using the R software and the ROCR package, obtaining the ROC curve, the area under ROC curve (AUC), the corresponding accuracy and threshold. The best learning models identified correspond to the algorithms Bagging and Random Forest and the worst were the NaiveBayes and OneR. In general terms, the mean prediction accuracy of the nodes of the PPIs was 74.38% ± 5.84%, with a mean threshold of 96%, and mean AUC of 65.09 ± 4.48%. The nodes correctly predicted by the classifier were, on average, 24.33%, with 2.75% true positive and 21.58% true negative. On the other hand, 75.66% were incorrectly classified, being 23,67% false positive and 51.99% false negative. Comparing the 2.75% true positive with those identified by the exact algorithm, an average hit rate of 77.16% ± 20.23% was obtained. The predictive result generated by the ML process approached that obtained by the exact algorithm, presenting efficacy, however, with a considerable error rate. Thus, our results corroborate the literature knowledge about the use of ML in complex networks, that is, ML algorithms applied to complex centrality measures such as bridging centrality are not effective. The plugin implemented as one of the products of this work for GEPHI software, version 0.9.1 or higher, is available on sourceforge.net under the name of BridgingCentralityPlugin. |
| id |
UFU_fd0d21d224ccc86e7a70f777c1a6c153 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufu.br:123456789/21190 |
| network_acronym_str |
UFU |
| network_name_str |
Repositório Institucional da UFU |
| repository_id_str |
|
| spelling |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodesCharacteristics inherent to measures of centrality and use of machine learning algorithms to classify bridging nodesPPIBridging CentralityAprendizado de MáquinaRedes ComplexasMachine LearningComplex NetworksBridging CentralityCNPQ::CIENCIAS EXATAS E DA TERRACNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProtein-protein interaction (PPI) networks often carry expressive numbers of proteins and interactions in the order of thousands, possibly millions. The promising nodes in large PPI networks, which can be used in drug production, can be identified through exact methods such as bridging centrality, however, this can become computationally expensive to be overcome due to the complexity of these networks. As an alternative, the use of machine learning is suggested. The objective of this study was analyzed machine learning algorithms (ML) applied to the problem of determining bridging centrality in PPI networks, modeled by Complex Network, and identify the algorithm which offers results closest to generated by the exact algorithm taken as a reference, but with less computational effort. PPI networks were selected from nine different bacteria, on which a set of structural metrics were generated using Gephi. Then, each PPI file containing the generated metrics was submitted to the analysis of 15 algorithms selected for ML available in the WEKA. The prediction metrics files were submitted to the best predictive model identified and then the nodes were classified as weak or strong. Finally, the performance of the classifier was evaluated using the R software and the ROCR package, obtaining the ROC curve, the area under ROC curve (AUC), the corresponding accuracy and threshold. The best learning models identified correspond to the algorithms Bagging and Random Forest and the worst were the NaiveBayes and OneR. In general terms, the mean prediction accuracy of the nodes of the PPIs was 74.38% ± 5.84%, with a mean threshold of 96%, and mean AUC of 65.09 ± 4.48%. The nodes correctly predicted by the classifier were, on average, 24.33%, with 2.75% true positive and 21.58% true negative. On the other hand, 75.66% were incorrectly classified, being 23,67% false positive and 51.99% false negative. Comparing the 2.75% true positive with those identified by the exact algorithm, an average hit rate of 77.16% ± 20.23% was obtained. The predictive result generated by the ML process approached that obtained by the exact algorithm, presenting efficacy, however, with a considerable error rate. Thus, our results corroborate the literature knowledge about the use of ML in complex networks, that is, ML algorithms applied to complex centrality measures such as bridging centrality are not effective. The plugin implemented as one of the products of this work for GEPHI software, version 0.9.1 or higher, is available on sourceforge.net under the name of BridgingCentralityPlugin.Dissertação (Mestrado)As redes de interação proteína-proteína (PPI), com frequência, comportam números expressivos de nós (proteínas) e arestas (interações) na ordem dos milhares, possivelmente milhões. Os nós promissores em redes PPI de grande porte, passíveis a serem utilizados na produção de fármacos, podem ser identificados através de métodos exatos como bridging centrality, no entanto, isto pode se tornar um problema computacional a ser superado devido à complexidade destas redes. Como alternativa, se sugere o uso de Inteligência Artificial, sendo o objetivo desta pesquisa analisar algoritmos de aprendizado de máquina (ML) aplicadas ao problema de determinação de bridging centrality em redes PPI, modeladas por meio de Rede Complexa, e identificar o algoritmo que ofereça resultados próximos ao gerado pelo algoritmo exato tido como referência, mas com esforço computacional menor. Foram selecionadas redes PPI de nove diferentes bactérias, sobre as quais foi gerado um conjunto de métricas estruturais usando o software Gephi. Em seguida, cada arquivo de PPI contendo as métricas geradas foi submetido à análise de 15 algoritmos selecionados para a ML, disponíveis no software WEKA. Os arquivos de métricas de predição foram submetidos ao melhor modelo preditivo identificado e, a seguir, os nós foram classificados em weak ou strong. Po fim, houve a avaliação do desempenho do classificador, utilizando-se o software R e o pacote ROCR, obtendo-se a curva ROC, o valor Area Under the Curve (AUC), a acurácia e o threshold correspondentes. Os melhores modelos de aprendizagem identificados foram gerados pelos algoritmos Bagging e Random Forest, e os piores foram gerados pelos algoritmos NaïveBayes e OneR. Em termos gerais, a acurácia média da predição foi de 74,38% ± 5,84%, com limiar médio de 96%, e AUC médio de 65,09% ± 4,48%. Os nós preditos corretamente pelo classificador foram, em média, 24,33% sendo 2,75% verdadeiros positivos e 21,58% verdadeiros negativos. Por outro lado, 75,66% foram incorretamente classificados, sendo 23,67% falsos positivos e 51,99% falsos negativos. Comparando os 2,75% verdadeiros positivos com os identificados pelo algoritmo exato, obteve-se uma taxa de acerto médio de 77,16% ± 20,23%. O resultado preditivo gerado pelo processo de ML aproximou-se do obtido pelo algoritmo exato, apresentando eficácia, no entanto, com considerável taxa de erro. Dessa forma, nossos resultados corroboram o conhecimento da literatura sobre uso de ML em redes complexas, ou seja, algoritmos de ML aplicados a medidas de centralidade complexas como a bridging centrality não são eficazes. O plugin implementado como um dos produ- tos deste trabalho para o software GEPHI, versão 0.9.1 ou superior, encontra disponível no site sourceforge.net, sob o nome de BridgingCentralityPlugin.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Ciência da ComputaçãoSantos, Anderson Rodrigues doshttp://lattes.cnpq.br/3752226356973936Fernandes, Márcia Aparecidahttp://lattes.cnpq.br/8946715881289701Campos, Sérgio Vale Aguiarhttp://lattes.cnpq.br/6438645213502821Pereira, Getúlio de Morais2018-04-18T19:53:18Z2018-04-18T19:53:18Z2018-02-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPEREIRA, Getúlio de Morais. Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes - Uberlândia, 2018. 68 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018.https://repositorio.ufu.br/handle/123456789/21190http://dx.doi.org/10.14393/ufu.di.2018.287porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2018-04-18T19:53:18Zoai:repositorio.ufu.br:123456789/21190Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2018-04-18T19:53:18Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
| dc.title.none.fl_str_mv |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes Characteristics inherent to measures of centrality and use of machine learning algorithms to classify bridging nodes |
| title |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes |
| spellingShingle |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes Pereira, Getúlio de Morais PPI Bridging Centrality Aprendizado de Máquina Redes Complexas Machine Learning Complex Networks Bridging Centrality CNPQ::CIENCIAS EXATAS E DA TERRA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes |
| title_full |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes |
| title_fullStr |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes |
| title_full_unstemmed |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes |
| title_sort |
Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes |
| author |
Pereira, Getúlio de Morais |
| author_facet |
Pereira, Getúlio de Morais |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Santos, Anderson Rodrigues dos http://lattes.cnpq.br/3752226356973936 Fernandes, Márcia Aparecida http://lattes.cnpq.br/8946715881289701 Campos, Sérgio Vale Aguiar http://lattes.cnpq.br/6438645213502821 |
| dc.contributor.author.fl_str_mv |
Pereira, Getúlio de Morais |
| dc.subject.por.fl_str_mv |
PPI Bridging Centrality Aprendizado de Máquina Redes Complexas Machine Learning Complex Networks Bridging Centrality CNPQ::CIENCIAS EXATAS E DA TERRA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
PPI Bridging Centrality Aprendizado de Máquina Redes Complexas Machine Learning Complex Networks Bridging Centrality CNPQ::CIENCIAS EXATAS E DA TERRA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Protein-protein interaction (PPI) networks often carry expressive numbers of proteins and interactions in the order of thousands, possibly millions. The promising nodes in large PPI networks, which can be used in drug production, can be identified through exact methods such as bridging centrality, however, this can become computationally expensive to be overcome due to the complexity of these networks. As an alternative, the use of machine learning is suggested. The objective of this study was analyzed machine learning algorithms (ML) applied to the problem of determining bridging centrality in PPI networks, modeled by Complex Network, and identify the algorithm which offers results closest to generated by the exact algorithm taken as a reference, but with less computational effort. PPI networks were selected from nine different bacteria, on which a set of structural metrics were generated using Gephi. Then, each PPI file containing the generated metrics was submitted to the analysis of 15 algorithms selected for ML available in the WEKA. The prediction metrics files were submitted to the best predictive model identified and then the nodes were classified as weak or strong. Finally, the performance of the classifier was evaluated using the R software and the ROCR package, obtaining the ROC curve, the area under ROC curve (AUC), the corresponding accuracy and threshold. The best learning models identified correspond to the algorithms Bagging and Random Forest and the worst were the NaiveBayes and OneR. In general terms, the mean prediction accuracy of the nodes of the PPIs was 74.38% ± 5.84%, with a mean threshold of 96%, and mean AUC of 65.09 ± 4.48%. The nodes correctly predicted by the classifier were, on average, 24.33%, with 2.75% true positive and 21.58% true negative. On the other hand, 75.66% were incorrectly classified, being 23,67% false positive and 51.99% false negative. Comparing the 2.75% true positive with those identified by the exact algorithm, an average hit rate of 77.16% ± 20.23% was obtained. The predictive result generated by the ML process approached that obtained by the exact algorithm, presenting efficacy, however, with a considerable error rate. Thus, our results corroborate the literature knowledge about the use of ML in complex networks, that is, ML algorithms applied to complex centrality measures such as bridging centrality are not effective. The plugin implemented as one of the products of this work for GEPHI software, version 0.9.1 or higher, is available on sourceforge.net under the name of BridgingCentralityPlugin. |
| publishDate |
2018 |
| dc.date.none.fl_str_mv |
2018-04-18T19:53:18Z 2018-04-18T19:53:18Z 2018-02-28 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
PEREIRA, Getúlio de Morais. Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes - Uberlândia, 2018. 68 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. https://repositorio.ufu.br/handle/123456789/21190 http://dx.doi.org/10.14393/ufu.di.2018.287 |
| identifier_str_mv |
PEREIRA, Getúlio de Morais. Características inerentes a medidas de centralidade e uso de algoritmos de aprendizado de máquina para classificação de bridging nodes - Uberlândia, 2018. 68 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. |
| url |
https://repositorio.ufu.br/handle/123456789/21190 http://dx.doi.org/10.14393/ufu.di.2018.287 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
| instname_str |
Universidade Federal de Uberlândia (UFU) |
| instacron_str |
UFU |
| institution |
UFU |
| reponame_str |
Repositório Institucional da UFU |
| collection |
Repositório Institucional da UFU |
| repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
| repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
| _version_ |
1827843522057732096 |