Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Lima, Mariana Dehon Costa e
Orientador(a): Nassar, Silvia Modesto
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/xmlui/handle/123456789/123325
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014.
id UFSC_fe142532a2d0f9b558d13c769fca436d
oai_identifier_str oai:repositorio.ufsc.br:123456789/123325
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaLima, Mariana Dehon Costa eNassar, Silvia Modesto2014-08-06T18:04:53Z2014-08-06T18:04:53Z2014327126https://repositorio.ufsc.br/xmlui/handle/123456789/123325Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014.Rede Bayesiana é uma técnica de classificação vastamente utilizada na área de Inteligência Artificial. Sua estrutura é composta por um grafo acíclico direcionado usado para modelar a associação de variáveis categóricas (qualitativas). Entretanto, em casos onde existem variáveis numéricas no domínio, uma pré discretização é geralmente necessária. Nesta dissertação, é apresentada uma discretização heurística para Redes Bayesianas que procura padrões nos dados e os divide de acordo com os padrões encontrados. Esses padrões são identificados por dois eventos que são otimizados por uma busca através do Algoritmo Genético. Esses dois eventos mudam de acordo com a base de dados, tornando a discretização proposta mais flexível para lidar com diferentes domínios de aplicação. O método de discretizaçãao proposto foi testado em duas situações distintas: quando a variável de saída é qualitativa (classificação) e também quando a variável de saída é quantitativa e é necessário estimar o seu valor médio e desvio-padrão. Para casos em que a saída é qualitativa foram utilizados duas bases de dados: Iris Flower e Wine. Em ambas as bases de dados a acurácia do método proposto foi superior quando comparada com outros dois métodos da literatura: um que discretiza as variáveis por frequência e outro por tamanho de classes. Para representar os casos em que variável de saída é quantitativa, foi utilizada uma base de dados real com dados de perfuração de poços de petróleo com o objetivo de estimar a taxa média de perfuração de broca. Nesses casos, é feito a estimação do valor de saída através da média da distribuição de probabilidade. O método proposto obteve um erro inferior na estimação quando comparado tanto com o método que discretiza por frequência quanto com o método que discretiza por tamanho. Com os resultados, a conclusão é que o método pode discretizar as variáveis quantitativas através das identificações dos eventos que desviam de um intervalo intermediário nos dados, seja para cima (pico) ou para baixo (vale). Também foi observado que o método está ligado a um problema de otimização global quando todas as variáveis quantitativas são discretizadas ao mesmo tempo.<br>Abstract : Bayesian Network (BN) is a classification technique widely used in Artificial Intelligence. Its structure is a DAG (direct acyclic graph) used to model the association of categorical variables. However, in cases where the variables are numerical, a previous discretization is usually necessary. In this dissertation, we show a heuristic discretization for Bayesian Networks that search for data patterns and divide the data according to them. These patterns are identified by two events: peak and valley being optimized by a search through the Genetic Algorithm. These two events change according to the database, making the proposed method a exible discretization to handle difierent application domains. The Peak-Valley Discretization Method proposed was tested two different situations: only classification when the output variable is qualitative and also estimating the mean value and the standard deviation when the output variable is quantitative. Considering the cases where the output is quantitative, two databases where used: Iris Flower and Wine. The accuracy in both of them was superior with the proposed method when compared with two other methods from the literature: one that discretizes the variable by frequency and one that does that by class' size. To represent the cases where the output variable is quantitative, was used a real data of oil wells perforation with the objective of estimating the average perforation rate. In such cases, the estimation is done by the average of the output value distribution of probability. The proposed method achieved a lower error in the estimation when compared with the method of frequency discretization and with the method that discretizes by size. With the results, the conclusion is that the method can properly discretize the quantitative variables by identifying events that deviate from expected results within the knowledge domain, whether up (peak) or down (valley). It was also observed that the method brings a problem of global optimization when discretizing all quantitative variables simultaneously. The problem of global optimization was treated by a Genetic Algorithm.82 p.| il., grafs., tabs.porComputaçãoRedes bayesianasAlgoritmos genéticosMétodo de discretização de variáveis para redes bayesianas utilizando algoritmos genéticosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL327126.pdfapplication/pdf885886https://repositorio.ufsc.br/bitstream/123456789/123325/1/327126.pdf75231cd2c02dd6ae8e60fb0d058ec67dMD51123456789/1233252014-08-06 15:04:54.02oai:repositorio.ufsc.br:123456789/123325Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732014-08-06T18:04:54Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
title Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
spellingShingle Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
Lima, Mariana Dehon Costa e
Computação
Redes bayesianas
Algoritmos genéticos
title_short Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
title_full Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
title_fullStr Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
title_full_unstemmed Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
title_sort Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos
author Lima, Mariana Dehon Costa e
author_facet Lima, Mariana Dehon Costa e
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Lima, Mariana Dehon Costa e
dc.contributor.advisor1.fl_str_mv Nassar, Silvia Modesto
contributor_str_mv Nassar, Silvia Modesto
dc.subject.classification.pt_BR.fl_str_mv Computação
Redes bayesianas
Algoritmos genéticos
topic Computação
Redes bayesianas
Algoritmos genéticos
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014.
publishDate 2014
dc.date.accessioned.fl_str_mv 2014-08-06T18:04:53Z
dc.date.available.fl_str_mv 2014-08-06T18:04:53Z
dc.date.issued.fl_str_mv 2014
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/xmlui/handle/123456789/123325
dc.identifier.other.pt_BR.fl_str_mv 327126
identifier_str_mv 327126
url https://repositorio.ufsc.br/xmlui/handle/123456789/123325
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 82 p.| il., grafs., tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/123325/1/327126.pdf
bitstream.checksum.fl_str_mv 75231cd2c02dd6ae8e60fb0d058ec67d
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851758875465744384