Amostragem e medidas de qualidade de shapelets
| Ano de defesa: | 2016 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07112016-162458/ |
Resumo: | Uma série temporal é uma sequência ordenada pelo tempo de valores reais. Dado que inúmeros fenômenos do dia-a-dia podem ser representados por séries temporais, há grande interesse na mineração de dados temporais, em especial na tarefa de classificação. Recentemente foi introduzida uma nova primitiva de séries temporais chamada shapelet, que é uma subsequência que permite a classificação de séries temporais de acordo com padrões locais. Na transformada shapelet estas subsequências se tornam atributos em uma matriz de distância que mede a dissimilaridade entre os atributos e as séries temporais. Para obter a transformada é preciso escolher alguns shapelets dos inúmeros possíveis, seja pelo efeito de evitar overfitting ou pelo fato de que é computacionalmente caro obter todos. Sendo assim, foram elaboradas medidas de qualidade para os shapelets. Tradicionalmente tem se utilizado a medida de ganho de informação, porém recentemente foi proposto o uso da f-statistic, e nós propomos neste trabalho uma nova denominada in-class transitions. Em nossos experimentos demonstramos que a inclass transitions costuma obter a melhor acurácia, especialmente quando poucos atributos são utilizados. Além disso, propomos o uso de amostragem aleatória nos shapelets para reduzir o espaço de busca e acelerar o processo de obtenção da transformada. Contrastamos a abordagem de amostragem aleatória contra uma em que só são exploradas shapelets de determinados tamanhos. Nossos experimentos mostraram que a amostragem aleatória é mais rápida e requer a computação de um menor número de shapelets. De fato, obtemos os melhores resultados ao amostrarmos 5% dos shapelets, mas mesmo a uma amostragem de 0,05% não foi possível notar uma degradação significante da acurácia. |
| id |
USP_6cbb372f77aebefcba86dd44d95dc283 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-07112016-162458 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Amostragem e medidas de qualidade de shapeletsShapelets sampling and quality measurementsClassificação de séries temporais; Transformada shapelet; Medidas de qualidade; Amostragem aleatóriaClassification of time series; Shapelet transform; Quality measurements; Random samplingUma série temporal é uma sequência ordenada pelo tempo de valores reais. Dado que inúmeros fenômenos do dia-a-dia podem ser representados por séries temporais, há grande interesse na mineração de dados temporais, em especial na tarefa de classificação. Recentemente foi introduzida uma nova primitiva de séries temporais chamada shapelet, que é uma subsequência que permite a classificação de séries temporais de acordo com padrões locais. Na transformada shapelet estas subsequências se tornam atributos em uma matriz de distância que mede a dissimilaridade entre os atributos e as séries temporais. Para obter a transformada é preciso escolher alguns shapelets dos inúmeros possíveis, seja pelo efeito de evitar overfitting ou pelo fato de que é computacionalmente caro obter todos. Sendo assim, foram elaboradas medidas de qualidade para os shapelets. Tradicionalmente tem se utilizado a medida de ganho de informação, porém recentemente foi proposto o uso da f-statistic, e nós propomos neste trabalho uma nova denominada in-class transitions. Em nossos experimentos demonstramos que a inclass transitions costuma obter a melhor acurácia, especialmente quando poucos atributos são utilizados. Além disso, propomos o uso de amostragem aleatória nos shapelets para reduzir o espaço de busca e acelerar o processo de obtenção da transformada. Contrastamos a abordagem de amostragem aleatória contra uma em que só são exploradas shapelets de determinados tamanhos. Nossos experimentos mostraram que a amostragem aleatória é mais rápida e requer a computação de um menor número de shapelets. De fato, obtemos os melhores resultados ao amostrarmos 5% dos shapelets, mas mesmo a uma amostragem de 0,05% não foi possível notar uma degradação significante da acurácia.A time series is a time ordered sequence of real values. Given that numerous daily phenomena that can be described by time series, there is a great interest on its data mining, specially on the task of classification. Recently it was introduced a new time series primitive called shapelets, that is a subsequence that allows the classification of time series by local patterns. On the shapelet transformation these subsequences turn into attributes in a distance matrix that measures the dissimilarity between these attributes and the time series. To obtain the shapelet transformation it is required to choose some shapelets among all of the possible ones, be it to avoid overfitting or because it is too computationally expensive to obtain everyone. Thus, some shapelet quality measurements were created. Traditionally the information gain has been used as the default measurement, however, recently it was proposed to use the f-statistic instead, and in this work we propose a new one called in-class transitions. On our experiments it is shown that usually the in-class transitions achieves the best accuracy, specially when few attributes are used. Moreover, we propose the use of random sampling of shapelets as a way to reduce the search space and to speed up the process of obtaining the shapelet transformation. We contrast this approach with one that explores only shapelets that have a specific length. Our experiments show that random sampling is faster and requires fewer shapelets to be computed. In fact, we got the best results when we sampled 5% of the shapelets, but even at a rate of 0.05% it was not possible to detect a significant degradation of the accuracy.Biblioteca Digitais de Teses e Dissertações da USPBatista, Gustavo Enrique de Almeida Prado AlvesCavalcante, Lucas Schmidt2016-05-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-07112016-162458/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2017-09-04T21:05:30Zoai:teses.usp.br:tde-07112016-162458Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212017-09-04T21:05:30Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Amostragem e medidas de qualidade de shapelets Shapelets sampling and quality measurements |
| title |
Amostragem e medidas de qualidade de shapelets |
| spellingShingle |
Amostragem e medidas de qualidade de shapelets Cavalcante, Lucas Schmidt Classificação de séries temporais; Transformada shapelet; Medidas de qualidade; Amostragem aleatória Classification of time series; Shapelet transform; Quality measurements; Random sampling |
| title_short |
Amostragem e medidas de qualidade de shapelets |
| title_full |
Amostragem e medidas de qualidade de shapelets |
| title_fullStr |
Amostragem e medidas de qualidade de shapelets |
| title_full_unstemmed |
Amostragem e medidas de qualidade de shapelets |
| title_sort |
Amostragem e medidas de qualidade de shapelets |
| author |
Cavalcante, Lucas Schmidt |
| author_facet |
Cavalcante, Lucas Schmidt |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Batista, Gustavo Enrique de Almeida Prado Alves |
| dc.contributor.author.fl_str_mv |
Cavalcante, Lucas Schmidt |
| dc.subject.por.fl_str_mv |
Classificação de séries temporais; Transformada shapelet; Medidas de qualidade; Amostragem aleatória Classification of time series; Shapelet transform; Quality measurements; Random sampling |
| topic |
Classificação de séries temporais; Transformada shapelet; Medidas de qualidade; Amostragem aleatória Classification of time series; Shapelet transform; Quality measurements; Random sampling |
| description |
Uma série temporal é uma sequência ordenada pelo tempo de valores reais. Dado que inúmeros fenômenos do dia-a-dia podem ser representados por séries temporais, há grande interesse na mineração de dados temporais, em especial na tarefa de classificação. Recentemente foi introduzida uma nova primitiva de séries temporais chamada shapelet, que é uma subsequência que permite a classificação de séries temporais de acordo com padrões locais. Na transformada shapelet estas subsequências se tornam atributos em uma matriz de distância que mede a dissimilaridade entre os atributos e as séries temporais. Para obter a transformada é preciso escolher alguns shapelets dos inúmeros possíveis, seja pelo efeito de evitar overfitting ou pelo fato de que é computacionalmente caro obter todos. Sendo assim, foram elaboradas medidas de qualidade para os shapelets. Tradicionalmente tem se utilizado a medida de ganho de informação, porém recentemente foi proposto o uso da f-statistic, e nós propomos neste trabalho uma nova denominada in-class transitions. Em nossos experimentos demonstramos que a inclass transitions costuma obter a melhor acurácia, especialmente quando poucos atributos são utilizados. Além disso, propomos o uso de amostragem aleatória nos shapelets para reduzir o espaço de busca e acelerar o processo de obtenção da transformada. Contrastamos a abordagem de amostragem aleatória contra uma em que só são exploradas shapelets de determinados tamanhos. Nossos experimentos mostraram que a amostragem aleatória é mais rápida e requer a computação de um menor número de shapelets. De fato, obtemos os melhores resultados ao amostrarmos 5% dos shapelets, mas mesmo a uma amostragem de 0,05% não foi possível notar uma degradação significante da acurácia. |
| publishDate |
2016 |
| dc.date.none.fl_str_mv |
2016-05-02 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07112016-162458/ |
| url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07112016-162458/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815257947147599872 |