Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Silva, João Antônio da lattes
Orientador(a): Pereira, Denilson Alves
Banca de defesa: Pereira, Denilson Alves, Pereira Júnior, Álvaro Rodrigues, Rosa, Thierson Couto
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Lavras
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Departamento de Ciência da Computação
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufla.br/handle/1/12853
Resumo: Diversas aplicações Web mantêm repositórios de dados com referências a milhares de entidades do mundo real. Esses dados têm origem em diversas fontes e novos dados continuamente são agregados a esses repositórios. Identificar o conjunto de entidades distintas e associar as referências corretamente a cada entidade é um problema conhecido como resolução de entidades. Atualmente, um desafio é resolver esse problema incrementalmente, à medida que novos dados se tornam disponíveis, especialmente quando os registros de dados são descritos por um único atributo textual. Neste trabalho, é proposta uma abordagem incremental para resolução de entidades. Diferente de abordagens tradicionais o método implementado, denominado AssocIER, usa um ensemble de classificadores multiclasses com auto treinamento e detecção de novas classes para incrementalmente agrupar referências à mesma entidade. O auto treinamento da abordagem permite a atualização automática do modelo de aprendizagem na fase de predição, enquanto o mecanismo de detecção de novas classes permite a identificação de registros de classes desconhecidas em tempo de treinamento. O principal classificador no ensemble é um caso particular de classificador associativo, que pode ser implementado eficientemente. A abordagem proposta foi avaliada em várias bases de dados reais e diferentes cenários, e foi comparada com uma abordagem tradicional para a resolução de entidades. Os resultados obtidos mostram que o AssocIER é efetivo e eficiente na solução de entidades cujos dados são não estruturados e na presença de um número muito alto de entidades reais distintas, sendo capaz de identificar centenas de novas classes. Os resultados também mostram que o AssocIER pode melhorar muito a performance em base de dados cujos registros são ofertas de produtos, tipo de dados que o baseline não apresenta bons resultados. Nesse caso, os resultados obtidos chegam a ser 149% mais efetivos e chega a ser 385 vezes mais rápido na fase de predição. Os resultados ainda demostram a importância da incorporação de novos dados no modelo de aprendizagem, principalmente quando a base de dados contém poucos registros por classe. Ademais, a abordagem proposta apresenta bom comportamento quando poucos registros estão disponíveis para a geração de uma solução inicial, sendo mesmo possível sua execução sem nenhum dado de treinamento, caso em que o modelo de aprendizagem é totalmente gerado incrementalmente na fase de teste.
id UFLA_8dacbae001b929d27ded6bee668d0801
oai_identifier_str oai:repositorio.ufla.br:1/12853
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling 2017-05-09T16:42:56Z2017-05-09T16:42:56Z2017-05-082017-02-22SILVA, J. A. da. Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos. 2017. 116 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2017.https://repositorio.ufla.br/handle/1/12853Diversas aplicações Web mantêm repositórios de dados com referências a milhares de entidades do mundo real. Esses dados têm origem em diversas fontes e novos dados continuamente são agregados a esses repositórios. Identificar o conjunto de entidades distintas e associar as referências corretamente a cada entidade é um problema conhecido como resolução de entidades. Atualmente, um desafio é resolver esse problema incrementalmente, à medida que novos dados se tornam disponíveis, especialmente quando os registros de dados são descritos por um único atributo textual. Neste trabalho, é proposta uma abordagem incremental para resolução de entidades. Diferente de abordagens tradicionais o método implementado, denominado AssocIER, usa um ensemble de classificadores multiclasses com auto treinamento e detecção de novas classes para incrementalmente agrupar referências à mesma entidade. O auto treinamento da abordagem permite a atualização automática do modelo de aprendizagem na fase de predição, enquanto o mecanismo de detecção de novas classes permite a identificação de registros de classes desconhecidas em tempo de treinamento. O principal classificador no ensemble é um caso particular de classificador associativo, que pode ser implementado eficientemente. A abordagem proposta foi avaliada em várias bases de dados reais e diferentes cenários, e foi comparada com uma abordagem tradicional para a resolução de entidades. Os resultados obtidos mostram que o AssocIER é efetivo e eficiente na solução de entidades cujos dados são não estruturados e na presença de um número muito alto de entidades reais distintas, sendo capaz de identificar centenas de novas classes. Os resultados também mostram que o AssocIER pode melhorar muito a performance em base de dados cujos registros são ofertas de produtos, tipo de dados que o baseline não apresenta bons resultados. Nesse caso, os resultados obtidos chegam a ser 149% mais efetivos e chega a ser 385 vezes mais rápido na fase de predição. Os resultados ainda demostram a importância da incorporação de novos dados no modelo de aprendizagem, principalmente quando a base de dados contém poucos registros por classe. Ademais, a abordagem proposta apresenta bom comportamento quando poucos registros estão disponíveis para a geração de uma solução inicial, sendo mesmo possível sua execução sem nenhum dado de treinamento, caso em que o modelo de aprendizagem é totalmente gerado incrementalmente na fase de teste.Several Web applications maintain data repositories containing references to thousands of realworld entities originating from multiple sources, and they continually receive new data. Identifying the distinct entities and associating the correct references to each one is a problem known as entity resolution. The challenge is to solve the problem incrementally, as the data arrive, especially when those data are described by a single textual attribute. In this work, we propose a approach for incremental entity resolution. Unlike traditional approaches, the method we implemented, called AssocIER, uses an ensemble of multiclass classifiers with self-training and detection of novel classes to incrementally group entity references. Self-training allows the learning model to be automatically updated during the prediction phase, and the novel class detection mechanism allows the identification of records of unknown classes in the training time. Our main classifier is based on a restricted case of association rules, which can be implemented efficiently. We evaluated our method in various real-world datasets and scenarios, comparing it with a traditional entity resolution approach. The results show that AssocIER is effective and efficient to solve unstructured data in collections with a very large number of entities and features, and is able to detect hundreds of novel classes. We found that AssocIER can greatly improve the performance of resolving product data, which is a weakness of the baseline, achieving gains of 149% in effectiveness and being up to 385 times faster in the prediction phase. The results also show that it is important to incorporate new data into the learning model, especially for datasets with fewer records per class. Furthermore, our method behaves well in scenarios of scarce availability of examples for training, being able to run even with no training data.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-Graduação em Ciência da ComputaçãoUFLAbrasilDepartamento de Ciência da ComputaçãoCiência da ComputaçãoResolução de entidadesClassificação associativaAprendizagem incrementalEntity resolutionAssociative classificationIncremental learningUma abordagem incremental para resolução de entidades descritas por dados textuais curtosAn incremental entity resolution approach for short textual datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPereira, Denilson AlvesPereira, Denilson AlvesPereira Júnior, Álvaro RodriguesRosa, Thierson Coutohttp://lattes.cnpq.br/7159148948183615Silva, João Antônio dainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos.pdfDISSERTAÇÃO_Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos.pdfapplication/pdf1728651https://repositorio.ufla.br/bitstreams/72b1f1f5-f724-4ea8-b879-f17a9818fd54/download8cb875bf280c92c29c342873856cdc29MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/708b7e7c-6a29-49a3-82f0-b76a475e0d60/download760884c1e72224de569e74f79eb87ce3MD52falseAnonymousREADTEXTDISSERTAÇÃO_Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos.pdf.txtDISSERTAÇÃO_Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos.pdf.txtExtracted texttext/plain103033https://repositorio.ufla.br/bitstreams/841a356a-bbdf-4914-adce-792df7438ba5/download00b2175b496157383ace58f075c84d86MD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos.pdf.jpgDISSERTAÇÃO_Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos.pdf.jpgGenerated Thumbnailimage/jpeg3496https://repositorio.ufla.br/bitstreams/c0697160-3e82-47cf-a06d-7244edab6ad9/download9d94dd0e52bae0cb7b95a9890a79d981MD54falseAnonymousREAD1/128532025-08-25 16:36:29.419open.accessoai:repositorio.ufla.br:1/12853https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-25T19:36:29Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
dc.title.alternative.pt_BR.fl_str_mv An incremental entity resolution approach for short textual data
title Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
spellingShingle Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
Silva, João Antônio da
Ciência da Computação
Resolução de entidades
Classificação associativa
Aprendizagem incremental
Entity resolution
Associative classification
Incremental learning
title_short Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
title_full Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
title_fullStr Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
title_full_unstemmed Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
title_sort Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos
author Silva, João Antônio da
author_facet Silva, João Antônio da
author_role author
dc.contributor.advisor1.fl_str_mv Pereira, Denilson Alves
dc.contributor.referee1.fl_str_mv Pereira, Denilson Alves
dc.contributor.referee2.fl_str_mv Pereira Júnior, Álvaro Rodrigues
dc.contributor.referee3.fl_str_mv Rosa, Thierson Couto
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/7159148948183615
dc.contributor.author.fl_str_mv Silva, João Antônio da
contributor_str_mv Pereira, Denilson Alves
Pereira, Denilson Alves
Pereira Júnior, Álvaro Rodrigues
Rosa, Thierson Couto
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Resolução de entidades
Classificação associativa
Aprendizagem incremental
Entity resolution
Associative classification
Incremental learning
dc.subject.por.fl_str_mv Resolução de entidades
Classificação associativa
Aprendizagem incremental
Entity resolution
Associative classification
Incremental learning
description Diversas aplicações Web mantêm repositórios de dados com referências a milhares de entidades do mundo real. Esses dados têm origem em diversas fontes e novos dados continuamente são agregados a esses repositórios. Identificar o conjunto de entidades distintas e associar as referências corretamente a cada entidade é um problema conhecido como resolução de entidades. Atualmente, um desafio é resolver esse problema incrementalmente, à medida que novos dados se tornam disponíveis, especialmente quando os registros de dados são descritos por um único atributo textual. Neste trabalho, é proposta uma abordagem incremental para resolução de entidades. Diferente de abordagens tradicionais o método implementado, denominado AssocIER, usa um ensemble de classificadores multiclasses com auto treinamento e detecção de novas classes para incrementalmente agrupar referências à mesma entidade. O auto treinamento da abordagem permite a atualização automática do modelo de aprendizagem na fase de predição, enquanto o mecanismo de detecção de novas classes permite a identificação de registros de classes desconhecidas em tempo de treinamento. O principal classificador no ensemble é um caso particular de classificador associativo, que pode ser implementado eficientemente. A abordagem proposta foi avaliada em várias bases de dados reais e diferentes cenários, e foi comparada com uma abordagem tradicional para a resolução de entidades. Os resultados obtidos mostram que o AssocIER é efetivo e eficiente na solução de entidades cujos dados são não estruturados e na presença de um número muito alto de entidades reais distintas, sendo capaz de identificar centenas de novas classes. Os resultados também mostram que o AssocIER pode melhorar muito a performance em base de dados cujos registros são ofertas de produtos, tipo de dados que o baseline não apresenta bons resultados. Nesse caso, os resultados obtidos chegam a ser 149% mais efetivos e chega a ser 385 vezes mais rápido na fase de predição. Os resultados ainda demostram a importância da incorporação de novos dados no modelo de aprendizagem, principalmente quando a base de dados contém poucos registros por classe. Ademais, a abordagem proposta apresenta bom comportamento quando poucos registros estão disponíveis para a geração de uma solução inicial, sendo mesmo possível sua execução sem nenhum dado de treinamento, caso em que o modelo de aprendizagem é totalmente gerado incrementalmente na fase de teste.
publishDate 2017
dc.date.submitted.none.fl_str_mv 2017-02-22
dc.date.accessioned.fl_str_mv 2017-05-09T16:42:56Z
dc.date.available.fl_str_mv 2017-05-09T16:42:56Z
dc.date.issued.fl_str_mv 2017-05-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, J. A. da. Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos. 2017. 116 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2017.
dc.identifier.uri.fl_str_mv https://repositorio.ufla.br/handle/1/12853
identifier_str_mv SILVA, J. A. da. Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos. 2017. 116 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2017.
url https://repositorio.ufla.br/handle/1/12853
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFLA
dc.publisher.country.fl_str_mv brasil
dc.publisher.department.fl_str_mv Departamento de Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Lavras
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
bitstream.url.fl_str_mv https://repositorio.ufla.br/bitstreams/72b1f1f5-f724-4ea8-b879-f17a9818fd54/download
https://repositorio.ufla.br/bitstreams/708b7e7c-6a29-49a3-82f0-b76a475e0d60/download
https://repositorio.ufla.br/bitstreams/841a356a-bbdf-4914-adce-792df7438ba5/download
https://repositorio.ufla.br/bitstreams/c0697160-3e82-47cf-a06d-7244edab6ad9/download
bitstream.checksum.fl_str_mv 8cb875bf280c92c29c342873856cdc29
760884c1e72224de569e74f79eb87ce3
00b2175b496157383ace58f075c84d86
9d94dd0e52bae0cb7b95a9890a79d981
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1854947702528278528