Characterization and identification of synonyms on anonymous social networks

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Gomes, Janaína Sant’Anna Gomide
Orientador(a): Figueiredo, Daniel Ratton
Banca de defesa: Zaverucha, Gerson, Barbosa, Valmir Carneiro, Laender, Alberto Henrique Frade, Ribeiro, Bruno Felisberto Martins
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal do Rio de Janeiro
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia de Sistemas e Computação
Departamento: Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://hdl.handle.net/11422/13547
Resumo: Em muitos cenários objetos são referenciados por meio de vários nomes e essa diversidade de nomes gera ambiguidade. Abordar o problema de ambigüidade de nome é um passo importante na consolidação de dados e com o crescimento da quantidade de dados digitais, tornou-se indispensável. Além disso, o contínuo aumento da preocupação com privacidade por parte de indivíduos e empresas está alterando a forma como os dados ficam disponíveis. Em particular, a remoção de informações pessoalmente identificáveis (PII) está se tornando uma prática comum. Nesse trabalho é feita a caracterização e identificação de sinônimos em redes sociais anônimas e somente a estrutura da rede é considerada, toda PII foi removida. As principais contribuições desta tese são classificar os padrões de uso de diferentes nomes pelos indivíduos que possuem múltiplos nomes, propor um modelo probabilístico para sinônimos em redes sociais, e propor algoritmos para identificar sinônimos em redes sociais anônimas. O primeiro algoritmo considera distância entre nós e número de vizinhos em comum para identificar sinônimos em uma rede social. O segundo algoritmo considera perfis de indivíduos em redes de colaboração e identifica diferentes nós que correspondem ao dono do perfil. O algoritmo é baseado no problema do conjunto dominante e conjunto independente em grafos. O último algoritmo é um framework que classifica nós como tendo duplicatas em redes sociais. Esse algorithmo extrai subgrafos para gerar as características que são utilizadas como entrada para rede neural de dois níveis, projetada especificamente para esse problema. Resultados experimentais indicam que sinonimos podem ser efetivamente identificados mesmo em redes sociais anônimas considerando apenas a estrutura da rede.
id UFRJ_3c805ae8d15037ee4c6cdcd8e44a05e2
oai_identifier_str oai:pantheon.ufrj.br:11422/13547
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Gomes, Janaína Sant’Anna Gomidehttp://lattes.cnpq.br/3621433615334969Zaverucha, GersonBarbosa, Valmir CarneiroLaender, Alberto Henrique FradeRibeiro, Bruno Felisberto MartinsFigueiredo, Daniel Ratton2021-01-22T00:10:26Z2021-01-23T03:00:07Z2019-05http://hdl.handle.net/11422/13547Em muitos cenários objetos são referenciados por meio de vários nomes e essa diversidade de nomes gera ambiguidade. Abordar o problema de ambigüidade de nome é um passo importante na consolidação de dados e com o crescimento da quantidade de dados digitais, tornou-se indispensável. Além disso, o contínuo aumento da preocupação com privacidade por parte de indivíduos e empresas está alterando a forma como os dados ficam disponíveis. Em particular, a remoção de informações pessoalmente identificáveis (PII) está se tornando uma prática comum. Nesse trabalho é feita a caracterização e identificação de sinônimos em redes sociais anônimas e somente a estrutura da rede é considerada, toda PII foi removida. As principais contribuições desta tese são classificar os padrões de uso de diferentes nomes pelos indivíduos que possuem múltiplos nomes, propor um modelo probabilístico para sinônimos em redes sociais, e propor algoritmos para identificar sinônimos em redes sociais anônimas. O primeiro algoritmo considera distância entre nós e número de vizinhos em comum para identificar sinônimos em uma rede social. O segundo algoritmo considera perfis de indivíduos em redes de colaboração e identifica diferentes nós que correspondem ao dono do perfil. O algoritmo é baseado no problema do conjunto dominante e conjunto independente em grafos. O último algoritmo é um framework que classifica nós como tendo duplicatas em redes sociais. Esse algorithmo extrai subgrafos para gerar as características que são utilizadas como entrada para rede neural de dois níveis, projetada especificamente para esse problema. Resultados experimentais indicam que sinonimos podem ser efetivamente identificados mesmo em redes sociais anônimas considerando apenas a estrutura da rede.In many scenarios objects are referred to using multiple labels and this diversity leads to ambiguities. Addressing name ambiguity is an important step in data consolidation and with the growth in the amount of digital data has become even more pressing. Moreover, the growing privacy concerns among individuals and enterprises is leading to the removal of personally identifiable information (PII) in data that is publicly available. In this work, we focus on the characterization and identification of synonyms in anonymous social networks where only the network structure is considered, all PII has been discarded. The main contributions of this thesis are to classify name usage patterns by individuals that use multiple names, to propose a probabilistic model for synonyms in social networks, and to propose algorithms to identify synonyms in anonymous social networks. The first algorithm considers distance between nodes and number of common neighbors to identify synonyms in a social network. The second algorithm considers ego-centered collaboration networks and identifies the different nodes that correspond to the egonet owner. The algorithm is based on the dominating set and independent set problems in graphs. The last algorithm is a framework that classifies nodes as having duplicates in social networks. This algorithm extracts subgraphs to generate features for nodes that are then used as input to a two-level neural network designed specifically for this problem. Real collaboration networks, extracted from DBLP and Google Scholar, as well as familial networks are used to evaluate the proposed algorithms. Experimental results indicate that synonyms can effectively be identified even on anonymous social networks leveraging only network structure.Submitted by Natasha Valladão (natashasilvaa4@gmail.com) on 2021-01-07T20:20:27Z No. of bitstreams: 1 JanainaSantAnnaGomideGomes.pdf: 2177316 bytes, checksum: 352f9f6b5aeb5d0f79595603e7b1841c (MD5)Approved for entry into archive by Moreno Barros (moreno@ct.ufrj.br) on 2021-01-22T00:10:26Z (GMT) No. of bitstreams: 1 JanainaSantAnnaGomideGomes.pdf: 2177316 bytes, checksum: 352f9f6b5aeb5d0f79595603e7b1841c (MD5)Made available in DSpace on 2021-01-22T00:10:26Z (GMT). No. of bitstreams: 1 JanainaSantAnnaGomideGomes.pdf: 2177316 bytes, checksum: 352f9f6b5aeb5d0f79595603e7b1841c (MD5) Previous issue date: 2019-05engUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::ENGENHARIASAmbiguitySocial networksAlgorithmCharacterization and identification of synonyms on anonymous social networksCaracterização e identificação de sinônimos em redes sociais anônimasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJLICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/13547/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD52ORIGINALJanainaSantAnnaGomideGomes.pdfJanainaSantAnnaGomideGomes.pdfapplication/pdf2177316http://pantheon.ufrj.br:80/bitstream/11422/13547/1/JanainaSantAnnaGomideGomes.pdf352f9f6b5aeb5d0f79595603e7b1841cMD5111422/135472021-01-23 01:00:07.412oai:pantheon.ufrj.br:11422/13547TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2021-01-23T03:00:07Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Characterization and identification of synonyms on anonymous social networks
dc.title.alternative.pt_BR.fl_str_mv Caracterização e identificação de sinônimos em redes sociais anônimas
title Characterization and identification of synonyms on anonymous social networks
spellingShingle Characterization and identification of synonyms on anonymous social networks
Gomes, Janaína Sant’Anna Gomide
CNPQ::ENGENHARIAS
Ambiguity
Social networks
Algorithm
title_short Characterization and identification of synonyms on anonymous social networks
title_full Characterization and identification of synonyms on anonymous social networks
title_fullStr Characterization and identification of synonyms on anonymous social networks
title_full_unstemmed Characterization and identification of synonyms on anonymous social networks
title_sort Characterization and identification of synonyms on anonymous social networks
author Gomes, Janaína Sant’Anna Gomide
author_facet Gomes, Janaína Sant’Anna Gomide
author_role author
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3621433615334969
dc.contributor.author.fl_str_mv Gomes, Janaína Sant’Anna Gomide
dc.contributor.referee1.fl_str_mv Zaverucha, Gerson
dc.contributor.referee2.fl_str_mv Barbosa, Valmir Carneiro
dc.contributor.referee3.fl_str_mv Laender, Alberto Henrique Frade
dc.contributor.referee4.fl_str_mv Ribeiro, Bruno Felisberto Martins
dc.contributor.advisor1.fl_str_mv Figueiredo, Daniel Ratton
contributor_str_mv Zaverucha, Gerson
Barbosa, Valmir Carneiro
Laender, Alberto Henrique Frade
Ribeiro, Bruno Felisberto Martins
Figueiredo, Daniel Ratton
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS
topic CNPQ::ENGENHARIAS
Ambiguity
Social networks
Algorithm
dc.subject.por.fl_str_mv Ambiguity
Social networks
Algorithm
description Em muitos cenários objetos são referenciados por meio de vários nomes e essa diversidade de nomes gera ambiguidade. Abordar o problema de ambigüidade de nome é um passo importante na consolidação de dados e com o crescimento da quantidade de dados digitais, tornou-se indispensável. Além disso, o contínuo aumento da preocupação com privacidade por parte de indivíduos e empresas está alterando a forma como os dados ficam disponíveis. Em particular, a remoção de informações pessoalmente identificáveis (PII) está se tornando uma prática comum. Nesse trabalho é feita a caracterização e identificação de sinônimos em redes sociais anônimas e somente a estrutura da rede é considerada, toda PII foi removida. As principais contribuições desta tese são classificar os padrões de uso de diferentes nomes pelos indivíduos que possuem múltiplos nomes, propor um modelo probabilístico para sinônimos em redes sociais, e propor algoritmos para identificar sinônimos em redes sociais anônimas. O primeiro algoritmo considera distância entre nós e número de vizinhos em comum para identificar sinônimos em uma rede social. O segundo algoritmo considera perfis de indivíduos em redes de colaboração e identifica diferentes nós que correspondem ao dono do perfil. O algoritmo é baseado no problema do conjunto dominante e conjunto independente em grafos. O último algoritmo é um framework que classifica nós como tendo duplicatas em redes sociais. Esse algorithmo extrai subgrafos para gerar as características que são utilizadas como entrada para rede neural de dois níveis, projetada especificamente para esse problema. Resultados experimentais indicam que sinonimos podem ser efetivamente identificados mesmo em redes sociais anônimas considerando apenas a estrutura da rede.
publishDate 2019
dc.date.issued.fl_str_mv 2019-05
dc.date.accessioned.fl_str_mv 2021-01-22T00:10:26Z
dc.date.available.fl_str_mv 2021-01-23T03:00:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/13547
url http://hdl.handle.net/11422/13547
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia de Sistemas e Computação
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/13547/2/license.txt
http://pantheon.ufrj.br:80/bitstream/11422/13547/1/JanainaSantAnnaGomideGomes.pdf
bitstream.checksum.fl_str_mv dd32849f2bfb22da963c3aac6e26e255
352f9f6b5aeb5d0f79595603e7b1841c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1766886501059133440