Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal do Rio de Janeiro
Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia de Sistemas e Computação UFRJ |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://hdl.handle.net/11422/14053 |
Resumo: | [EN] Natural Language Plagiarism Detection (NLPD) aims to seek textual evidence of plagiarism in documents, in order to generate a list of candidate documents of being plagiarized, to further be analysed by humans. External plagiarism detection (EPD) is a NLPD task in which a set of documents is available to be queried, seeking for plagiarism. DPE is comprised of a few steps, one of them being the Heuristic Search (HR), which is the EPD stage that retrieves a set of plagiarism candidate documents from a large corpus, reducing the workload of the later stages of the EPD. The HR stage is an Information Retrieval (IR) task, and comprises two subtasks, namely, Indexing and Source Retrieval. In order to speed up the execution of IR subtasks, two partitioning methods were proposed, the permutations and vocabulary partitioning. Both use Locality-Sensitive Hashing (LSH) and are based on the mathematical concept known as partition of a set. Partitioning any set can generate remainders, and to address this issue, the Remainder at End (RaE), Remainder at Cell (RaC) and Distributed at Cell (DaC) treatment strategies were proposed. Both partitioning methods were approximately 101% faster than the IR state of art. Moreover, RaE, RaC and DaC achieved better results in document indexing, query extraction and retrieval time in comparison to a standard LSH baseline, the Minmax. |
| id |
UFRJ_53ca256c7bde1787f09378c1b0fd2078 |
|---|---|
| oai_identifier_str |
oai:pantheon.ufrj.br:11422/14053 |
| network_acronym_str |
UFRJ |
| network_name_str |
Repositório Institucional da UFRJ |
| repository_id_str |
|
| spelling |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externoPartitioning approaches using locality-sensitive hashing applied to heuristic retrieval in external plagiarism detectionlshPartitionsLocality-sensitive hashingPlagiarism detectionCNPQ::ENGENHARIAS[EN] Natural Language Plagiarism Detection (NLPD) aims to seek textual evidence of plagiarism in documents, in order to generate a list of candidate documents of being plagiarized, to further be analysed by humans. External plagiarism detection (EPD) is a NLPD task in which a set of documents is available to be queried, seeking for plagiarism. DPE is comprised of a few steps, one of them being the Heuristic Search (HR), which is the EPD stage that retrieves a set of plagiarism candidate documents from a large corpus, reducing the workload of the later stages of the EPD. The HR stage is an Information Retrieval (IR) task, and comprises two subtasks, namely, Indexing and Source Retrieval. In order to speed up the execution of IR subtasks, two partitioning methods were proposed, the permutations and vocabulary partitioning. Both use Locality-Sensitive Hashing (LSH) and are based on the mathematical concept known as partition of a set. Partitioning any set can generate remainders, and to address this issue, the Remainder at End (RaE), Remainder at Cell (RaC) and Distributed at Cell (DaC) treatment strategies were proposed. Both partitioning methods were approximately 101% faster than the IR state of art. Moreover, RaE, RaC and DaC achieved better results in document indexing, query extraction and retrieval time in comparison to a standard LSH baseline, the Minmax.[PT] A Detecção de Plágio em Linguagem Natural (NLPD) visa identificar a evidência textual que um documento contém plágio, para gerar uma lista de documentos que são plagiados para posterior avaliação humana. A detecção de plagio externo (EPD) é uma tarefa da NLPD, a qual um conjunto de documentos está disponível para consulta por plágio. EPD é formada de algumas etapas, dentre elas a Busca Heurística (HR), que é a etapa de EPD que visa recuperar um conjunto de documentos candidatos a plágio de um grande corpus, reduzindo o carga de trabalho das etapas posteriores do EPD. A etapa de Busca Heurística é uma tarefa de Recuperação de Informação (IR) e contém duas subtarefas: a indexação e a busca. Foram propostos dois métodos de particionamento, das permutações e do vocabulário, com o objetivo de tornar mais rápida a execução das subtarefas de IR. Ambos utilizam Locality-Sensitive Hashing (LSH) e são baseados no conceito matemático conhecido como partição de um conjunto. O particionamento de qualquer conjunto pode gerar resto, e a partir disso foram propostas as estratégias de tratamento Remainder at End (RaE), Remainder at Cell (RaC) e Distributed at Cell (DaC). Nos dois métodos de particionamento, RaE, RaC e DaC foram aproximadamente 101% mais rápidos que o estado da arte da IR na subtarefa de busca. Além disso, ambos alcançaram melhores resultados na indexação de documentos, extração de consultas e tempo de recuperação quando comparados com o baseline padrão do LSH, o MinMax.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJXexéo, Geraldo Bonorinohttp://lattes.cnpq.br/4783565791787812http://lattes.cnpq.br/8628672465057972Silva, Eduardo Bezerra daDuarte, Fellipe RibeiroSilva, Geraldo Zimbrão daArruda, Michel Dias de2021-04-05T02:24:54Z2023-12-21T03:07:33Z2019-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/11422/14053porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:07:33Zoai:pantheon.ufrj.br:11422/14053Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:07:33Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
| dc.title.none.fl_str_mv |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo Partitioning approaches using locality-sensitive hashing applied to heuristic retrieval in external plagiarism detection |
| title |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo |
| spellingShingle |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo Arruda, Michel Dias de lsh Partitions Locality-sensitive hashing Plagiarism detection CNPQ::ENGENHARIAS |
| title_short |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo |
| title_full |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo |
| title_fullStr |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo |
| title_full_unstemmed |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo |
| title_sort |
Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo |
| author |
Arruda, Michel Dias de |
| author_facet |
Arruda, Michel Dias de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Xexéo, Geraldo Bonorino http://lattes.cnpq.br/4783565791787812 http://lattes.cnpq.br/8628672465057972 Silva, Eduardo Bezerra da Duarte, Fellipe Ribeiro Silva, Geraldo Zimbrão da |
| dc.contributor.author.fl_str_mv |
Arruda, Michel Dias de |
| dc.subject.por.fl_str_mv |
lsh Partitions Locality-sensitive hashing Plagiarism detection CNPQ::ENGENHARIAS |
| topic |
lsh Partitions Locality-sensitive hashing Plagiarism detection CNPQ::ENGENHARIAS |
| description |
[EN] Natural Language Plagiarism Detection (NLPD) aims to seek textual evidence of plagiarism in documents, in order to generate a list of candidate documents of being plagiarized, to further be analysed by humans. External plagiarism detection (EPD) is a NLPD task in which a set of documents is available to be queried, seeking for plagiarism. DPE is comprised of a few steps, one of them being the Heuristic Search (HR), which is the EPD stage that retrieves a set of plagiarism candidate documents from a large corpus, reducing the workload of the later stages of the EPD. The HR stage is an Information Retrieval (IR) task, and comprises two subtasks, namely, Indexing and Source Retrieval. In order to speed up the execution of IR subtasks, two partitioning methods were proposed, the permutations and vocabulary partitioning. Both use Locality-Sensitive Hashing (LSH) and are based on the mathematical concept known as partition of a set. Partitioning any set can generate remainders, and to address this issue, the Remainder at End (RaE), Remainder at Cell (RaC) and Distributed at Cell (DaC) treatment strategies were proposed. Both partitioning methods were approximately 101% faster than the IR state of art. Moreover, RaE, RaC and DaC achieved better results in document indexing, query extraction and retrieval time in comparison to a standard LSH baseline, the Minmax. |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-09 2021-04-05T02:24:54Z 2023-12-21T03:07:33Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/14053 |
| url |
http://hdl.handle.net/11422/14053 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia de Sistemas e Computação UFRJ |
| publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia de Sistemas e Computação UFRJ |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
| instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
| instacron_str |
UFRJ |
| institution |
UFRJ |
| reponame_str |
Repositório Institucional da UFRJ |
| collection |
Repositório Institucional da UFRJ |
| repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
| repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
| _version_ |
1861279108385734656 |