BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/5114 |
Resumo: | The unauthorized reuse of source code characterizes plagiarism in programming, which can affect everything from the performance of students in programming courses to the quality of software development in companies. Through the realization of a systematic mapping study, the approaches of automatic detection of plagiarism in programming were analyzed to identify the used techniques, the evaluation test procedures, and the supported programming languages. It was found that the solutions do not include the different techniques used by plagiarists to change the source codes. This work created an approach, named BIOPLAG, capable of improving the automatic detection of plagiarism levels in source code. The functioning of the created approach is based on Bioinformatics and Computer Science techniques: tokens of programming language elements, mapping of source codes in synthetic biological sequences, and alignment of biological sequences. The implementation of BIOPLAG was evaluated through seven test scenarios containing 336 source codes implemented in C language used in 168 different tests, considering in each scenario the evaluative performance parameters: precision, recall and measure F. All examples of Plagiarized source codes were produced from three real experiments developed with the participation of students from undergraduate, graduate, and programmers from a software development company in the region. The results obtained were compared with two tools considered to be the reference in state of the art: MOSS and JPLAG. As a result, BIOPLAG performed better in four and equal in three test scenarios considering the indicators of precision, recall, and measure F. |
| id |
UTFPR-12_6c56193bcb5fa9187bf670c9258af6fa |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/5114 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformáticaBIOPLAG: approach to detect plagiarism in source code by using bioinformaticsPlágioProgramação (Computadores)BioinformáticaPlagiarismComputer programmingBioinformaticsCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoThe unauthorized reuse of source code characterizes plagiarism in programming, which can affect everything from the performance of students in programming courses to the quality of software development in companies. Through the realization of a systematic mapping study, the approaches of automatic detection of plagiarism in programming were analyzed to identify the used techniques, the evaluation test procedures, and the supported programming languages. It was found that the solutions do not include the different techniques used by plagiarists to change the source codes. This work created an approach, named BIOPLAG, capable of improving the automatic detection of plagiarism levels in source code. The functioning of the created approach is based on Bioinformatics and Computer Science techniques: tokens of programming language elements, mapping of source codes in synthetic biological sequences, and alignment of biological sequences. The implementation of BIOPLAG was evaluated through seven test scenarios containing 336 source codes implemented in C language used in 168 different tests, considering in each scenario the evaluative performance parameters: precision, recall and measure F. All examples of Plagiarized source codes were produced from three real experiments developed with the participation of students from undergraduate, graduate, and programmers from a software development company in the region. The results obtained were compared with two tools considered to be the reference in state of the art: MOSS and JPLAG. As a result, BIOPLAG performed better in four and equal in three test scenarios considering the indicators of precision, recall, and measure F.A reutilização não autorizada de código-fonte caracteriza o plágio em programação, que pode afetar desde o desempenho de alunos em disciplinas de programação até a qualidade do desenvolvimento de software nas empresas. Por meio da realização de um estudo de mapeamento sistemático foram analisadas as abordagens de detecção automática de plágio em programação para identificar as técnicas utilizadas, os procedimentos de testes de avaliação e as linguagens de programação que possuem suporte. Constatou-se que as soluções não contemplam as diferentes técnicas utilizadas pelos plagiadores para alterar os códigos-fontes. Este trabalho cria uma abordagem, nomeada BIOPLAG, capaz de aprimorar a detecção automática de níveis de plágio em código-fonte. O funcionamento da abordagem criada é fundamentado em técnicas da Bioinformática e da Ciência da Computação: tokens de elementos de linguagem de programação, mapeamento de códigos-fontes em sequências biológicas sintéticas e alinhamento de sequências biológicas. A implementação da BIOPLAG foi avaliada por meio de sete cenários de testes contendo 336 códigos-fontes implementados em linguagem C utilizados em 168 testes diferentes, sendo considerado em cada cenário os parâmetros avaliativos de desempenho: precisão, revocação e medida F. Todos os exemplos de códigos-fontes plagiados foram produzidos a partir de três experimentos reais desenvolvidos com a participação de alunos de graduação, mestrado e programadores de uma empresa de desenvolvimento de software da região. Os resultados obtidos foram comparados com duas ferramentas consideradas de referência no estado da arte: MOSS e JPLAG. Como resultado, a BIOPLAG apresentou desempenho melhor em quatro e igual em três cenários de testes considerando os indicadores de precisão, revocação e medida F.Universidade Tecnológica Federal do ParanáPonta GrossaBrasilPrograma de Pós-Graduação em Ciência da ComputaçãoUTFPRMatos, Simone Nasserhttps://orcid.org/0000-0002-5362-2343http://lattes.cnpq.br/2608583610949216Paschoal, Alexandre Rossihttps://orcid.org/0000-0002-8887-0582http://lattes.cnpq.br/5834088144837137Oliveira, Elias Silva dehttps://orcid.org/0000-0003-2066-7980http://lattes.cnpq.br/2210356035827181Matos, Simone Nasserhttps://orcid.org/0000-0002-5362-2343http://lattes.cnpq.br/2608583610949216Gomes, Kaio Pablo2020-08-07T17:43:33Z2020-08-07T17:43:33Z2020-06-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfGOMES, Kaio Pablo. BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2020.http://repositorio.utfpr.edu.br/jspui/handle/1/5114porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2020-08-08T06:03:02Zoai:repositorio.utfpr.edu.br:1/5114Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2020-08-08T06:03:02Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática BIOPLAG: approach to detect plagiarism in source code by using bioinformatics |
| title |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática |
| spellingShingle |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática Gomes, Kaio Pablo Plágio Programação (Computadores) Bioinformática Plagiarism Computer programming Bioinformatics CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| title_short |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática |
| title_full |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática |
| title_fullStr |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática |
| title_full_unstemmed |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática |
| title_sort |
BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática |
| author |
Gomes, Kaio Pablo |
| author_facet |
Gomes, Kaio Pablo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Matos, Simone Nasser https://orcid.org/0000-0002-5362-2343 http://lattes.cnpq.br/2608583610949216 Paschoal, Alexandre Rossi https://orcid.org/0000-0002-8887-0582 http://lattes.cnpq.br/5834088144837137 Oliveira, Elias Silva de https://orcid.org/0000-0003-2066-7980 http://lattes.cnpq.br/2210356035827181 Matos, Simone Nasser https://orcid.org/0000-0002-5362-2343 http://lattes.cnpq.br/2608583610949216 |
| dc.contributor.author.fl_str_mv |
Gomes, Kaio Pablo |
| dc.subject.por.fl_str_mv |
Plágio Programação (Computadores) Bioinformática Plagiarism Computer programming Bioinformatics CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| topic |
Plágio Programação (Computadores) Bioinformática Plagiarism Computer programming Bioinformatics CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| description |
The unauthorized reuse of source code characterizes plagiarism in programming, which can affect everything from the performance of students in programming courses to the quality of software development in companies. Through the realization of a systematic mapping study, the approaches of automatic detection of plagiarism in programming were analyzed to identify the used techniques, the evaluation test procedures, and the supported programming languages. It was found that the solutions do not include the different techniques used by plagiarists to change the source codes. This work created an approach, named BIOPLAG, capable of improving the automatic detection of plagiarism levels in source code. The functioning of the created approach is based on Bioinformatics and Computer Science techniques: tokens of programming language elements, mapping of source codes in synthetic biological sequences, and alignment of biological sequences. The implementation of BIOPLAG was evaluated through seven test scenarios containing 336 source codes implemented in C language used in 168 different tests, considering in each scenario the evaluative performance parameters: precision, recall and measure F. All examples of Plagiarized source codes were produced from three real experiments developed with the participation of students from undergraduate, graduate, and programmers from a software development company in the region. The results obtained were compared with two tools considered to be the reference in state of the art: MOSS and JPLAG. As a result, BIOPLAG performed better in four and equal in three test scenarios considering the indicators of precision, recall, and measure F. |
| publishDate |
2020 |
| dc.date.none.fl_str_mv |
2020-08-07T17:43:33Z 2020-08-07T17:43:33Z 2020-06-08 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
GOMES, Kaio Pablo. BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2020. http://repositorio.utfpr.edu.br/jspui/handle/1/5114 |
| identifier_str_mv |
GOMES, Kaio Pablo. BIOPLAG: abordagem de detecção de plágio em código-fonte utilizando bioinformática. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2020. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/5114 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498256607379456 |