Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.

SANTOS, Katyusco de Farias.

Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.

Detalhes bibliográficos
Ano de defesa:	2015
Autor(a) principal:	SANTOS, Katyusco de Farias.
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Vocabulário de Software Especialista de Código Código-Fonte Software Vocabulary Source Code Code Specialist Vocabulário de Código-Fonte Medidas de Expertise Modelo Degree-Of-Knowledge DOK Ciência da Computação.
Link de acesso:	https://dspace.sti.ufcg.edu.br/handle/riufcg/606
Resumo:	Identiﬁcadores e comentários de um código fonte constituem o vocabulário de software. Pesquisas apontam vocabulários como uma fonte valorosa de informação sobre o projeto. Para entender a natureza e o potencial dos vocabulários, desenvolvemos um ferramental capaz de extraí-los a partir de código fonte. Explorando os dados estatisticamente, identificamos duas propriedades de vocabulários: tamanho, expresso como função de potência de LOC (Lines-Of-Code); e a repetição de seus termos, que se ajusta a uma distribuição log-normal. Vocabulários, bem como suas propriedades e operações foram formalizadas baseadas no conceito de multisets. O ferramental de extração e a formalização viabilizaram cooperações cientíﬁcas sobre a utilidade de vocabulário sem atividades de manutenção. Esse conhecimento acumulado revelou que vocabulário pouco foi explorado como insumo à modelagem de conhecimento de código. Desenvolvemos então uma abordagem para identiﬁcar especialistas de código cujo conhecimento é deﬁnido pela similaridade existente entre vocabulários das entidades e dos desenvolvedores. Comparamos a precisão e cobertura da nossa abordagem com de duas outras: baseada em commits e baseada em percentual de LOC modiﬁcadas. Os resultados apontam que para indicar um único especialista, top-1, a nossa abordagem tem uma precisão menor, entre 29.9% e 10% que as abordagens de baseline. Já para indicar mais de um desenvolvedor especialista, até top-3, a nossa abordagem tem uma acurácia melhor de até 18.7% em relação as de baseline. Identiﬁcamos também que o conhecimento definido por similaridade quando combinado com um modelo baseado em autoria aumenta a capacidade de identiﬁcar especialistas, no R2 do modelo, em mais de 4 pontos percentuais. Concluímos que além de poder ser utilizado de forma isolada para modelar conhecimento de código e assim identiﬁcar especialistas, o vocabulário pode ser um componente adicional a modelos de conhecimento baseados em autoria e propriedade, já que capturam aspectos diferentes dos existentes nesse modelos.

Metadados do item

id	UFCG_0f581a6e41fedb45ac90be45c7bd5074
oai_identifier_str	oai:dspace.sti.ufcg.edu.br:riufcg/606
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.Research on the use of source code vocabulary to identify specialists.Vocabulário de SoftwareEspecialista de CódigoCódigo-FonteSoftware VocabularySource CodeCode SpecialistVocabulário de Código-FonteMedidas de ExpertiseModelo Degree-Of-Knowledge DOKCiência da Computação.Identiﬁcadores e comentários de um código fonte constituem o vocabulário de software. Pesquisas apontam vocabulários como uma fonte valorosa de informação sobre o projeto. Para entender a natureza e o potencial dos vocabulários, desenvolvemos um ferramental capaz de extraí-los a partir de código fonte. Explorando os dados estatisticamente, identificamos duas propriedades de vocabulários: tamanho, expresso como função de potência de LOC (Lines-Of-Code); e a repetição de seus termos, que se ajusta a uma distribuição log-normal. Vocabulários, bem como suas propriedades e operações foram formalizadas baseadas no conceito de multisets. O ferramental de extração e a formalização viabilizaram cooperações cientíﬁcas sobre a utilidade de vocabulário sem atividades de manutenção. Esse conhecimento acumulado revelou que vocabulário pouco foi explorado como insumo à modelagem de conhecimento de código. Desenvolvemos então uma abordagem para identiﬁcar especialistas de código cujo conhecimento é deﬁnido pela similaridade existente entre vocabulários das entidades e dos desenvolvedores. Comparamos a precisão e cobertura da nossa abordagem com de duas outras: baseada em commits e baseada em percentual de LOC modiﬁcadas. Os resultados apontam que para indicar um único especialista, top-1, a nossa abordagem tem uma precisão menor, entre 29.9% e 10% que as abordagens de baseline. Já para indicar mais de um desenvolvedor especialista, até top-3, a nossa abordagem tem uma acurácia melhor de até 18.7% em relação as de baseline. Identiﬁcamos também que o conhecimento definido por similaridade quando combinado com um modelo baseado em autoria aumenta a capacidade de identiﬁcar especialistas, no R2 do modelo, em mais de 4 pontos percentuais. Concluímos que além de poder ser utilizado de forma isolada para modelar conhecimento de código e assim identiﬁcar especialistas, o vocabulário pode ser um componente adicional a modelos de conhecimento baseados em autoria e propriedade, já que capturam aspectos diferentes dos existentes nesse modelos.Identiﬁers and comments from a source code are the software vocabulary. Research point vocabularies as a valuable source of information about the project. To understand we developed a tool that extract them from source code. Exploring the data statistically, we identify two vocabularies properties: vocabulary size, that is a power function of LOC (Lines-Of-Code) and the repetition of vocabulary terms that ﬁts alog-normal distribution. Vocabulary as well as their properties and operations were formalized based on the concept of multisets. Extraction tool and formalization made possible scientiﬁc cooperation on usage of vocabulary in maintenance activities. This accumulated knowledge has shown that vocabulary was not explored as an input to code knowledge. Then we developed a code experts identiﬁcation approach whose knowledge is deﬁned by existing similarity between entities and developers vocabularies. We compared precision and recall with two baseline approaches: based on commits and based on percentage of modiﬁed LOC.The results show that to indicate a single specialist, top-1, our approach has alower precision, between 29.9% and 10%,than baseline approaches. More than one specialist-developer, up to top-3, our approach has better accuracy of up to 18.7% over those of the baselines. We also identify that the knowledge deﬁned by similarity when combined with an authorship model enhances the ability to identify experts, R2 of the model, by more than 4 points. We conclude that vocabulary can be solely used to expertise, and thus identify experts. In addition, vocabulary can be an additional component for models based on authorship and ownership, since it captures different aspects from ones existing in these models.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGGUERRERO, Dalton Dario Serey.GUERRERO, D. D. S.http://lattes.cnpq.br/2050632960242405FIGUEIREDO, Jorge césar Abrantes de.FIGUEIREDO, J. C. A.http://lattes.cnpq.br/1424808046858622KULESZA, Uira.MARINHO, Leandro Balby.MASSONI, Tiago Lima.BITTENCOURT, Renato almeida.SANTOS, Katyusco de Farias.2015-02-282018-05-08T16:28:56Z2018-05-082018-05-08T16:28:56Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://dspace.sti.ufcg.edu.br/handle/riufcg/606SANTOS, Katyusco de Farias. Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas. 2015. 156 f. (Tese de Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2015. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/606porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2025-07-24T06:05:40Zoai:dspace.sti.ufcg.edu.br:riufcg/606Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512025-07-24T06:05:40Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas. Research on the use of source code vocabulary to identify specialists.
title	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.
spellingShingle	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas. SANTOS, Katyusco de Farias. Vocabulário de Software Especialista de Código Código-Fonte Software Vocabulary Source Code Code Specialist Vocabulário de Código-Fonte Medidas de Expertise Modelo Degree-Of-Knowledge DOK Ciência da Computação.
title_short	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.
title_full	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.
title_fullStr	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.
title_full_unstemmed	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.
title_sort	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.
author	SANTOS, Katyusco de Farias.
author_facet	SANTOS, Katyusco de Farias.
author_role	author
dc.contributor.none.fl_str_mv	GUERRERO, Dalton Dario Serey. GUERRERO, D. D. S. http://lattes.cnpq.br/2050632960242405 FIGUEIREDO, Jorge césar Abrantes de. FIGUEIREDO, J. C. A. http://lattes.cnpq.br/1424808046858622 KULESZA, Uira. MARINHO, Leandro Balby. MASSONI, Tiago Lima. BITTENCOURT, Renato almeida.
dc.contributor.author.fl_str_mv	SANTOS, Katyusco de Farias.
dc.subject.por.fl_str_mv	Vocabulário de Software Especialista de Código Código-Fonte Software Vocabulary Source Code Code Specialist Vocabulário de Código-Fonte Medidas de Expertise Modelo Degree-Of-Knowledge DOK Ciência da Computação.
topic	Vocabulário de Software Especialista de Código Código-Fonte Software Vocabulary Source Code Code Specialist Vocabulário de Código-Fonte Medidas de Expertise Modelo Degree-Of-Knowledge DOK Ciência da Computação.
description	Identiﬁcadores e comentários de um código fonte constituem o vocabulário de software. Pesquisas apontam vocabulários como uma fonte valorosa de informação sobre o projeto. Para entender a natureza e o potencial dos vocabulários, desenvolvemos um ferramental capaz de extraí-los a partir de código fonte. Explorando os dados estatisticamente, identificamos duas propriedades de vocabulários: tamanho, expresso como função de potência de LOC (Lines-Of-Code); e a repetição de seus termos, que se ajusta a uma distribuição log-normal. Vocabulários, bem como suas propriedades e operações foram formalizadas baseadas no conceito de multisets. O ferramental de extração e a formalização viabilizaram cooperações cientíﬁcas sobre a utilidade de vocabulário sem atividades de manutenção. Esse conhecimento acumulado revelou que vocabulário pouco foi explorado como insumo à modelagem de conhecimento de código. Desenvolvemos então uma abordagem para identiﬁcar especialistas de código cujo conhecimento é deﬁnido pela similaridade existente entre vocabulários das entidades e dos desenvolvedores. Comparamos a precisão e cobertura da nossa abordagem com de duas outras: baseada em commits e baseada em percentual de LOC modiﬁcadas. Os resultados apontam que para indicar um único especialista, top-1, a nossa abordagem tem uma precisão menor, entre 29.9% e 10% que as abordagens de baseline. Já para indicar mais de um desenvolvedor especialista, até top-3, a nossa abordagem tem uma acurácia melhor de até 18.7% em relação as de baseline. Identiﬁcamos também que o conhecimento definido por similaridade quando combinado com um modelo baseado em autoria aumenta a capacidade de identiﬁcar especialistas, no R2 do modelo, em mais de 4 pontos percentuais. Concluímos que além de poder ser utilizado de forma isolada para modelar conhecimento de código e assim identiﬁcar especialistas, o vocabulário pode ser um componente adicional a modelos de conhecimento baseados em autoria e propriedade, já que capturam aspectos diferentes dos existentes nesse modelos.
publishDate	2015
dc.date.none.fl_str_mv	2015-02-28 2018-05-08T16:28:56Z 2018-05-08 2018-05-08T16:28:56Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://dspace.sti.ufcg.edu.br/handle/riufcg/606 SANTOS, Katyusco de Farias. Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas. 2015. 156 f. (Tese de Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2015. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/606
url	https://dspace.sti.ufcg.edu.br/handle/riufcg/606
identifier_str_mv	SANTOS, Katyusco de Farias. Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas. 2015. 156 f. (Tese de Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2015. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/606
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1851784593641832448

Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.

Registros relacionados