Avaliação de Estratégias para Recuperação de Fontes e Identificação de Passagens em Sistemas de Detecção de Plágio.

Nome: VICENTE BISSOLI SESSA
Tipo: Dissertação de mestrado acadêmico
Data de publicação: 22/10/2015
Orientador:

Nomeordem decrescente Papel
CLAUDINE SANTOS BADUE Orientador

Banca:

Nomeordem decrescente Papel
CLAUDINE SANTOS BADUE Orientador
ELIAS SILVA DE OLIVEIRA Examinador Interno
FABRÍCIO BENEVENUTO DE SOUZA Examinador Externo

Resumo: Métodos para detecção de reutilização de texto são fundamentais em sistemas de detecção de plágio e proteção de direitos autorais. Eles devem ser capazes de lidar com diversos tipos de reutilização de texto, indo desde cópias diretas e citações até paráfrases, traduções e resumos. Embora seja um problema antigo, a detecção automática de plágio ainda é uma tarefa desafiadora. Neste trabalho, foram investigadas várias combinações de técnicas de recuperação de informação (RI) para as etapas de recuperação de documentos fonte e identificação de passagens em sistemas de detecção extrínseca de plágio. Para avaliar o desempenho dessas etapas, foi usada uma ferramenta desenvolvida pelos organizadores do International Workshop on Plagiarism Analysis (PAN). Essa ferramenta é composta essencialmente por uma coleção de documentos Web, um mecanismo de busca nos moldes de soluções comerciais e uma coleção de documentos plagiados escritos manualmente e anotados com as passagens plagiadas. Na etapa de recuperação de fontes, foram avaliadas diversas combinações de técnicas de extração de termos chave e filtragem de resultados, usando cerca de 40 documentos plagiados e três métricas clássicas de RI - precisão, revocação e F1. Na etapa de identificação de passagens, foram analisados vários mecanismos de estimativa de similaridade entre sequências de caracteres, usando cerca de 6000 casos de plágio associados
a três diferentes tipos - cópia literal, cópia aleatória e tradução cíclica. Foram usadas também duas métricas específicas para a avaliação da identificação de passagens a nível de caractere - granularidade e plagdet. Até onde pôde-se examinar na literatura, a combinação de técnicas avaliadas é única e os
resultados obtidos são satisfatórios.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910