Breaching the Oracle: From Few-Shot to Data-Free in Model Extraction

Data de publicação: 10/03/2026

Banca:

Nome	Papel
GIOVANNI VENTORIM COMARELA	Examinador Interno
JURANDY GOMES DE ALMEIDA JUNIOR	Examinador Externo
THIAGO OLIVEIRA DOS SANTOS	Presidente

Resumo: Muitas empresas desenvolvem modelos de inteligência artificial como produtos comerciais
oferecidos via APIs para resolver diversos problemas. Consequentemente, proteger a
Propriedade Intelectual (PI) desses ativos contra possíveis ataques é uma prioridade
crítica. Em relação a essas ameaças, diversos estudos identificaram vulnerabilidades em
tais sistemas, sendo a mais notável a extração de modelo (model extraction), na qual um
adversário tipicamente utiliza uma vasta quantidade de dados do Domínio do Problema
(PD) e do Domínio Não Relacionado ao Problema (NPD) para treinar um modelo substituto
que mimetiza o alvo (Oráculo).
Esta dissertação investiga a hipótese de que o sucesso da extração de modelo é governado
primordialmente pela qualidade do conjunto de dados substituto. Propomos que, ao
sintetizar estrategicamente os padrões visuais relevantes do domínio do problema, é
possível alcançar uma extração de alta fidelidade utilizando apenas saídas de rótulos
rígidos (hard-labels), mesmo quando as imagens reais são limitadas ou inteiramente
inacessíveis. Esta hipótese é validada em duas tarefas distintas: classificação de imagens e
detecção de objetos.
Para cenários de classificação, introduzimos o Few-Shot Copycat, um método que aplica
um processo de mistura (blending) a um conjunto mínimo de imagens PD integradas a
um conjunto de dados NPD. Experimentos demonstram que utilizar apenas uma imagem
por classe é suficiente para superar os baselines, aumentando o desempenho médio de
extração de 85, 5% para 92, 8% (com 10 amostras), enquanto reduz os requisitos de dados
em pelo menos 6×. Para detecção de objetos, propomos o OD-Copycat, um framework
de extração livre de dados (data-free) que depende exclusivamente de imagens sintéticas
geradas por modelos de difusão. Ao implementar um pipeline estratégico de geração e
filtragem guiado pelo Oráculo, o OD-Copycat recupera mais de 83% do desempenho do
Oráculo sem acessar uma única imagem real.
Esses resultados expõem vulnerabilidades significativas em implantações modernas de IA e
reforçam a necessidade urgente de mecanismos de defesa avançados para proteger modelos
proprietários em ambientes de caixa-preta (black-box).

Acesso ao documento

Formulário de busca

Você está aqui

Breaching the Oracle: From Few-Shot to Data-Free in Model Extraction