Breaching the Oracle: From Few-Shot to Data-Free in Model Extraction
Nome: JHONATAN MACHADO LEAO
Data de publicação: 10/03/2026
Banca:
| Nome |
Papel |
|---|---|
| GIOVANNI VENTORIM COMARELA | Examinador Interno |
| JURANDY GOMES DE ALMEIDA JUNIOR | Examinador Externo |
| THIAGO OLIVEIRA DOS SANTOS | Presidente |
Resumo: Muitas empresas desenvolvem modelos de inteligência artificial como produtos comerciais
oferecidos via APIs para resolver diversos problemas. Consequentemente, proteger a
Propriedade Intelectual (PI) desses ativos contra possíveis ataques é uma prioridade
crítica. Em relação a essas ameaças, diversos estudos identificaram vulnerabilidades em
tais sistemas, sendo a mais notável a extração de modelo (model extraction), na qual um
adversário tipicamente utiliza uma vasta quantidade de dados do Domínio do Problema
(PD) e do Domínio Não Relacionado ao Problema (NPD) para treinar um modelo substituto
que mimetiza o alvo (Oráculo).
Esta dissertação investiga a hipótese de que o sucesso da extração de modelo é governado
primordialmente pela qualidade do conjunto de dados substituto. Propomos que, ao
sintetizar estrategicamente os padrões visuais relevantes do domínio do problema, é
possível alcançar uma extração de alta fidelidade utilizando apenas saídas de rótulos
rígidos (hard-labels), mesmo quando as imagens reais são limitadas ou inteiramente
inacessíveis. Esta hipótese é validada em duas tarefas distintas: classificação de imagens e
detecção de objetos.
Para cenários de classificação, introduzimos o Few-Shot Copycat, um método que aplica
um processo de mistura (blending) a um conjunto mínimo de imagens PD integradas a
um conjunto de dados NPD. Experimentos demonstram que utilizar apenas uma imagem
por classe é suficiente para superar os baselines, aumentando o desempenho médio de
extração de 85, 5% para 92, 8% (com 10 amostras), enquanto reduz os requisitos de dados
em pelo menos 6×. Para detecção de objetos, propomos o OD-Copycat, um framework
de extração livre de dados (data-free) que depende exclusivamente de imagens sintéticas
geradas por modelos de difusão. Ao implementar um pipeline estratégico de geração e
filtragem guiado pelo Oráculo, o OD-Copycat recupera mais de 83% do desempenho do
Oráculo sem acessar uma única imagem real.
Esses resultados expõem vulnerabilidades significativas em implantações modernas de IA e
reforçam a necessidade urgente de mecanismos de defesa avançados para proteger modelos
proprietários em ambientes de caixa-preta (black-box).
