Copycat CNN: Convolutional Neural Network Extraction Attack with Unlabeled Natural Images

Nome: JACSON RODRIGUES CORREIA DA SILVA
Tipo: Tese de doutorado
Data de publicação: 25/04/2023
Orientador:

Nomeordem decrescente Papel
THIAGO OLIVEIRA DOS SANTOS Orientador

Banca:

Nomeordem decrescente Papel
ALBERTO FERREIRA DE SOUZA Coorientador
CLAUDINE SANTOS BADUE Examinador Interno
EDUARDO JOSÉ DA SILVA LUZ Examinador Externo
JURANDY GOMES DE ALMEIDA JUNIOR Examinador Externo
THOMAS WALTER RAUBER Examinador Interno

Resumo: Redes Neurais Convolucionais (CNNs) têm alcançado alto desempenho em vários problemas nos últimos
anos, levando muitas empresas a desenvolverem produtos com redes neurais que exigem altos custos para aquisição
de dados, anotação e geração de modelos. Como medida de proteção, as empresas costumam entregar seus
modelos como caixas-pretas acessíveis apenas por APIs, que devem ser seguras, robustas e confiáveis em diferentes
domínios de problemas. No entanto, estudos recentes mostraram que CNNs estado-da-arte tem vulnerabilidades,
onde perturbações simples nas imagens de entrada podem mudar as respostas do modelo, e até mesmo imagens
irreconhecíveis por humanos podem alcançar uma predição com alto grau de confiança do modelo. Esses métodos
precisam acessar os parâmetros do modelo, mas há estudos mostrando como gerar uma cópia (imitação) de um
modelo usando suas probabilidades (soft-labels) e dados do domínio do problema. Com um modelo substituto, um
adversário pode efetuar ataques ao modelo alvo com maior possibilidade de sucesso. Nós exploramos ainda mais
essas vulnerabilidades. Nossa hipótese é que usando imagens publicamente disponíveis (que todos tem acesso) e
respostas que qualquer modelo deve fornecer (mesmo caixa-preta) é possível copiar um modelo atingindo alta
performance. Por isso, propusemos um método chamado Copycat para explorar modelos de classificação de CNN.
Nosso objetivo principal é copiar o modelo em duas etapas: primeiro, consultando-o com imagens naturais
aleatórias, como do ImageNet, e anotando suas probabilidades máximas (hard-labels). Depois, usando essas imagens
rotuladas para treinar um modelo Copycat que deve alcançar desempenho semelhante ao modelo alvo. Avaliamos
essa hipótese em sete problemas do mundo real e contra uma API baseada em nuvem, atingindo desempenhos
(F1-Score) em todos modelos Copycat acima de 96, 4% quando comparados aos modelos alvo. Após atingir esses
resultados, realizamos vários experimentos para consolidar e avaliar nosso método. Além disso, preocupados com essa vulnerabilidade, também analisamos várias defesas existentes contra o método Copycat. Dentre os
experimentos, as defesas que detectam consultas de ataque não funcionam contra o método, mas defesas que usam
marca d’água conseguem identificar a Propriedade
Intelectual do modelo alvo. Assim, o método se mostrou eficaz na extração de modelos, possuindo imunidade à
defesas da literatura, sendo identificado apenas por defesas de marca d’água.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910