Copycat CNN: Convolutional Neural Network Extraction Attack with Unlabeled Natural Images
Nome: JACSON RODRIGUES CORREIA DA SILVA
Tipo: Tese de doutorado
Data de publicação: 25/04/2023
Orientador:
Nome | Papel |
---|---|
THIAGO OLIVEIRA DOS SANTOS | Orientador |
Banca:
Nome | Papel |
---|---|
ALBERTO FERREIRA DE SOUZA | Coorientador |
CLAUDINE SANTOS BADUE | Examinador Interno |
EDUARDO JOSÉ DA SILVA LUZ | Examinador Externo |
JURANDY GOMES DE ALMEIDA JUNIOR | Examinador Externo |
THOMAS WALTER RAUBER | Examinador Interno |
Resumo: Redes Neurais Convolucionais (CNNs) têm alcançado alto desempenho em vários problemas nos últimos
anos, levando muitas empresas a desenvolverem produtos com redes neurais que exigem altos custos para aquisição
de dados, anotação e geração de modelos. Como medida de proteção, as empresas costumam entregar seus
modelos como caixas-pretas acessíveis apenas por APIs, que devem ser seguras, robustas e confiáveis em diferentes
domínios de problemas. No entanto, estudos recentes mostraram que CNNs estado-da-arte tem vulnerabilidades,
onde perturbações simples nas imagens de entrada podem mudar as respostas do modelo, e até mesmo imagens
irreconhecíveis por humanos podem alcançar uma predição com alto grau de confiança do modelo. Esses métodos
precisam acessar os parâmetros do modelo, mas há estudos mostrando como gerar uma cópia (imitação) de um
modelo usando suas probabilidades (soft-labels) e dados do domínio do problema. Com um modelo substituto, um
adversário pode efetuar ataques ao modelo alvo com maior possibilidade de sucesso. Nós exploramos ainda mais
essas vulnerabilidades. Nossa hipótese é que usando imagens publicamente disponíveis (que todos tem acesso) e
respostas que qualquer modelo deve fornecer (mesmo caixa-preta) é possível copiar um modelo atingindo alta
performance. Por isso, propusemos um método chamado Copycat para explorar modelos de classificação de CNN.
Nosso objetivo principal é copiar o modelo em duas etapas: primeiro, consultando-o com imagens naturais
aleatórias, como do ImageNet, e anotando suas probabilidades máximas (hard-labels). Depois, usando essas imagens
rotuladas para treinar um modelo Copycat que deve alcançar desempenho semelhante ao modelo alvo. Avaliamos
essa hipótese em sete problemas do mundo real e contra uma API baseada em nuvem, atingindo desempenhos
(F1-Score) em todos modelos Copycat acima de 96, 4% quando comparados aos modelos alvo. Após atingir esses
resultados, realizamos vários experimentos para consolidar e avaliar nosso método. Além disso, preocupados com essa vulnerabilidade, também analisamos várias defesas existentes contra o método Copycat. Dentre os
experimentos, as defesas que detectam consultas de ataque não funcionam contra o método, mas defesas que usam
marca dágua conseguem identificar a Propriedade
Intelectual do modelo alvo. Assim, o método se mostrou eficaz na extração de modelos, possuindo imunidade à
defesas da literatura, sendo identificado apenas por defesas de marca dágua.