Multimodal fusion architectures using deep learning to skin and oral cancer classification
Nome: LEANDRO MUNIZ DE LIMA
Data de publicação: 26/02/2025
Banca:
Nome![]() |
Papel |
---|---|
GIOVANNI VENTORIM COMARELA | Examinador Interno |
MARCELO ZANCHETTA DO NASCIMENTO | Examinador Externo |
RENATO ANTONIO KROHLING | Presidente |
RENATO TINÓS | Examinador Externo |
VINICIUS FERNANDES SOARES MOTA | Examinador Interno |
Resumo: Câncer é uma das principais causas de morte no mundo e um diagnóstico precoce da doença é um dos mais importantes fatores para a redução da mortalidade ou um aumento do tempo de vida. A realização do diagnóstico auxiliado por computador para o câncer com a utilização de técnicas de inteligência artificial já vem sendo pesquisado a alguns anos e foi muito impulsionada pelos grandes avanços em visão computacional nos últimos anos através das redes neurais profundas. Tradicionalmente, os especialistas da área da saúde utilizam de diversas fontes de informação para definirem um o diagnóstico, sendo muito comum o uso de algum tipo de imagem (por exemplo, raios-X, histopatológica, dermatoscópica) em conjunto com dados clínico e dados demográficos. A abordagem ao analisar dados de diferentes formatos (por exemplo, imagem, texto e grafos) no contexto das redes neurais artificiais é visto como fusão de dados multimodais e estudos recentes indicam que essa análise também é importante para um melhor diagnóstico usando redes neurais artificiais. Neste trabalho será proposto uma nova forma de extrair as características das informações complementares de um paciente, será avaliada a melhor forma de se extrair as características das imagens e também será avaliada a melhor forma de se fundir essas informações. Neste processo, incluímos um mecanismo de interação para dados complementares multicampo com aprimoramento de dados pela transformação de Poincaré. A avaliação foi feita utilizando conjuntos de dados para o diagnóstico de câncer de pele (PAD-UFES-20) e de câncer na cavidade oral (NDB-UFES). Os resultados mostram a viabilidade e o bom desempenho das arquiteturas baseadas em transformers na avaliação de modelos para extrair características de imagens médicas. Os resultados obtidos apontam para uma melhora estatisticamente significativa de 3.37% do desempenho na métrica acurácia balanceada da arquitetura proposta em relação ao estado da arte no conjunto de dados PAD-UFES-20 e uma melhora não estatisticamente significativa no conjunto de dados NDB-UFES. Além disso, foi investigada uma arquitetura de fusão mista, que favoreceu a análise da interpretabilidade do modelo usando SHAP.