Novel semi-supervised algorithms based on extreme learning machine for unbalanced data streams with concept drift

Nome: Carlos Alexandre Siqueira da Silva
Tipo: Tese de doutorado
Data de publicação: 06/08/2020
Orientador:

Nomeordem decrescente Papel
Renato Antônio Krohling Orientador

Banca:

Nomeordem decrescente Papel
Antônio de Pádua Carobrez Examinador Externo
Celso Alberto Saibel Santos Examinador Interno
Daniel Cruz Cavaliéri Examinador Externo
Renato Antônio Krohling Orientador
Vinicius Fernandes Soares Mota Examinador Interno

Resumo: Nos dias atuais, streams de dados são importantes fontes de informação e, com a popularização de dispositivos móveis e sistemas de sensores que coletam todos os tipos de dados, grandes quantidades de informações são geradas a uma velocidade cada vez maior. Esse crescimento no fornecimento de dados apresenta alguns problemas para os algoritmos tradicionais de aprendizado de máquina. Tarefas como classificação, regressão ou clusterização de dados têm algumas limitações em relação a conjuntos de dados muito grandes, variações ou fluxos contínuos de dados. Em geral, algoritmos que funcionam em uma dessas situações podem não funcionar em outras. Além disso, os fluxos de dados apresentam novos desafios aos algoritmos de aprendizado de máquina. O alto custo de se rotular manualmente instâncias para o treinamento de algoritmos de classificação dificulta o uso de métodos totalmente supervisionados. Conjuntos de dados desbalanceados tendem a fazer com que os algoritmos ignorem uma ou mais classes. Além disso, concept drifts nos fluxos de dados exigem que os modelos sejam atualizados periodicamente. Para minimizar os problemas mencionados, nesta tese foram propostos algoritmos semi-supervisionados e on-line baseados em Extreme Learning Machine (ELM). O primeiro algoritmo proposto denominado Semi-Supervised Online Elastic ELM (SSOE-ELM), superou outros da literatura em acurácia e tempo de treinamento, mostrando bons resultados em casos de bases desbalanceadas. O SSOE-ELM usa amostras rotuladas e não rotuladas para treinamento e recebe dados sequencialmente em blocos de uma ou mais instâncias, atualizando continuamente o modelo. Em geral, como um algoritmo baseado em Extreme Learning Machine, seu treinamento é muito rápido em comparação com algoritmos baseados em gradiente descendente. O segundo algoritmo proposto, denominado Semi-Supervised Online Elastic ELM with Forgetting Parameter (SSOE-FP-ELM), é uma extensão do SSOE-ELM para lidar com fluxos de dados com concept drift. O SSOE-FP-ELM usa um parâmetro de esquecimento híbrido que considera instâncias rotuladas e não rotuladas para detectar casos de concept drift gradual e abrupto. Resultados experimentais mostram que os dois algoritmos propostos superam outros na literatura em acurácia e poder de generalização, indicando serem alternativas viáveis para a classificação de fluxos de dados.

Palavras-chave: Aprendizado de máquina; Aprendizado semi-supervisionado; Extreme Learning Machine (ELM); Streams de dados; Concept drift; Bases desbalanceadas.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910