Mineração de Texto em Documentos Químicos: Identificação Automatizada de Entidades Nomeadas com Técnicas de Processamento de Linguagem Natural
Nome: FLÁVIO IZO
Data de publicação: 06/05/2025
Banca:
| Nome |
Papel |
|---|---|
| CLAUDINE SANTOS BADUE | Examinador Interno |
| ELIAS SILVA DE OLIVEIRA | Presidente |
| FABIELLE CASTELAN MARQUES | Examinador Externo |
| HILÁRIO TOMAZ ALVES DE OLIVEIRA | Examinador Externo |
| HUGO RICARDO GONÇALO OLIVEIRA | Examinador Externo |
Resumo: O constante crescimento na publicação de documentos científicos traz enormes desafios
para a área da computação na atividade de recuperar e extrair informações relevantes
para apoio à pesquisa e inovação. Para produzir conhecimento, podemos consultar diversos
tipos de documentos, entre eles, destaca-se as patentes. Esse tipo de documento é uma
excelente fonte de informação e demonstra a evolução do conhecimento técnico através dos
resultados de suas publicações. Estima-se que cerca de 70% das informações divulgadas
em documentos de patentes nunca foram publicadas em nenhum outro lugar. Pensando a
nível acadêmico, o programa do curso, através dos planos de ensino, é um instrumento
pedagógico que descreve a ementa, os objetivos, os conteúdos programáticos, o processo
avaliativo e a bibliografia básica dos componentes curriculares presentes na grade escolar.
Desta forma, o plano de ensino serve como referência para que os docentes e discentes
elaborem seu objetivos educacionais, fornecendo uma estrutura curricular base para os
conteúdos abordados no curso e que promovam o processo de ensino-aprendizagem. Esse
roteiro educacional normalmente é pensado para promover uma conexão entre os conteúdos
e a atividade escolar a ser desempenhada pelo aluno. Neste contexto, aproximar as patentes
das Instituições de Ensino (IEs) tem sido bastante incentivada. A colaboração entre as
duas esferas visa garantir que os estudantes adquiram habilidade e conhecimentos para
colocar em prática o que aprendem na teoria. Por outro lado, também permitem que
projetos ou serviços industriais possam ser melhorados dentro das IEs. Para aproximar as
patentes e os planos de ensino é necessário o processamento e análise dos respectivos textos.
No entanto, a dificuldade em identificar e analisar manualmente as informações contidas
nesses documentos tornam quase impossível acessar conteúdos específicos, processar as
informações e gerar relatórios, especialmente quando lidamos com grande volume de
dados e textos não estruturados. Deste modo, propomos uma metodologia automatizada
utilizando Processamento de Linguagem Natural (PLN) para aproximar o conteúdo dos
programas de curso (planos de ensino) dos documentos de patentes. O principal objetivo é
avaliar se as disciplinas ofertadas cobrem os conhecimentos técnicos e científicos necessários
para a criação, desenvolvimento ou aprimoramento de patentes. Este estudo oferece insights
para as IEs apontando conteúdos que possam ser inseridos nos seus currículos de forma a
melhor preparar os alunos para os desafios da pesquisa aplicada e da inovação tecnológica,
ao mesmo tempo em que fortalece a conexão com o setor industrial. Os resultados deste
estudo, baseados em métricas comparativas, revelam que é possível verificar se os planos
de ensino estão alinhados com as demandas da indústria e informar onde existem lacunas
que possam ser preenchidas para melhorar a capacidade dos alunos em contribuir para o
desenvolvimento de inovações tecnológicas patenteáveis.
