Um premiado grande modelo de linguagem para dados genômicos demonstrou sua capacidade de gerar sequências genéticas que se assemelham muito às variantes do mundo real do SARS-CoV-2, o vírus por trás da COVID-19. Chamado GenSLMs, o modelo, que no ano passado ganhou o prêmio especial Gordon Bell pela investigação da COVID-19 baseada em computação de alto desempenho, foi treinado em um conjunto de dados de sequências de nucleótidos – os blocos de construção do DNA e do RNA – e foi desenvolvido por pesquisadores do Argonne National Laboratory, da NVIDIA, da Universidade de Chicago e de vários outros colaboradores acadêmicos e comerciais.
Quando os pesquisadores analisaram as sequências de nucleotídeos geradas pelos GenSLMs, eles descobriram que as características específicas das sequências geradas por IA correspondiam estreitamente às subvariantes Eris e Pirola do mundo real que prevaleceram este ano – embora a IA só tenha sido treinada em COVID-19 genomas de vírus do primeiro ano da pandemia.
“O processo generativo do nosso modelo é extremamente ingênuo, sem qualquer informação específica ou restrições sobre a aparência de uma nova variante da COVID”, diz Arvind Ramanathan, pesquisador principal do projeto e biólogo computacional em Argonne. “A capacidade da IA de prever os tipos de mutações genéticas presentes em cepas recentes da COVID – apesar de ter visto apenas as variantes Alfa e Beta durante o treinamento – é uma forte validação de suas capacidades.”
Lendo nas entrelinhas, descobrindo padrões evolutivos
Uma característica fundamental dos GenSLMs é sua capacidade de interpretar longas sequências de nucleotídeos – representadas com sequências das letras A, T, G e C no DNA, ou A, U, G e C no RNA – da mesma forma que um LLM treinado em texto em inglês interpretaria uma frase. Esta capacidade permite ao modelo compreender a relação entre diferentes áreas do genoma, que nos coronavírus consiste em cerca de 30.000 nucleótidos.
Na demonstração, os usuários poderão escolher entre oito variantes diferentes da COVID-19 para entender como o modelo de IA rastreia mutações em várias proteínas do genoma viral. A visualização mostra acoplamentos evolutivos entre as proteínas virais – destacando quais fragmentos do genoma provavelmente serão vistos em uma determinada variante.
“Compreender como as diferentes partes do genoma estão a co-evoluir dá-nos pistas sobre como o vírus pode desenvolver novas vulnerabilidades ou novas formas de resistência”, diz Ramanathan. “Observar a compreensão do modelo sobre quais mutações são particularmente fortes em uma variante pode ajudar os cientistas em tarefas posteriores, como determinar como uma cepa específica pode escapar do sistema imunológico humano.”
Para treinar o modelo, os pesquisadores usaram supercomputadores NVIDIA A100 Tensor Core alimentados por GPU, incluindo o sistema Polaris da Argonne, o Perlmutter do Departamento de Energia dos EUA e o Selene da NVIDIA.
O prêmio especial Gordon Bell da equipe de pesquisa GenSLMs foi concedido na conferência SC22 realizada no ano passado pela Association for Computing Machinery. No SC23, que acontece esta semana em Denver, a NVIDIA está compartilhando uma nova gama de trabalhos inovadores no campo da computação acelerada. Veja a programação completa e assista ao replay da apresentação especial da NVIDIA.