A NVIDIA anuncia a NVIDIA Cosmos, uma plataforma que inclui World Foundation Models generativos de última geração, tokenizadores avançados, proteções e um pipeline de processamento de vídeo acelerado criado para promover o desenvolvimento de sistemas de IA física, tais como veículos autônomos (AVs) e robôs.
O desenvolvimento de modelos de IA física é caro e exige grandes quantidades de dados e testes no mundo real. Os Cosmos World Foundation Models, ou WFMs, oferecem aos desenvolvedores uma maneira fácil de gerar grandes quantidades de dados sintéticos fotorrealistas e baseados em física para treinar e avaliar seus modelos existentes. Os desenvolvedores também podem criar modelos personalizados por meio do ajuste fino dos Cosmos WFMs.
Os modelos Cosmos estarão disponíveis sob uma licença de modelo aberto para acelerarem o trabalho da comunidade de robótica e AV. Os desenvolvedores podem ver os primeiros modelos no catálogo de APIs da NVIDIA ou baixar a família de modelos e da estrutura de ajuste fino do catálogo NVIDIA NGC™ ou no Hugging Face.
Empresas automotivas e de robótica líderes, incluindo 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi e XPENG, juntamente com a gigante do compartilhamento de viagens Uber, estão entre as primeiras a adotar o Cosmos.
“O momento do ChatGPT para a robótica está chegando. Assim como os grandes modelos de linguagem (LLMs), os World Foundation Models são fundamentais para o avanço do desenvolvimento de robôs e AVs, mas nem todos os desenvolvedores têm a experiência e os recursos para treinarem os seus próprios modelos”, diz Jensen Huang, fundador e CEO da NVIDIA. “Criamos o Cosmos para democratizar a IA física e colocar a robótica geral ao alcance de todos os desenvolvedores.”
World Foundation Models abertos para acelerar a próxima onda de IA
O conjunto de modelos abertos do NVIDIA Cosmos significa que os desenvolvedores podem personalizar os WFMs com conjuntos de dados, como gravações de vídeo de viagens de AV ou robôs navegando em um depósito, de acordo com as necessidades da aplicação de destino.
Os Cosmos WFMs são criados especificamente para pesquisa e desenvolvimento de IA física e podem gerar vídeos baseados em física a partir de uma combinação de entradas, como texto, imagem e vídeo, bem como dados de sensores ou movimentos de robôs. Os modelos foram criados para interações com base física, permanência de objetos e geração de alta qualidade de ambientes industriais simulados, como depósitos ou fábricas, e de ambientes de direção, incluindo várias condições de estrada.
Em sua palestra de abertura na CES, o fundador e CEO da NVIDIA, Jensen Huang, apresentou maneiras pelas quais os desenvolvedores de IA física podem usar os modelos Cosmos, inclusive para:
- Pesquisa e compreensão de vídeos, permitindo que os desenvolvedores encontrem facilmente cenários de treinamento específicos, como condições de estradas com neve ou congestionamento de depósitos, a partir de dados de vídeo.
- Geração de dados sintéticos fotorrealistas e baseados em física, usando modelos Cosmos para gerar vídeos fotorrealistas a partir de cenários 3D controlados desenvolvidos na plataforma NVIDIA Omniverse™.
- Desenvolvimento e avaliação de modelos de IA física, seja para criar um modelo personalizado com base nos modelos básicos, aprimorar os modelos usando o Cosmos para aprendizagem por reforço ou testar o desempenho em um cenário simulado específico.
- Previsão e simulação de “multiverso”, usando o Cosmos e o Omniverse para gerar todos os resultados futuros possíveis que um modelo de IA poderia tomar para ajudá-lo a selecionar o caminho melhor e mais preciso.
“Com o lançamento do Cosmos, damos um passo essencial para democratizar a IA física, oferecendo aos desenvolvedores ferramentas e modelos de última geração que antes eram inacessíveis. A possibilidade de gerar dados sintéticos fotorrealistas e baseados em física redefine a maneira como treinamos robôs e veículos autônomos, abrindo novas fronteiras para inovação e eficiência,” destaca Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.
Ferramentas avançadas de desenvolvimento de modelos mundiais
A criação de modelos de IA física requer petabytes de dados de vídeo e dezenas de milhares de horas de computação para processar, selecionar e rotular esses dados. Para ajudar a economizar enormes custos de curadoria de dados, treinamento e personalização de modelos, o Cosmos apresenta:
- Um pipeline de processamento de dados acelerado por NVIDIA AI e CUDA®, com o NVIDIA NeMo™ Curator, que permite aos desenvolvedores processarem, selecionarem e rotularem 20 milhões de horas de vídeos em 14 dias usando a plataforma NVIDIA Blackwell, em vez de mais de três anos usando um pipeline somente de CPU.
- Tokenizador NVIDIA Cosmos, um tokenizador visual de última geração para converter imagens e vídeos em tokens. Ele oferece uma compactação total oito vezes maior e um processamento 12 vezes mais rápido do que os principais tokenizadores atuais.
- A estrutura NVIDIA NeMo para treinamento, personalização e otimização de modelos altamente eficientes.
As maiores indústrias de IA física do mundo adotam o Cosmos
Os pioneiros da indústria de IA física já estão adotando as tecnologias Cosmos.
1X, uma empresa de IA e robôs humanoides, lançou o conjunto de dados 1X World Model Challenge usando o tokenizador Cosmos. A XPENG usará o Cosmos para acelerar o desenvolvimento de seu robô humanoide. E a Hillbot e a Skild AI estão usando o Cosmos para acelerar o desenvolvimento de seus robôs de uso geral.
“A escassez e a variabilidade de dados são os principais desafios para o aprendizado bem-sucedido em ambientes robóticos”, conta Pras Velagapudi, diretor de tecnologia da Agility. “Os recursos de texto, imagem e vídeo para o mundo do Cosmos nos permitem gerar e aumentar cenários fotorrealistas para uma variedade de tarefas que podemos usar para treinar modelos sem a necessidade de uma captura de dados do mundo real, que é muito custosa.”
Os líderes do setor de transportes também estão usando o Cosmos para criar IA física para AVs.
- A Waabi, uma empresa pioneira em IA generativa para o mundo físico, começando com veículos autônomos, está avaliando o Cosmos no contexto da curadoria de dados para desenvolvimento e simulação de software de AV.
- A Wayve, que está desenvolvendo modelos de base de IA para direção autônoma, está avaliando o Cosmos como uma ferramenta para pesquisar cenários de direção em curvas e esquinas usados para segurança e validação.
- A Foretellix, uma fornecedora de cadeias de ferramentas de AV, usará o Cosmos, juntamente com as APIs NVIDIA Omniverse Sensor RTX, para avaliar e gerar cenários de teste de alta fidelidade e dados de treinamento em escala.
- A gigante global de compartilhamento de viagens Uber está fazendo uma parceria com a NVIDIA para acelerar a mobilidade autônoma. Os ricos conjuntos de dados de direção da Uber, combinados com os recursos da plataforma Cosmos e do NVIDIA DGX Cloud™, podem ajudar os parceiros de AV a criarem modelos de IA mais fortes de forma ainda mais eficiente.
“A IA generativa impulsionará o futuro da mobilidade, exigindo dados ricos e computação muito poderosa”, reforça Dara Khosrowshahi, CEO da Uber. “Trabalhando com a NVIDIA, estamos confiantes de que podemos ajudar a acelerar o cronograma para soluções de direção autônoma seguras e escaláveis para o setor.”
Desenvolvendo IA aberta, segura e responsável
O NVIDIA Cosmos foi desenvolvido de acordo com os princípios de IA confiável da NVIDIA, que priorizam a privacidade, a segurança, a proteção, a transparência e a redução de tendências indesejadas.
A IA confiável é essencial para promover a inovação na comunidade de desenvolvedores e manter a confiança dos usuários. A NVIDIA está comprometida com uma IA segura e confiável, de acordo com os compromissos voluntários de IA do governo dos EUA e outras iniciativas globais de segurança de IA.
A plataforma aberta Cosmos inclui proteções projetadas para reduzir textos e imagens prejudiciais e conta com uma ferramenta para aprimorar a precisão dos prompts de texto. Os vídeos gerados com os modelos Cosmos de autorregressão e de difusão no catálogo de APIs da NVIDIA incluem marcas d’água invisíveis para identificar conteúdo gerado por IA, ajudando a reduzir as chances de desinformação e atribuição incorreta.
A NVIDIA incentiva os desenvolvedores a adotarem práticas de IA confiáveis e a aprimorarem ainda mais as soluções de proteção e marca d’água para suas aplicações.
Disponibilidade
Os Cosmos WFMs já estão disponíveis sob a licença de modelo aberto da NVIDIA no Hugging Face e no catálogo NVIDIA NGC. Em breve, os modelos Cosmos estarão disponíveis como microsserviços NVIDIA NIM totalmente otimizados.
Os desenvolvedores podem acessar o NVIDIA NeMo Curator para processamento acelerado de vídeo e personalizar seus próprios modelos de mundo com o NVIDIA NeMo. O NVIDIA DGX Cloud oferece uma maneira rápida e fácil de implementar esses modelos, com suporte empresarial disponível por meio da plataforma de software NVIDIA AI Enterprise.
A NVIDIA também anuncia novos grandes modelos de linguagem (LLMs) NVIDIA Llama Nemotron e modelos de linguagem visual (VLMs) NVIDIA Cosmos Nemotron, que os desenvolvedores podem usar para casos de uso de IA corporativa na área da saúde, em serviços financeiros, manufatura e muito mais.