Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

A NVIDIA anuncia otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM). O modelo aberto combinado com computação acelerada pela NVIDIA equipa desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

Treinado na IA da NVIDIA

Os engenheiros da Meta treinaram o Llama 3 em clusters de computadores com 24.576 GPUs NVIDIA H100 Tensor Core, conectados com redes RoCE e NVIDIA Quantum-2 InfiniBand. Com o apoio da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu LLM de ponta.

Para avançar ainda mais o estado da arte em IA generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100.

Colocando o Llama 3 para trabalhar

Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis para uso na nuvem, centro de dados, borda e PC.

A partir de um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com. Ele é empacotado como um microsserviço NVIDIA NIM com uma interface de programação de aplicações padrão que pode ser implantada em qualquer lugar.

Empresas podem ajustar o Llama 3 com seus dados usando o NVIDIA NeMo, um framework de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise, segura e suportada. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da NVIDIA e implantados com o Triton Inference Server da NVIDIA.

Levando o Llama 3 para dispositivos e PCs

O Llama 3 também é executado no NVIDIA Jetson Orin para robótica e dispositivos de computação de borda, criando agentes interativos como os do Jetson AI Lab.

Além disso, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores um alvo de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

Obtenha desempenho ótimo com o Llama 3

As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ótimo de GPU para reduzir custos.

Um serviço desse tipo precisa entregar tokens — o equivalente aproximado de palavras para um LLM — a cerca de duas vezes a velocidade de leitura de um usuário, que é cerca de 10 tokens/segundo.

Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

Avançando em modelos comunitários

Uma contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Modelos de código aberto também promovem transparência na IA e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

Saiba mais sobre como a plataforma de inferência AI da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de ponta, como adaptação de baixa classificação, para acelerar os mais recentes LLMs.

“Estamos entusiasmados em oferecer mais essa tecnologia de IA da NVIDIA para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da inteligência artificial em uma variedade de aplicações, desde a nuvem até dispositivos de borda”, reforça Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.

Infinix é a marca de celular oficial do Free Fire World Series Brasil

Lenovo Qira é destaque no MWC 2026 com IA adaptativa

AMD anuncia novidades no Mobile World Congress 2026

Logitech G apresenta ASTRO A20 X LIGHTSPEED no Brasil

Novos Mapas na Temporada 2 Recarregada de Call of Duty: Black Ops 7

Novo DLC de Once Upon A Katamari é anunciado

Echoes of Aincrad é o novo RPG de ação da Bandai Namco

Grind Survivors será lançado em 16 de março de 2026

Novos Mapas na Temporada 2 Recarregada de Call of Duty: Black Ops 7

Novo DLC de Once Upon A Katamari é anunciado

Bungie anuncia que Marathon terá conteúdos sazonais gratuitos

Echoes of Aincrad é o novo RPG de ação da Bandai Namco

eFootball Kick-Off é lançado para Nintendo Switch 2

Outbound: Demo Lançada e Data de Lançamento Confirmada

Minishoot’ Adventures já está disponível para consoles

Denshattack! chega em 17 de junho no Nintendo Switch 2, PC, PS5 e Xbox

Gabby’s Odyssey é destaque no Mundo Gamer Showcase 2026

Novos Mapas na Temporada 2 Recarregada de Call of Duty: Black Ops 7

Novo DLC de Once Upon A Katamari é anunciado

Candy Luna Park: Demo Disponível no Steam

FURIA anuncia line-up de CrossFire para Brazil League 2026

Infinix é a marca de celular oficial do Free Fire World Series Brasil

9z é campeã do BetBoom RUSH B! Summit Part Two

Virtua Fighter Open Championship termina em 1º de março

Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

By

Isadora Fernandes

Gabby’s Odyssey é destaque no Mundo Gamer Showcase 2026

Novos Mapas na Temporada 2 Recarregada de Call of Duty: Black Ops 7

Midwest Games anuncia Adam Orth e outros executivos

Novo DLC de Once Upon A Katamari é anunciado

Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

By

Isadora Fernandes

Muito Obrigado!