More

    Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

    Mais recente grande modelo de linguagem de código aberto da Meta — construído com tecnologia da NVIDIA é otimizado para ser executado em GPUs da NVIDIA desde a nuvem e o centro de dados até a borda e o PC

    A NVIDIA anuncia otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM). O modelo aberto combinado com computação acelerada pela NVIDIA equipa desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

    Treinado na IA da NVIDIA

    Os engenheiros da Meta treinaram o Llama 3 em clusters de computadores com 24.576 GPUs NVIDIA H100 Tensor Core, conectados com redes RoCE e NVIDIA Quantum-2 InfiniBand. Com o apoio da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu LLM de ponta.

    Para avançar ainda mais o estado da arte em IA generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100.

    Colocando o Llama 3 para trabalhar

    Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis para uso na nuvem, centro de dados, borda e PC.

    A partir de um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com. Ele é empacotado como um microsserviço NVIDIA NIM com uma interface de programação de aplicações padrão que pode ser implantada em qualquer lugar.

    Empresas podem ajustar o Llama 3 com seus dados usando o NVIDIA NeMo, um framework de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise, segura e suportada. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da NVIDIA e implantados com o Triton Inference Server da NVIDIA.

    Levando o Llama 3 para dispositivos e PCs

    O Llama 3 também é executado no NVIDIA Jetson Orin para robótica e dispositivos de computação de borda, criando agentes interativos como os do Jetson AI Lab.

    Além disso, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores um alvo de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

    Obtenha desempenho ótimo com o Llama 3

    As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ótimo de GPU para reduzir custos.

    Um serviço desse tipo precisa entregar tokens — o equivalente aproximado de palavras para um LLM — a cerca de duas vezes a velocidade de leitura de um usuário, que é cerca de 10 tokens/segundo.

    Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

    Avançando em modelos comunitários

    Uma contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Modelos de código aberto também promovem transparência na IA e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

    Saiba mais sobre como a plataforma de inferência AI da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de ponta, como adaptação de baixa classificação, para acelerar os mais recentes LLMs.

    “Estamos entusiasmados em oferecer mais essa tecnologia de IA da NVIDIA para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da inteligência artificial em uma variedade de aplicações, desde a nuvem até dispositivos de borda”, reforça Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.

    By

    Isadora Fernandes
    + posts

    Posts Recentes

    Posts relacionados