As videoconferências permitiram que muitos fossem produtivos em qualquer lugar. A NVIDIA está aumentando a produtividade dos desenvolvedores de aplicações de videoconferência, call center e streaming no setor de US$ 10 bilhões, permitindo a fácil integração da IA aos seus fluxos de trabalho.
A nova versão da Maxine AI Developer Platform transforma a criação de aplicações de videoconferência de última geração em tempo real com recursos que permitem maior flexibilidade, envolvimento e eficiência do usuário.
Disponível por meio da plataforma de software NVIDIA AI Enterprise, a Maxine permite que os desenvolvedores aproveitem os mais recentes recursos orientados por IA – como qualidade aprimorada de vídeo e áudio e efeitos de realidade aumentada – para transformar as videochamadas diárias dos usuários em experiências envolventes e colaborativas.
Expandindo as videoconferências com os novos recursos da Maxine
A Maxine AI Developer Platform permite que os desenvolvedores acessem e integrem facilmente recursos aprimorados por IA em tempo real, que aumentam a qualidade do envolvimento dos usuários de videoconferência.
Recursos como redução de ruído, upscaling e redução de ruído de vídeo, bem como voz de estúdio, melhoram a qualidade das transmissões de áudio e vídeo. Com recursos avançados, como correção do olhar, retrato ao vivo e recursos futuros, como correção da luz do vídeo e microsserviço de nuvem Maxine 3D, os desenvolvedores podem aprimorar o envolvimento em videoconferência e a conexão interpessoal.
A plataforma amplia a utilidade dos modelos de IA de última geração para efeitos de áudio, vídeo e realidade aumentada de diversas maneiras para os desenvolvedores fornecerem recursos da Maxine com ofertas de kits de desenvolvimento de software, microsserviços e até mesmo terminais de interface de programação de aplicações (API) fornecidos pela infraestrutura em nuvem da NVIDIA.
As atualizações dos recursos de produção da Maxine disponíveis agora incluem:
- Contato visual: O modelo aprimorado de contato visual fornece redirecionamento do olhar com movimentos oculares naturais para um envolvimento mais profundo dos participantes na reunião.
- Fonte de voz: Esse novo modelo combina a voz do locutor com a voz alvo, mantendo inalteradas as informações linguísticas e a prosódia (ritmo e tom).
- BNR – Redução de ruído de fundo 2.0: Esse modelo atualiza a redução de ruído para audição humana e para codificação de linguagem com um esforço específico para diminuir as taxas de erro de codificação de palavras.
Os novos recursos disponíveis para acesso antecipado nesta temporada incluem:
- Retrato ao vivo de fala: Esse modelo permite que um usuário faça seu retrato com fala direta ou qualquer fonte de áudio, permitindo que os usuários tenham sempre a melhor aparência durante uma chamada em conferência.
- Voz de estúdio: Esse modelo permite que microfones comuns de headset, notebook e desktop forneçam o som de um microfone de estúdio de última geração, permitindo que os usuários tenham sempre o melhor som durante uma chamada em conferência.
O programa de acesso antecipado à Maxine compartilha versões de pré-produção e pré-lançamento de recursos futuros para obter opiniões dos desenvolvedores sobre a utilidade e o refinamento dos modelos Maxine. Nesta versão, a NVIDIA pede opiniões aos desenvolvedores sobre os recursos no início do pipeline de desenvolvimento, incluindo:
- Maxine 3D: Anteriormente apresentado como uma demonstração de pesquisa na SIGGRAPH 2023, esse microsserviço de nuvem oferece um novo nível de envolvimento para videoconferência com tecnologia NeRF em tempo real, elevando o vídeo 2D para 3D.
- Correção da luz do vídeo: Esse novo modelo utiliza uma imagem de alta faixa dinâmica para iluminar o usuário, permitindo uma combinação perfeita da iluminação do usuário com várias imagens de fundo.
- Terminais de API: Os API Endpoints oferecem aos desenvolvedores a flexibilidade de acessarem os recursos da Maxine por meio da infraestrutura de nuvem NVIDIA, tornando a integração da Maxine ainda mais fácil.
“Em um mundo cada vez mais conectado, o desenvolvimento de chamadas de vídeo cada vez mais elaboradas desempenha um papel crucial na facilitação da colaboração e na manutenção da produtividade em ambientes virtuais. A Maxine AI Developer Platform está na vanguarda desse desenvolvimento, capacitando os usuários a se conectarem de maneira mais eficaz e imersiva do que nunca”, complementa Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.
Definindo um novo padrão de videoconferência aprimorada por IA
Entre os primeiros clientes a aproveitarem o mais novo conjunto de recursos do programa de acesso antecipado, que permite a criação de um estúdio audiovisual profissional a partir de câmeras e microfones comuns, estão a Gemelo, a Pexip, a Spectacle e a VideoRequest.
“A Gemelo está envolvida em testes de versões de pré-lançamento de modelos Maxine há vários anos, e valorizamos a oportunidade de fornecer informações antecipadas sobre os recursos da Maxine à medida que são desenvolvidos”, reforça Paul Jaski, CEO da Gemelo. “O recurso mais recente, Speech Live Portrait, proporcionará aos nossos clientes maior flexibilidade na criação de mensagens de vídeo personalizadas, abrindo as portas para uma nova era de personalização.”
“A Pexip está muito satisfeita com a oportunidade de testar versões de desenvolvimento dos recursos da Maxine e ajudar a orientar os modelos de produtos finais”, conta Ian Mortimer, diretor de tecnologia da Pexip. “Testando a versão mais recente do Maxine BNR, estamos percebendo melhorias significativas na inteligibilidade e na qualidade da fala, e planejamos continuar refinando nossos parâmetros de teste para ajudar a otimizar a precisão nos pipelines de tradução de IA.”
“A API NVIDIA Maxine Eye Contact simplificou significativamente nosso caminho para fornecer recursos envolventes de processamento de vídeo aos usuários de nossa aplicação Spectacle, eliminando a necessidade de se preocupar com infraestrutura e integrações que exigem muitos recursos”, destaca Benjamin Portman, presidente da Spectacle. “Com ela, conseguimos criar uma prova de conceito em questão de dias, acelerando o cronograma de implantação de nossas aplicações de produção.”