Pular para conteúdo

Stability AI lança Stability Audio 3.0 com geração de músicas de até seis minutos

Manu Ramalho
Manu Ramalho

20 de maio de 2026

A Stability AI anunciou o Stability Audio 3.0, capaz de gerar músicas profissionais de até seis minutos – o dobro da versão anterior.

Carregando áudio…

A Stability AI, conhecida pelo Stable Diffusion, acaba de lançar o Stability Audio 3.0, uma família de modelos de áudio que quebra a barreira dos seis minutos de geração musical contínua. O novo sistema dobra a capacidade da versão anterior (Stable Audio 2.0) e já está disponível tanto em versão web quanto em modelos reduzidos para dispositivos locais.

O que muda com o Stability Audio 3.0?

A principal novidade é a duração máxima de geração: seis minutos de áudio com qualidade profissional. Na prática, criadores podem agora produzir faixas completas, jingles ou trilhas sonoras longas sem a necessidade de editar múltiplas saídas. O modelo também suporta condicionamento por áudio de referência, permitindo que o usuário forneça um trecho musical para inspirar o estilo. Além disso, a Stability AI treinou modelos menores — chamados de "Stable Audio 3.0 Light" — que rodam em GPUs de consumo, democratizando o acesso.

Como o Stability Audio 3.0 gera áudio de longa duração?

Segundo o anúncio original do TechCrunch, o Stability Audio 3.0 usa uma arquitetura latente de difusão específica para áudio, otimizada para coerência temporal em escalas longas. O modelo é treinado em milhões de faixas licenciadas e entende prompts textuais descritivos (ex.: "guitarra acústica melancólica com ritmo lento e climática"). Para garantir consistência, o gerador mantém uma estrutura narrativa musical, evitando repetições ou quebras bruscas.

Por que o Stability Audio 3.0 importa para criadores brasileiros?

Produtores musicais, criadores de conteúdo e desenvolvedores de jogos independentes no Brasil agora têm acesso a uma ferramenta de IA que pode acelerar a prototipação de trilhas sonoras completas. Enquanto gigantes como o Google lançam modelos multimodais como o Gemini 3.5 Flash, a Stability AI foca em nicho vertical — e o suporte a prompts em inglês (com possibilidade de adaptação para português) torna a ferramenta viável para estúdios caseiros. A versão Light, em particular, elimina a dependência de nuvem para geração local, crucial em regiões com conectividade limitada.

Quais versões do Stability Audio 3.0 estão disponíveis?

A Stability AI oferece o Stability Audio 3.0 em duas modalidades: a versão completa pela API web (com capacidade máxima e qualidade premium) e os modelos "Light" (disponíveis para download no Hugging Face). Os modelos leves podem gerar até três minutos de áudio com qualidade reduzida, mas rodam em GPUs com 8 GB de VRAM. Os preços ainda não foram divulgados, mas a versão anterior cobrava por créditos de geração — o novo modelo deve seguir modelo similar.

Perguntas Frequentes sobre o Stability Audio 3.0

O Stability Audio 3.0 é gratuito?

Não no momento. A Stability AI adota modelo de cobrança por créditos para a API web e oferece versões leves gratuitas para uso não comercial via Hugging Face.

É possível gerar música com vocais?

Sim, o modelo aceita prompts que descrevem vocais (como "voz feminina soul" ou "rap masculino agressivo") e é capaz de sintetizar letras cantadas, embora a qualidade dependa da complexidade do prompt.

O modelo entende comandos em português?

O Stability Audio 3.0 foi treinado majoritariamente em inglês, mas responde razoavelmente bem a descrições em português quando os termos musicais são universais. Para melhores resultados, recomenda-se usar prompts em inglês.
Compartilhar:
Manu Ramalho

Escrito por

Manu Ramalho

Sou Manu Ramalho, publicitária com 15 anos de estrada conectando marcas e pessoas. Como fundadora da EME Marketing Digital, sempre busquei o marketing estratégico para gerar conexões autênticas. Aqui, mergulho na fronteira da inteligência artificial como analista de tendências. Meu foco é traduzir a complexidade de NLP, novos modelos de linguagem e papers acadêmicos para o mundo real, sempre com um olhar atento à regulamentação, ética e aos impactos sociais que essa tecnologia imprime na nossa sociedade.

Artigos relacionados