Stability AI lança Stability Audio 3.0 com geração de músicas de até seis minutos
20 de maio de 2026
A Stability AI anunciou o Stability Audio 3.0, capaz de gerar músicas profissionais de até seis minutos – o dobro da versão anterior.
A Stability AI, conhecida pelo Stable Diffusion, acaba de lançar o Stability Audio 3.0, uma família de modelos de áudio que quebra a barreira dos seis minutos de geração musical contínua. O novo sistema dobra a capacidade da versão anterior (Stable Audio 2.0) e já está disponível tanto em versão web quanto em modelos reduzidos para dispositivos locais.
O que muda com o Stability Audio 3.0?
A principal novidade é a duração máxima de geração: seis minutos de áudio com qualidade profissional. Na prática, criadores podem agora produzir faixas completas, jingles ou trilhas sonoras longas sem a necessidade de editar múltiplas saídas. O modelo também suporta condicionamento por áudio de referência, permitindo que o usuário forneça um trecho musical para inspirar o estilo. Além disso, a Stability AI treinou modelos menores — chamados de "Stable Audio 3.0 Light" — que rodam em GPUs de consumo, democratizando o acesso.
Como o Stability Audio 3.0 gera áudio de longa duração?
Segundo o anúncio original do TechCrunch, o Stability Audio 3.0 usa uma arquitetura latente de difusão específica para áudio, otimizada para coerência temporal em escalas longas. O modelo é treinado em milhões de faixas licenciadas e entende prompts textuais descritivos (ex.: "guitarra acústica melancólica com ritmo lento e climática"). Para garantir consistência, o gerador mantém uma estrutura narrativa musical, evitando repetições ou quebras bruscas.
Por que o Stability Audio 3.0 importa para criadores brasileiros?
Produtores musicais, criadores de conteúdo e desenvolvedores de jogos independentes no Brasil agora têm acesso a uma ferramenta de IA que pode acelerar a prototipação de trilhas sonoras completas. Enquanto gigantes como o Google lançam modelos multimodais como o Gemini 3.5 Flash, a Stability AI foca em nicho vertical — e o suporte a prompts em inglês (com possibilidade de adaptação para português) torna a ferramenta viável para estúdios caseiros. A versão Light, em particular, elimina a dependência de nuvem para geração local, crucial em regiões com conectividade limitada.
Quais versões do Stability Audio 3.0 estão disponíveis?
A Stability AI oferece o Stability Audio 3.0 em duas modalidades: a versão completa pela API web (com capacidade máxima e qualidade premium) e os modelos "Light" (disponíveis para download no Hugging Face). Os modelos leves podem gerar até três minutos de áudio com qualidade reduzida, mas rodam em GPUs com 8 GB de VRAM. Os preços ainda não foram divulgados, mas a versão anterior cobrava por créditos de geração — o novo modelo deve seguir modelo similar.
Perguntas Frequentes sobre o Stability Audio 3.0
O Stability Audio 3.0 é gratuito?
Não no momento. A Stability AI adota modelo de cobrança por créditos para a API web e oferece versões leves gratuitas para uso não comercial via Hugging Face.É possível gerar música com vocais?
Sim, o modelo aceita prompts que descrevem vocais (como "voz feminina soul" ou "rap masculino agressivo") e é capaz de sintetizar letras cantadas, embora a qualidade dependa da complexidade do prompt.O modelo entende comandos em português?
O Stability Audio 3.0 foi treinado majoritariamente em inglês, mas responde razoavelmente bem a descrições em português quando os termos musicais são universais. Para melhores resultados, recomenda-se usar prompts em inglês.Fonte: techcrunch.com
Escrito por
Manu RamalhoSou Manu Ramalho, publicitária com 15 anos de estrada conectando marcas e pessoas. Como fundadora da EME Marketing Digital, sempre busquei o marketing estratégico para gerar conexões autênticas. Aqui, mergulho na fronteira da inteligência artificial como analista de tendências. Meu foco é traduzir a complexidade de NLP, novos modelos de linguagem e papers acadêmicos para o mundo real, sempre com um olhar atento à regulamentação, ética e aos impactos sociais que essa tecnologia imprime na nossa sociedade.