芸術的実験に対応したオープンウェイトモデル「Stable Audio 3.0」の発表
Stability AI は、完全ライセンス済みデータで訓練されたオープンウェイトの音声生成モデル「Stable Audio 3.0」ファミリーを発表し、商用利用を許可する新たなライセンス体系とオンデバイスでの長時間音楽生成能力を実現した。
キーポイント
オープンウェイトとライセンスの明確化
Stable Audio 3.0 の一部モデルはオープンウェイトとして公開され、出力物の所有権と商用利用(コミュニティライセンスまたは企業向けライセンス)が明確に保証されている。
4 つの専用モデルによる用途別最適化
SFX 生成から高品質なフル曲作曲まで、オンデバイス実行可能な Small/Medium モデルと、API/エンタープライズ向けの Large モデルを含む 4 つのモデルをリリースした。
技術的革新:6 分間の生成とオンデバイス対応
最大 6 分 20 秒までの可変長生成が可能となり、モバイル端末やラップトップでも高品質な音楽作曲が実行できる性能を達成した。
コミュニティ主導のイノベーション促進
画像生成分野での成功(Stable Diffusion)と同様に、リミックス文化や共同創作を促すため、開発者コミュニティへの開放と実験を強く推奨している。
商用利用と所有権の明確化
Stable Audio 3.0 は完全にライセンスされたデータでトレーニングされており、Stability AI コミュニティライセンスの下でユーザーが生成物の所有権を持ち、自由に配布・商用利用できます。
オンデバイスでのフル楽曲生成
3.0 Small モデルは世界で唯一、オンデバイスかつオフライン環境で完全な楽曲(最大 2 分)を生成可能なモデルです。
高度な編集とカスタマイズ機能
LoRa トレーニングによる独自ライブラリへのカスタマイズや、インペイント機能による楽曲の一部修正・拡張が可能で、最大 6 分以上の可変長生成に対応しています。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の音声分野において「オープンソース化」と「商用利用の明確化」を同時に実現した画期的な動きであり、クリエイターや開発者が法的リスクを懸念せず音楽生成技術を応用できる環境を整えた。特にオンデバイスでの長時間生成が可能になったことで、クラウド依存からの脱却と低遅延・高プライバシーなアプリケーションの実現が加速すると予想される。
編集コメント
音声生成分野において、ライセンスの明確化とオープンウェイト化を同時に推進した点は、業界全体の標準化に向けた重要な一歩です。特に「完全ライセンス済みデータ」という点と「オンデバイスでの長時間生成」は、実用化への障壁を下げる決定的な要素と言えます。
Key Takeaways:
We're releasing Stable Audio 3.0, a model family with open-weights music models that are trained on fully licensed data.
You own your outputs and can distribute and commercialize them under the Stability AI Community License, or the Enterprise License for organizations with more than $1M in revenue.
Key innovations include variable-length generation up to six minutes, and full song composition on portable devices.
Stable Audio 3.0 Small and Medium are available on Hugging Face. You can download the weights here.
Stable Audio 3.0 Large is available via the Stability AI API and self-hosting for enterprise deployments. Try it out here.
image
Today we're releasing Stable Audio 3.0, a model family trained on fully licensed data, designed to be the foundation for what the audio community builds next. Three of the models are open weights, free to download and build on.
Music has always evolved through the collective creativity of its community. Remix culture, interpolations, and mashups are how artists build on each other's work and push the art form forward. Generative audio will be no different. We want to foster the same kind of community-driven innovation in audio that we sparked in image generation with the launch of Stable Diffusion.
Stable Audio 3.0 is our open invitation to experiment with generative audio. We believe the best innovations are still waiting to be built.
Download the weights here
Meet the Stable Audio 3.0 model family
We’re releasing four new models designed for different use cases and deployment options:
Stable Audio 3.0 Small SFX: Sound effects generation on-device, such as mobile phones and consumer-grade laptops.
Stable Audio 3.0 Small: Full music composition on-device.
Stable Audio 3.0 Medium: Higher musicality (i.e. structure, melodic coherence, and phrasing) and longer track length at up to 6:20.
Stable Audio 3.0 Large: The most advanced musicality in the family, built for music platforms and creative applications that need low-latency generation at high volume.
Compare Stable Audio 3.0 Models
image
Open for experimentation, with ownership of what you create
All Stable Audio 3.0 models are trained on fully licensed data. Under the Stability AI Community License, you own your outputs and can distribute and commercialize them freely.
For organizations with more than $1M in annual revenue, you can get commercial coverage with our Enterprise license. We also offer legal indemnification under the Enterprise license.
3.0 Small SFX, 3.0 Small, and 3.0 Medium are all open-weights. To our knowledge, other open music models either restrict commercial use or carry the risks associated with being trained on unlicensed music.
Architectural advancements for variation and iteration
Stable Audio 3.0 is our next-gen architecture, built with a novel semantic-acoustic autoencoder that enables longer, more flexible audio generation. You can read the full research paper here.
Variable-length generation, up to more than six minutes. Stable Audio 3.0 introduces a new method for variable-length audio generation that enables you to generate exactly what you need, at per-second granularity.
3.0 Small generates up to two minutes, compared to 11 seconds from Stable Audio Open Small, and 47 seconds from Stable Audio Open. 3.0 Medium and 3.0 Large generate more than six minutes.
Full music composition on-device. To our knowledge, 3.0 Small is the only model capable of full music composition on-device. For the first time, on-device and offline audio generation isn't limited to short samples; it can produce complete musical tracks.
Customize the models on your own library with support for LoRa training. A LoRa is an efficient method for fine-tuning that was first made popular in image generation, and is now an emerging method for customizing audio generation models.
For the first time we're publishing documentation for LoRa training, alongside the weights for 3.0 Small and 3.0 Medium. For organizations with our Enterprise license, we offer the option of white-glove support with fine-tuning.
Audio inpainting options. Modify a segment of a track, rework part of a song, or extend your composition without starting over. Stable Audio 3.0 supports single-segment editing, multi-segment editing, and causal continuation (extending audio beyond its original endpoint).
Setting the stage for what’s next
Stable Audio 3.0 is the new architecture on which we're already building our next generation of fully licensed audio models for professionals.
While responsibly trained generative AI models are critical, they are not enough on their own. Artist-centric AI will only win if the product experience on a licensed platform is better than the experience on an unlicensed platform.
We're also working on a suite of new products for musicians. Join the waitlist to get early access.
In the meantime, you can learn more about our partnerships with Universal Music Group and Warner Music Group.
Get started with Stable Audio 3.0 now
Open weights: Download 3.0 Small SFX, 3.0 Small, and 3.0 Medium on Hugging Face. For organizations with more than $1M in annual revenue, contact us to discuss our Enterprise Licensing.
API: Stable Audio 3.0 Large is available via the Stability AI API.
Partner platforms: Stable Audio 3.0 will be available on ComfyUI and other platforms.
Try Stable Audio 3.0 now
To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
Stability AI、企業向け大規模音声制作のための初のオーディオモデル「Stable Audio 2.5」を発表
Stability AIは、企業向け大規模音声制作のために設計された初の音声生成モデル「Stable Audio 2.5」を発表した。同モデルは、広告から店舗内体験まで多様なチャネル向けにカスタマイズ可能な高品質音声を効率的に生成することを目的としている。
AI ニュース:本日は目立った動きなし、GPT-6 の噂と新モデル発表に注視
AINews チームは、本日は推論需要やマルチエージェントに関する小論文の執筆中だが、大きな出来事はないと報告。Nvidia や Alec Radford 氏らの新モデルが発表されたものの、長期的な価値は不明確。一方、GPT-6 を巡る噂が高まりつつある。
「OpenAIプライバシーフィルター」の公開
OpenAIは、テキスト内の個人情報を検出・削除するオープンウェイトモデル「Privacy Filter」を公開した。最先端の精度でPII処理を実現する。