Stable Audio 3.0(3 分間の読み物)
Stability AI は、商用利用が可能なライセンスとオンデバイスでの完全楽曲生成を実現する次世代アーキテクチャを備えた Stable Audio 3.0 を発表し、音声生成分野の標準を再定義した。
キーポイント
明確な所有権と商用ライセンス
Stability AI Community License に基づき、出力物の所有権はユーザーに帰属し、自由な配布・商用化が可能である。年間収益100万ドル以上の企業向けにはエンタープライズライセンスによる法的補償も提供される。
次世代アーキテクチャと生成時間の拡大
新しいセマンティック・アコースティックオートエンコーダーを採用し、Small モデルで最大 2 分、Medium/Large モデルでは 6 分以上の可変長生成を可能にした。
オンデバイスでの完全楽曲生成
3.0 Small モデルは、短尺サンプルに留まらず、オフライン環境でも完全な楽曲構成を生成できる初のモデルとして位置づけられている。
LoRA によるカスタマイズ対応
画像生成で普及した LoRA(Low-Rank Adaptation)技術をサポートし、ユーザーは独自のライブラリに基づいてモデルを効率的に微調整できる。
影響分析・編集コメントを表示
影響分析
この発表は、音声生成 AI が単なるサンプル生成から、商用・オフライン環境でも信頼して使用できる本格的な制作ツールへと進化することを示しています。特に「ライセンス済みデータ」と「オンデバイス完全生成」の組み合わせは、クリエイティブ産業における法的懸念と技術的制約を同時に解消する画期的なステップであり、業界全体の採用加速に寄与すると考えられます。
編集コメント
「ライセンス済みデータ」という明言と、オンデバイスでの完全楽曲生成という実用性の飛躍は、クリエイターが安心して本格的に導入できる環境を整えた点で極めて重要です。
実験のためにオープンに、生成物の所有権はあなたに
すべての Stable Audio 3.0 モデルは、完全にライセンスされたデータを用いてトレーニングされています。Stability AI コミュニティライセンスの下では、あなたが生成した出力の所有権を持ち、自由に配布および商用利用することができます。
年間収益が 100 万ドルを超える組織の場合、Enterprise license をご利用いただくと、商用利用のカバーを取得できます。また、Enterprise ライセンス下では法的な補償も提供しています。
3.0 Small SFX、3.0 Small、および 3.0 Medium はすべてオープンウェイトです。私どもの知る限り、他のオープンな音楽モデルは商用利用を制限しているか、ライセンスされていない音楽でトレーニングされていることによるリスクを伴っています。
バリエーションと反復のためのアーキテクチャの進展
Stable Audio 3.0 は、より長く柔軟なオーディオ生成を可能にする革新的なセマンティック・アコースティックオートエンコーダ(semantic-acoustic autoencoder)を備えた次世代アーキテクチャです。完全な研究論文はこちらでご覧ください。
可変長生成、最大 6 分以上。 Stable Audio 3.0 は、必要なものを正確に、秒単位の粒度で生成できる新しい可変長オーディオ生成手法を導入しました。
3.0 Small は最大 2 分まで生成可能ですが、Stable Audio Open Small の 11 秒や Stable Audio Open の 47 秒と比較して大幅に向上しています。3.0 Medium と 3.0 Large は 6 分以上の生成が可能です。
オンデバイスでのフル音楽作曲。 私たちの知る限り、3.0 Small はオンデバイスで完全な音楽を作曲できる唯一のモデルです。初めて、オンデバイスおよびオフラインでのオーディオ生成が短いサンプルに限定されず、完全な楽曲トラックを生成できるようになりました。
LoRa 学習(LoRa training)をサポートし、独自のライブラリでモデルをカスタマイズ。 LoRa は画像生成で最初に普及した効率的なファインチューニング手法であり、現在はオーディオ生成モデルのカスタマイズにおける新興手法となっています。
今回初めて、3.0 Small および 3.0 Medium の重み(weights)とともに、LoRa 学習に関するドキュメントを公開します。Enterprise license をお持ちの組織向けには、ファインチューニングを含むホワイトグローブサポートを提供するオプションもございます。
オーディオインペイント機能。 トラックの一部を変更したり、曲の一部を再構築したり、最初から作り直すことなく作曲を拡張できます。Stable Audio 3.0 は、単一セグメント編集、複数セグメント編集、因果的継続(元の終点を超えてオーディオを拡張)をサポートしています。
次のステップへの舞台設定
Stable Audio 3.0 は、プロフェッショナル向けにすでに次世代の完全ライセンス付きオーディオモデルの開発を進めている新しいアーキテクチャです。
責任を持って訓練された生成 AI モデルは不可欠ですが、それだけでは不十分です。アーティスト中心の AI が勝利を収めるのは、ライセンスプラットフォーム上の製品体験が、非ライセンスプラットフォーム上の体験よりも優れている場合に限られます。
また、ミュージシャン向けの新しい製品群の開発も進めています。早期アクセス権を得るには、待機リストに参加してください。
その間、Universal Music Group や Warner Music Group とのパートナーシップについて詳しく学ぶこともできます。
Stable Audio 3.0 を今すぐ始めよう
オープンウェイト: Hugging Face で、3.0 Small SFX、3.0 Small、3.0 Medium をダウンロードできます。年間収益が 100 万ドルを超える組織の場合は、お問い合わせフォームより、エンタープライズライセンスについてご相談ください。
API: Stable Audio 3.0 Large は Stability AI API を通じて利用可能です。
パートナープラットフォーム: Stable Audio 3.0 は ComfyUI および他のプラットフォームでも利用可能になります。
原文を表示
Open for experimentation, with ownership of what you create
All Stable Audio 3.0 models are trained on fully licensed data. Under the Stability AI Community License, you own your outputs and can distribute and commercialize them freely.
For organizations with more than $1M in annual revenue, you can get commercial coverage with our Enterprise license. We also offer legal indemnification under the Enterprise license.
3.0 Small SFX, 3.0 Small, and 3.0 Medium are all open-weights. To our knowledge, other open music models either restrict commercial use or carry the risks associated with being trained on unlicensed music.
Architectural advancements for variation and iteration
Stable Audio 3.0 is our next-gen architecture, built with a novel semantic-acoustic autoencoder that enables longer, more flexible audio generation. You can read the full research paper here.
Variable-length generation, up to more than six minutes. Stable Audio 3.0 introduces a new method for variable-length audio generation that enables you to generate exactly what you need, at per-second granularity.
3.0 Small generates up to two minutes, compared to 11 seconds from Stable Audio Open Small, and 47 seconds from Stable Audio Open. 3.0 Medium and 3.0 Large generate more than six minutes.
Full music composition on-device. To our knowledge, 3.0 Small is the only model capable of full music composition on-device. For the first time, on-device and offline audio generation isn't limited to short samples; it can produce complete musical tracks.
Customize the models on your own library with support for LoRa training. A LoRa is an efficient method for fine-tuning that was first made popular in image generation, and is now an emerging method for customizing audio generation models.
For the first time we're publishing documentation for LoRa training, alongside the weights for 3.0 Small and 3.0 Medium. For organizations with our Enterprise license, we offer the option of white-glove support with fine-tuning.
Audio inpainting options. Modify a segment of a track, rework part of a song, or extend your composition without starting over. Stable Audio 3.0 supports single-segment editing, multi-segment editing, and causal continuation (extending audio beyond its original endpoint).
Setting the stage for what’s next
Stable Audio 3.0 is the new architecture on which we're already building our next generation of fully licensed audio models for professionals.
While responsibly trained generative AI models are critical, they are not enough on their own. Artist-centric AI will only win if the product experience on a licensed platform is better than the experience on an unlicensed platform.
We're also working on a suite of new products for musicians. Join the waitlist to get early access.
In the meantime, you can learn more about our partnerships with Universal Music Group and Warner Music Group.
Get started with Stable Audio 3.0 now
Open weights: Download 3.0 Small SFX, 3.0 Small, and 3.0 Medium on Hugging Face. For organizations with more than $1M in annual revenue, contact us to discuss our Enterprise Licensing.
API: Stable Audio 3.0 Large is available via the Stability AI API.
Partner platforms: Stable Audio 3.0 will be available on ComfyUI and other platforms.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み