Stability AI が6分間の楽曲作成が可能な新音声モデルをリリース
Stability AI は、最大 6 分 20 秒の楽曲生成が可能で構造とメロディを維持する「Stability Audio 3.0」を発表し、中・大規模モデルはオープンウェイト化された。
キーポイント
生成時間の劇的な延長
新モデルは最大 6 分 20 秒の楽曲を生成でき、前世代(Stable Audio 2.0)の倍以上の長さを維持しながら音楽構造とメロディを保つ。
4 つの新モデルラインナップ
SFX 用から大規模作曲用まで、パラメータ数(459M〜2.7B)に応じた 4 つのモデルが用意され、用途別に使い分けが可能。
オープンウェイトの拡大
小・中規模モデルを含む複数のバージョンがオープンウェイトとして公開され、開発者による改変や利用が容易になる。
API と有料セルフホスティングのみでの提供
大規模モデルは API および有料のセルフホスティングサービスを通じてのみ利用可能です。
大企業向けエンタープライズライセンスの要件
年間収益が 100 万ドルを超える企業は、利用にはエンタープライズライセンスの取得が必要です。
ライセンス済みデータと大手レコード会社との提携
Stability AI はWarner Music GroupやUniversal Music Groupと契約を結び、最新モデルが完全にライセンスされたデータで構築されていると発表した。
プロ向けツールの開発と専門家の登用
同社はプロのミュージシャン向けの製品スイートを開発中であり、元Universal AudioやFenderの幹部であるEthan Kaplanがその責任者として加わった。
影響分析・編集コメントを表示
影響分析
この発表は、AI 音楽生成における「長尺・高品質」の壁を突破した画期的な進展であり、コンテンツ制作現場での実用性を飛躍的に高める。特にオープンウェイト化によるエコシステムの拡大は、開発者コミュニティの活性化と新たな応用例の創出を促す可能性が高い。
編集コメント
6 分を超える長尺かつ構造的に安定した楽曲生成は、AI 音楽分野における実用化の転換点となる出来事です。オープンウェイト化により技術の民主化がさらに進むことが期待されます。
Stable Diffusion の開発元である Stability AI は、"Stability Audio 3.0" と名付けられた新しいオーディオモデルファミリーをリリースします。同社によると、最上位モデルは 6 分以上に及ぶプロフェッショナルグレードの音楽を生成できるそうです。
同社は Stable Audio 3.0 の名称の下で、4 つの新しいモデルを公開しました。具体的には、小規模 SFX(パラメータ数 459M)、小規模(パラメータ数 459M)、中規模(パラメータ数 1.4B)、大規模(パラメータ数 2.7B)です。小規模モデルの 2 つは、最大 2 分間のオンデバイスでのサウンドおよび音楽生成に適しています。
中規模および大規模モデルは、6 分 20 秒に及ぶ完全な楽曲を作曲でき、音楽構造や旋律のトーンを維持することが可能です。これは、2024 年にリリースされた Stable Audio 2.0 が生成できた長さの倍以上です。
Stability AI は、小規模 SFX、小規模、中規模モデルをオープンウェイトで公開し、誰でも利用・改変できるようにしています。2024 年、同社は最大 47 秒間の音楽生成を可能にする Stable Audio Open をリリースしました。新しいモデルファミリーは、以前のオープン版から大きく進化したものです。
image画像クレジット:Stability AIImage Credits:Stability AI
大規模モデルは、API およびセルフホスティングの有料サービスを通じてのみ利用可能です。また、年間収益が 100 万ドルを超える企業には、エンタープライズライセンスの取得が必要です。
Google や ElevenLabs など多くの企業が、音楽生成に関するモデルやツールをリリースしています。しかし、Suno と Udio の継続的な裁判闘争が証明したように、データのライセンス契約や音楽レーベルとのパートナーシップは、これらのサービスの長期的な存続において重要な要素となる可能性があります。
昨年、Stability AI は Warner Music Group および Universal Music Group と契約を結び、モデルと音楽制作ツールの開発を行いました。同社は、最新のオーディオモデル群が完全にライセンスされたデータに基づいて構築されていると述べています。
この AI スタートアップは、プロのミュージシャン向けに新製品スイートの開発を進めていますが、機能の詳細についてはまだ明かしていません。Universal Audio や Fender で元首席デジタルオフィサーを務めた Ethan Kaplan が、Stability のプロ向け音楽提供を率いるために同社に加わります。
多くの AI 企業が、音楽業界の重鎮を起用することで自社の信頼性を高めようとしています。今年初め、Suno は元 Merlin CEO のジェレミー・シロタを最高商業責任者(CCO)として雇い入れました。また、ElevenLabs もインディーズ音楽出版社のコバルトからデレク・コーノワヤーを音楽事業の戦略リーダーとして招聘しています。
*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを受け取る可能性があります。これは当社の編集独立性には影響しません。
Ivan は TechCrunch でグローバルな消費者向けテクノロジーの動向をカバーしています。彼はインドに拠点を置き、以前は Huffington Post や The Next Web などの出版物で働いていました。
Ivan への連絡や、彼からのアウトリーチの検証については、im@ivanmehta.com へメールを送るか、Signal で ivan.42 経由で暗号化メッセージを送信してください。
原文を表示
Stability AI, the company behind Stable Diffusion, is releasing a new family of audio models, called Stability Audio 3.0. The top model can generate professional-grade music of more than six minutes long, the company claimed.
The company is releasing four new models under the Stable Audio 3.0 name: small SFX (459M parameters), small (459M parameters), medium (1.4B parameters), and large (2.7B parameters). The duo of small models is suitable for on-device sound and music generation of up to two minutes.
Both medium and large models can create full compositions of 6 minutes 20 seconds long that can maintain musical structure and melodic tone. This is more than double the length of what Stable Audio 2.0, released in 2024, was capable of generating.
Stability AI is making small SFX, small, and medium models available with open weights for anyone to use and modify. In 2024, the company released Stable Audio Open, which allowed for music generation of up to 47 seconds. The new family of models is a big step up from the previous open versions.

The large model is available only through the API and self-hosting paid services. Plus, companies with more than $1 million in revenue would need to get an enterprise license.
Many companies, including Google and ElevenLabs, are releasing models and tooling around music generation. However, as Suno and Udio’s ongoing court battles have proved, licensing of data and partnerships with music labels could become a key part of the long-term survival of these services.
Last year, Stability AI inked deals with Warner Music Group and Universal Music Group to develop models and music creation tools. The company said that its latest set of audio models is built on fully licensed data.
The AI startup is developing a new suite of products for professional musicians, but didn’t give more details on its features. Ethan Kaplan, former chief digital officer at Universal Audio and Fender, is joining the company to lead Stability’s professional music offering.
A number of AI companies are trying to bolster their credentials by hiring music execs. Earlier this year, Suno hired former Merlin CEO Jeremy Sirota as chief commercial officer. ElevenLabs has also hired Derek Cournoyer from indie music publisher Kobalt as a strategy lead for its music business.
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Ivan covers global consumer tech developments at TechCrunch. He is based out of India and has previously worked at publications including Huffington Post and The Next Web.
You can contact or verify outreach from Ivan by emailing im@ivanmehta.com or via encrypted message at ivan.42 on Signal.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み