Stability AI、企業向け大規模音声制作のための初のオーディオモデル「Stable Audio 2.5」を発表
Stability AI は、エンタープライズ向けに設計された音声生成モデル「Stable Audio 2.5」を発表し、ブランドの独自性を強化する高品質かつ高速な音声制作を可能にする新機能を導入した。
キーポイント
エンタープライズ特化の設計
企業規模での音響生産に最適化され、ブランドの多様なチャネル(広告、店舗など)に対応するカスタムサウンド作成を目的としている。
高速推論と高品質生成
ARC 法を用いたポストトレーニングにより、GPU で2 秒未満で最大3 分間のトラックを生成可能となり、商用利用に耐える品質を実現した。
高度な制御機能の追加
音声インペイント(Audio Inpainting)機能を搭載し、既存の音源から特定の箇所を指定して続きを生成する柔軟なワークフローを提供する。
商用安全性とライセンス済みデータ
Stable Audio 2.5 は、完全にライセンスされたデータセットでトレーニングされており、すべての Stable Audio モデル同様に商用利用が安全に設計されています。
ブランド固有のオーディオ生成とファインチューニング
企業のサウンドライブラリを使用してモデルをファインチューニングすることで、ブランドの音響アイデンティティやクリエイティブガイドラインに沿った独自のカスタムオーディオを大規模に作成できます。
WPP との戦略的提携と展開
サウンドブランディングエージェンシーの amp(Landor Group 傘下)と連携し、Stable Audio 2.5 を WPP Open を通じてグローバルクライアントに提供し、革新的なブランド体験を共創します。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI が単なる実験的なツールから、ブランド戦略の不可欠な要素として実務レベルで採用される転換点を示しています。特に「音声インペイント」や「高速推論」の実装により、制作コストと時間を大幅に削減しつつ、企業固有のサウンドアイデンティティを維持・拡張できるため、広告・メディア業界におけるワークフロー変革が加速すると予想されます。
編集コメント
音声生成 AI が「実験」から「実用」へ移行する明確な指標となるリリースです。特にブランドの記憶定着率向上というデータに基づいたアプローチと、商用利用を前提としたインペイント機能は、制作現場の即戦力としてのポテンシャルを示しています。
タイトル: Stability AI、企業向け大規模サウンド制作のために構築された初のオーディオモデル「Stable Audio 2.5」を発表
主要ポイント:
Stability AIは、企業向けサウンド制作のために特別に設計された初のオーディオ生成モデル「Stable Audio 2.5」をリリースします。
カスタマイズされたサウンドは、ブランドにとって未開拓の差別化要素です。企業は、広告から店舗内体験に至るまで、増え続けるチャネル向けに独自のサウンドを作成する必要があります。
Stable Audio 2.5は、カスタマイズ可能で高品質なオーディオを大規模に作成するという課題に対応するために設計されています。これには、高度な音楽作曲、GPU上での2秒未満の高速な推論、オーディオインペインティングによる制御性の向上が含まれます。
Stable Audio 2.5は現在、StableAudio.comで試用できるほか、Stability AI API、fal、Replicate、ComfyUIなどのパートナープラットフォーム、およびエンタープライズライセンスによるオンプレミス展開をシームレスに利用できます。
Stability AIは、最新のオーディオモデルであり、企業向けユースケース向けに初めて開発された「Stable Audio 2.5」のリリースを発表できることを嬉しく思います。Stable Audio 2.5は、品質と制御性の面で進化を遂げ、カスタムブランドのニーズに合わせて調整可能なダイナミックな楽曲に対する需要に対応します。
カスタムオーディオはブランドの記憶率を8倍に高める可能性がありますが、Ipsosの調査によると、クリエイティブのわずか6%しかサウンドアイデンティティを活用していません。ブランドの延長としてサウンドをより戦略的に展開するためには、企業は高品質で商用グレード、そしてブランドが登場する多様な場面に適応可能なオーディオを作成する必要があります。
Stable Audio 2.5の企業向け機能により、プロのクリエイティブチームは、より高度でカスタマイズ可能なオーディオ生成を活用し、あらゆる制作に最適なサウンドを付与できます。
新機能: より高速な生成、よりスマートな作曲、強化されたワークフロー
Stable Audio 2.5は、商用ユースケースに適した速度と出力品質の向上をもたらします。
数秒で3分間のトラックを生成: Stable Audio研究チームが開拓した最先端のAdversarial Relativistic-Contrastive (ARC) 手法を用いて追加学習されたStable Audio 2.5は、GPU上で2秒未満の推論速度を実現し、最大3分間のトラックを生成します。
ダイナミックな楽曲を制作: Stable Audio 2.5は音楽生成に最適化されており、楽曲構造が改善され、複数パート(イントロ、展開、アウトロ)から成る作曲を生成します。プロンプトへの忠実度も向上しており、「高揚感」などのムード記述子や、ジャンルを問わない「豊かなシンセサイザー」などの音楽的表現により効果的に応答します。
オーディオインペインティングサポートで制御性を向上: テキストからオーディオ、オーディオからオーディオのワークフローに加え、Stable Audio 2.5はオーディオインペインティングをサポートします。これにより、ユーザーは自身のオーディオを入力し、開始位置を選択すると、モデルがその文脈に基づいてトラックの残りを生成します。注: 利用規約では、アップロードするコンテンツに著作権で保護された素材が含まれていないことが必要です。コンプライアンス維持と権利侵害防止のため、高度なコンテンツ認識技術を使用しています。
すべてのStable Audioモデルと同様に、Stable Audio 2.5は商業利用が安全で、完全にライセンスされたデータセットで学習されています。
クリエイティブな制御とパートナーシップによる、ブランド主導のカスタムオーディオ制作
オーディオはブランドエンゲージメントに86%影響を与えますが、カスタムオーディオを大規模に活用しているブランドはほとんどありません。企業には、広告、ゲームのオープニングクレジット、店内BGM、クレジットカード決済時の音、カーオーディオなど、多様化する接点全体で、より意図的でブランドに合致したオーディオを構築する機会があります。
企業が適切なサウンドを作成するのを支援するため、当社チームは組織のサウンドライブラリを用いてStable Audioモデルをファインチューニングし、独自のブランドサウンドをカスタム生成ワークフローに組み込むことができます。これにより、音楽やサウンドスケープが、ブランドのサウンドアイデンティティやプロジェクトのクリエイティブガイドラインの一部として、独自性を持って認識されることが保証されます。
Stable Audio 2.5のリリースに伴い、Stability AIは、WPPグループの一員である主要サウンドブランディングエージェンシー「amp」とも提携し、象徴的なサウンドアイデンティティと体験を創造したい革新的なブランド向けの企業ソリューションを共同開発します。Stable Audio 2.5は、WPP Openを通じてWPPのグローバルクライアントに提供され、先進技術とクリエイティブの専門知を結集します。
今すぐ始める
Stable Audio 2.5は現在、StableAudio.comで試用できます。
Stable Audio 2.5は、Stability AI API、およびfal、Replicate、ComfyUIを含むパートナープラットフォームを通じて利用可能です。
自社インフラにオーディオモデルを導入することにご関心のある企業様は、実装サポート、カスタマイズオプション、プロフェッショナルサービスが含まれるエンタープライズライセンスについて、ぜひお問い合わせください。特定のユースケース向けにオーディオモデルとワークフローをカスタマイズする詳細については、Stability AI Solutionsもご覧ください。
最新情報については、X、LinkedIn、Instagramでフォローし、Discordコミュニティにご参加ください。
原文を表示
Key Takeaways:
We’re launching Stable Audio 2.5, the first audio generation model designed specifically for enterprise-grade sound production.
Customized sound is an untapped differentiator for brands. Enterprises need to create their distinct sound for a growing volume of channels, from ads to the in-store experience.
Stable Audio 2.5 is purpose-built for this challenge of creating customizable, high-quality audio at scale. That includes elevated musical composition, fast inference at less than two seconds on a GPU, and support for more control with audio inpainting.
You can try Stable Audio 2.5 now at StableAudio.com or seamlessly deploy through the Stability AI API; partner platforms such as fal, Replicate, and ComfyUI; and on-premises with an enterprise license.
We’re excited to release Stable Audio 2.5, our latest audio model and the first developed for enterprise-grade use cases. Stable Audio 2.5 introduces advancements in quality and control that address the demand for dynamic compositions that can be adapted for custom brand needs.
Custom audio can make a brand eight times more memorable, but only 6% of creative uses a sound identity, according to Ipsos research. To deploy sound more strategically as an extension of their brand, enterprises need to create audio that’s high-quality, commercial-grade, and adaptable for the different places a brand shows up.
With the enterprise-focused capabilities of Stable Audio 2.5, professional creative teams can leverage more advanced, customizable audio generation to give every production the right sound.
What’s new: Faster generation, smarter composition, enhanced workflows
Stable Audio 2.5 brings advancements in speed and output quality that make it well-suited for commercial use cases.
Generate three-minute long tracks within seconds: Post-trained using the cutting-edge Adversarial Relativistic-Contrastive (ARC) method pioneered by the Stable Audio research team, Stable Audio 2.5 has an inference speed of less than two seconds on a GPU, for tracks up to three minutes.
Produce dynamic musical compositions: Stable Audio 2.5 is optimized for music and has improved musical structure, generating multi-part compositions (intro, development, and outro). The model also has improved prompt adherence, responding more effectively to mood descriptors (such as “uplifting”) and musical language across genres (“lush synthesizers”).
Get more control with audio inpainting support: In addition to text-to-audio and audio-to-audio workflows, Stable Audio 2.5 supports audio inpainting, which means users can input their own audio, select where they want it to start, and the model will use the context to generate the rest of the track. Note: Our Terms of Service require that uploads be free of copyrighted material, and we use advanced content recognition to maintain compliance and prevent infringement.
Like all Stable Audio models, Stable Audio 2.5 is commercially safe and trained on a fully licensed dataset.
Produce custom, brand-led audio with creative control and partnership
Audio influences brand engagement by 86%, but few brands are leveraging custom audio at scale. Enterprises have an opportunity to curate more intentional, on-brand audio across a growing variety of touchpoints – whether it’s an ad, the opening credits of a game, in-store music, the chimes of a credit card swipe, or a car stereo.
To help enterprises create the right sound, our team can fine-tune Stable Audio models on an organization’s sound library, embedding signature brand audio into custom generative workflows. This ensures that the music or soundscape is uniquely recognizable as part of a brand’s sonic identity or creative guidelines for a project.
With the launch of Stable Audio 2.5, Stability AI is also partnering with leading sound branding agency amp, part of the Landor Group, a WPP company, to co-develop enterprise solutions for innovative brands who want to create iconic sound identities and experiences. Stable Audio 2.5 will be available to WPP’s global client base through WPP Open, combining advanced technology with creative expertise.
Get started
You can try Stable Audio 2.5 now at StableAudio.com.
Stable Audio 2.5 is available through the Stability AI API, as well as through partner platforms including fal, Replicate, and ComfyUI.
For enterprises interested in deploying our audio models on their own infrastructure, please contact us to discuss our Enterprise Licensing, with implementation support, customization options and professional services available. You can also visit Stability AI Solutions to learn more about customizing audio models and workflows for specific use cases.
To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み