Stability AI、エンタープライズ規模の音声制作向け「Stable Audio 2.5」を発表
Stability AI は、エンタープライズ向けに設計された音声生成モデル「Stable Audio 2.5」を発表し、高速推論と高度な制御機能を備えた商用グレードのサウンド制作ツールを提供した。
キーポイント
エンタープライズ特化型モデルの登場
ブランドの音声アイデンティティ構築を目的とし、広告や店舗体験など多様なチャネルに対応できる商用グレードの音声生成モデルとして位置付けられている。
高速推論と高品質な作曲機能
ARC 手法による最適化で GPU 上で 2 秒未満の推論が可能となり、3 分間のトラックを即座に生成できるほか、導入部からアウトロまでの動的な音楽構造も生成可能。
音声インペイントによる制御強化
テキスト・音声入力に加え、既存の音声を指定してその文脈で残りを生成する「音声インペイント」機能をサポートし、クリエイティブな編集ワークフローを拡張した。
多様なデプロイメントオプション
StableAudio.com での直接利用に加え、API や fal、Replicate、ComfyUI などのパートナープラットフォーム、およびオンプレミスライセンスによる展開が可能。
商用安全性とライセンス済みデータ
Stable Audio 2.5 は、完全にライセンスされたデータセットでトレーニングされており、すべての Stable Audio モデル同様に商用利用が安全に設計されています。
ブランド固有のオーディオ生成とファインチューニング
企業のサウンドライブラリを基にモデルをファインチューニングすることで、ブランドの音響アイデンティティやクリエイティブガイドラインに沿った独自性の高いカスタムオーディオを生成できます。
WPP 傘下のアンプ社との戦略的提携
サウンドブランディング機関である amp(Landor Group/WPP 傘下)と連携し、革新的なブランド向けの企業向けソリューションを開発し、WPP Open を通じて提供します。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI が単なる実験段階から、ブランド戦略の一部として実務レベルで活用される転換点を示しています。特に「音声インペイント」機能の追加と高速化により、クリエイティブチームが迅速かつ一貫性のあるサウンドプロダクションを行う環境が整い、企業のブランディングにおける音声資産の重要性がさらに高まるでしょう。
編集コメント
音声生成 AI が「商用利用」を明確に意識した機能強化(高速化、著作権対策、インペイント)を行った点は、業界全体の実装加速を示唆しています。ただし、プレスリリース色が強いため、実際の導入事例やコスト構造については今後の動向に注目が必要です。
主なポイント:
Stable Audio 2.5 を発表します。これは、エンタープライズグレードのサウンド制作のために特別に設計された最初のオーディオ生成モデルです。
カスタマイズされたサウンドは、ブランドにとって未開拓の差別化要因です。企業は、広告から店舗内の体験まで、増加する数のチャネル向けに独自のサウンドを作成する必要があります。
Stable Audio 2.5 は、大規模でカスタマイズ可能かつ高品質なオーディオを作成するというこの課題のために特別に構築されています。これには、高度な音楽作曲、GPU 上で 2 秒未満の高速推論、およびオーディオインペイントによるより多くの制御サポートが含まれます。
StableAudio.com で Stable Audio 2.5 を今すぐお試しください。または、Stability AI API を通じてシームレスにデプロイするか、fal、Replicate、ComfyUI などのパートナープラットフォームを利用し、エンタープライズライセンスによりオンプレミス環境でも利用可能です。
Stable Audio 2.5 のリリースを心より嬉しく思います。これは私たちの最新のオーディオモデルであり、エンタープライズグレードのユースケースのために初めて開発されたものです。Stable Audio 2.5 は、カスタムブランドニーズに適応可能な動的な作曲への需要に応える、品質と制御における新進歩を導入します。
カスタムオーディオはブランドを記憶に残りやすくする効果があり、その効果は 8 倍に達しますが、Ipsos の調査によると、サウンドアイデンティティを採用しているクリエイティブ利用はわずか 6% に過ぎません。ブランドの拡張としてより戦略的にサウンドを展開するために、企業は高品質で商業グレードであり、ブランドが展開されるさまざまな場所に対応可能なオーディオを作成する必要があります。
エンタープライズ向け機能を備えた Stable Audio 2.5 により、プロのクリエイティブチームは、より高度でカスタマイズ可能なオーディオ生成を活用し、あらゆる制作に最適なサウンドを提供できるようになります。
新機能:高速化、スマートな作曲、強化されたワークフロー
Stable Audio 2.5 は、商用ユースケースに適した速度と出力品質の向上をもたらします。
数秒で 3 分間のトラックを生成可能:Stable Audio 研究チームが先駆的に開発した最先端の敵対的相対論的対照法(Adversarial Relativistic-Contrastive: ARC)を用いてポストトレーニングされた Stable Audio 2.5 は、GPU 上で最大 3 分間のトラックに対して 2 秒未満の推論速度を実現しています。
ダイナミックな音楽作品を制作:Stable Audio 2.5 は音楽に最適化されており、音楽構造が改善され、多パート構成(イントロ、展開、アウトロ)を生成します。また、プロンプトへの準拠性も向上し、「アップリフティング」のような気分を表す記述や、ジャンル横断的な音楽用語(「豊かなシンセサイザー」など)に対してより効果的に応答します。
オーディオインペイント機能でより高い制御性を:テキストからオーディオへ、およびオーディオからオーディオへのワークフローに加え、Stable Audio 2.5 はオーディオインペイントをサポートしています。これにより、ユーザーは自身のオーディオを入力し、開始位置を指定するだけで、モデルが文脈を活用してトラックの残りを生成します。なお、利用規約では、アップロードされたコンテンツに著作権のある素材が含まれていないことが必須とされており、コンプライアンス維持および侵害防止のために高度なコンテンツ認識技術を採用しています。
Stable Audio モデルはすべて同様、Stable Audio 2.5 も商用利用に安全であり、完全にライセンスを取得したデータセットを用いてトレーニングされています。
クリエイティブなコントロールとパートナーシップを通じて、ブランド主導のカスタムオーディオを制作する
オーディオはブランドエンゲージメントに86%の影響を与えますが、大規模でカスタムオーディオを活用しているブランドはまだ多くありません。企業には、広告やゲームのオープニングクレジット、店舗内の音楽、クレジットカードのスワイプ時のチャイム、車のステレオなど、多様化するタッチポイント全体を通じて、より意図的でブランドに即したオーディオをキュレーションする機会があります。
企業が適切なサウンドを作成できるよう支援するため、当社のチームは組織のサウンドライブラリ上で Stable Audio モデルをファインチューニングし、シグネチャーなブランドサウンドをカスタム生成ワークフローに埋め込むことができます。これにより、音楽やサウンドスケープが、プロジェクトのブランドソニックアイデンティティまたはクリエイティブガイドラインの一部として一意に認識可能になります。
Stable Audio 2.5 の発表に伴い、Stability AI は WPP 傘下の Landor Group に所属する主要なサウンドブランディングエージェンシーである amp とパートナーシップを結び、象徴的なサウンドアイデンティティと体験を創出したい革新的なブランド向けのエンタープライズソリューションの共同開発を行います。Stable Audio 2.5 は、高度な技術とクリエイティブ専門知識を組み合わせた WPP Open を通じて、WPP のグローバルクライアントベースに提供されます。
始め方
StableAudio.com で今すぐ Stable Audio 2.5 をお試しください。
Stable Audio 2.5 は、Stability AI API を通じて利用可能であるほか、fal、Replicate、ComfyUI などのパートナープラットフォームを通じてもご利用いただけます。
自社インフラ上で当社の音声モデルを展開することを検討されている企業様は、エンタープライズライセンス(Enterprise Licensing)の実装サポート、カスタマイズオプション、および専門サービスについてご相談いただくため、ぜひお問い合わせください。また、特定のユースケース向けに音声モデルやワークフローをカスタマイズする方法については、Stability AI Solutions のウェブサイトにて詳細をご確認いただけます。
当社の進捗状況に関する最新情報をお受け取りになるには、X、LinkedIn、Instagram でのフォロー、ならびに Discord コミュニティへの参加をお願いいたします。
原文を表示
Key Takeaways:
We’re launching Stable Audio 2.5, the first audio generation model designed specifically for enterprise-grade sound production.
Customized sound is an untapped differentiator for brands. Enterprises need to create their distinct sound for a growing volume of channels, from ads to the in-store experience.
Stable Audio 2.5 is purpose-built for this challenge of creating customizable, high-quality audio at scale. That includes elevated musical composition, fast inference at less than two seconds on a GPU, and support for more control with audio inpainting.
You can try Stable Audio 2.5 now at StableAudio.com or seamlessly deploy through the Stability AI API; partner platforms such as fal, Replicate, and ComfyUI; and on-premises with an enterprise license.
We’re excited to release Stable Audio 2.5, our latest audio model and the first developed for enterprise-grade use cases. Stable Audio 2.5 introduces advancements in quality and control that address the demand for dynamic compositions that can be adapted for custom brand needs.
Custom audio can make a brand eight times more memorable, but only 6% of creative uses a sound identity, according to Ipsos research. To deploy sound more strategically as an extension of their brand, enterprises need to create audio that’s high-quality, commercial-grade, and adaptable for the different places a brand shows up.
With the enterprise-focused capabilities of Stable Audio 2.5, professional creative teams can leverage more advanced, customizable audio generation to give every production the right sound.
What’s new: Faster generation, smarter composition, enhanced workflows
Stable Audio 2.5 brings advancements in speed and output quality that make it well-suited for commercial use cases.
Generate three-minute long tracks within seconds: Post-trained using the cutting-edge Adversarial Relativistic-Contrastive (ARC) method pioneered by the Stable Audio research team, Stable Audio 2.5 has an inference speed of less than two seconds on a GPU, for tracks up to three minutes.
Produce dynamic musical compositions: Stable Audio 2.5 is optimized for music and has improved musical structure, generating multi-part compositions (intro, development, and outro). The model also has improved prompt adherence, responding more effectively to mood descriptors (such as “uplifting”) and musical language across genres (“lush synthesizers”).
Get more control with audio inpainting support: In addition to text-to-audio and audio-to-audio workflows, Stable Audio 2.5 supports audio inpainting, which means users can input their own audio, select where they want it to start, and the model will use the context to generate the rest of the track. Note: Our Terms of Service require that uploads be free of copyrighted material, and we use advanced content recognition to maintain compliance and prevent infringement.
Like all Stable Audio models, Stable Audio 2.5 is commercially safe and trained on a fully licensed dataset.
Produce custom, brand-led audio with creative control and partnership
Audio influences brand engagement by 86%, but few brands are leveraging custom audio at scale. Enterprises have an opportunity to curate more intentional, on-brand audio across a growing variety of touchpoints – whether it’s an ad, the opening credits of a game, in-store music, the chimes of a credit card swipe, or a car stereo.
To help enterprises create the right sound, our team can fine-tune Stable Audio models on an organization’s sound library, embedding signature brand audio into custom generative workflows. This ensures that the music or soundscape is uniquely recognizable as part of a brand’s sonic identity or creative guidelines for a project.
With the launch of Stable Audio 2.5, Stability AI is also partnering with leading sound branding agency amp, part of the Landor Group, a WPP company, to co-develop enterprise solutions for innovative brands who want to create iconic sound identities and experiences. Stable Audio 2.5 will be available to WPP’s global client base through WPP Open, combining advanced technology with creative expertise.
Get started
You can try Stable Audio 2.5 now at StableAudio.com.
Stable Audio 2.5 is available through the Stability AI API, as well as through partner platforms including fal, Replicate, and ComfyUI.
For enterprises interested in deploying our audio models on their own infrastructure, please contact us to discuss our Enterprise Licensing, with implementation support, customization options and professional services available. You can also visit Stability AI Solutions to learn more about customizing audio models and workflows for specific use cases.
To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み