Stability AIとArmがスマートフォン向けオンデバイス生成音声を実現
Stability AI は Arm と提携し、Stable Audio Open モデルを Arm CPU で最適化することで、オフラインかつ秒単位での高品質音声生成を可能にし、エッジコンピューティングにおける生成 AI の実用性を大幅に向上させた。
キーポイント
オンデバイス音声生成の実現
Stable Audio Open モデルがインターネット接続なしでスマートフォン上で動作可能となり、オフライン環境での高品質な音響効果やサンプル生成が可能になった。
30 倍の処理速度向上
Arm の KleidiAI ライブラリと ExecuTorch/XNNPack を活用した最適化により、11 秒分の音声クリップ生成時間が 240 秒から 8 秒未満に短縮され、30 倍の高速化を達成した。
ハードウェア要件の低減
重い専用ハードウェアを必要とせず、Armv9 CPU を搭載する一般的なモバイルデバイスであれば誰でも利用可能となり、生成 AI のアクセシビリティが飛躍的に向上した。
次世代マルチモーダルへの展開
音声分野での成功を踏まえ、今後は画像、動画、3D モデルなどの他の生成 AI モデルも同様にエッジデバイスへ展開する計画が示された。
マルチモーダルエッジ展開の拡大
音声生成から始まり、画像、動画、3Dモデルを含むすべての最先端モデルをエッジデバイスへ展開する計画である。
Armとの戦略的パートナーシップ
Armとの提携は、モバイル端末上で高品質な視覚メディア生成を可能にするための重要な一歩となる。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の処理をクラウドから端末(エッジ)へ移行させる重要な転換点であり、プライバシー保護や通信コスト削減、オフライン環境での利用可能性という実用的な課題を解決します。特に、高性能な音声生成モデルが低スペックなモバイルデバイスでも秒単位で動作するようになったことは、クリエイター向けツールやエンターテインメントアプリケーションのあり方を根本から変える可能性があります。
編集コメント
クラウド依存から脱却し、端末内で完結する生成 AI の実現は、プライバシーとレスポンス速度の両面で業界に大きな影響を与える画期的な進展です。特に音声分野での 30 倍の高速化は、実用化に向けた決定的なマイルストーンと言えます。
主なポイント
私たちは Arm と提携し、モバイルデバイスに生成型オーディオをもたらすことで、インターネット接続を必要とせず、オンデバイスで高品質なサウンドエフェクトやオーディオサンプルの生成を可能にしました。
Arm の KleidiAI ライブラリと Stability AI の最先端技術である Stable Audio Open を活用することで、Arm CPU 搭載のスマートフォンデバイス上で実行速度が 30 倍向上し、生成時間が数分から数秒へと短縮されました。
この画期的な成果は、2025 年 3 月 3 日(月)にバルセロナで開催される MWC で披露され、エッジにおける前例のない AI 駆動型コンテンツ作成のデモンストレーションが行われます。提携の詳細については、こちらで「Built on Arm」ページをご覧ください。
本日、私たちは Arm とのパートナーシップを通じて、最先端の生成 AI モデルをより多くの人々が利用できるようにします。Arm の技術は、世界中のスマートフォンの 99% に搭載されています。Together, we have achieved what was once thought impossible by running Stable Audio Open, our industry-leading text-to-audio model, entirely on Arm CPUs without requiring an internet connection for the first time.
生成 AI が企業とプロのクリエイターの両者にとってますます不可欠なものとなる中、ビルダーが構築し、クリエイターが創作するあらゆる場所でモデルやワークフローを容易に利用可能にし、視覚メディア制作パイプラインへのシームレスな統合を提供することが極めて重要です。
この需要の高まりに伴い、エッジ(端末側)でモデルが効率的に動作することの確保が不可欠です。今回の協力により、音響効果、オーディオサンプル、制作要素を数秒間でオンデバイスかつオフラインで生成することが可能になります。
MWC バルセロナでは、エッジにおける生成メディアの実世界での応用例を紹介し、オンデバイスのテキストからオーディオへのモデルがどのようにして迅速かつ高品質なオーディオ生成を実現するかを実演します。
技術的進展
モバイルデバイス向けに Stable Audio Open を最適化する取り組みは当初大きな課題であり、Arm CPU 上での初期の音声生成には 240 秒を要していました。しかし、モデルの蒸留(distillation)と Arm のソフトウェアスタック、特に XNNPack を介した ExecuTorch 内の KleidiAI 由来の int8 matmul カーネル(行列乗算カーネル)を活用することで、Stability AI と Arm は Armv9 CPU 上で 11 秒分のクリップ生成時間を 8 秒未満に短縮し、応答速度を約 30 倍向上させることに成功しました。
Stable Audio Open は完全に Arm CPU 上で動作するため、重厚なハードウェア要件なしで利用可能となり、互換性のあるモバイルデバイスを持つ誰でもアクセスできるようになりました。
今後の展望
音声生成は始まりに過ぎません。私たちは画像、動画、3D を含むすべての最先端モデルをエッジ(端末側)へ展開することを目指しています。この Arm とのパートナーシップは、あらゆる視覚メディアモダリティにおいて高品質なメディア生成をモバイルデバイス上で直接可能にするための重要な一歩であり、視覚メディアの制作方法そのものを変革するものです。
パートナーシップの詳細やデモについては、Arm パートナーカタログ内の Built on Arm ウェブページ(こちら)でご覧いただけます。また、Stability AI のパートナーページ(こちら)も併せてご参照ください。
今後の進捗状況については、X、LinkedIn、Instagram でフォローいただくか、Discord コミュニティにご参加ください。
原文を表示
Key Takeaways
We’ve partnered with Arm to bring generative audio to mobile devices, enabling high-quality sound effects and audio sample generation directly on-device with no internet connection required.
Leveraging Arm KleidiAI libraries and Stability AI’s cutting-edge technology, Stable Audio Open, can now run 30x faster on smartphone devices on Arm CPUs, reducing generation time from minutes to seconds.
This breakthrough will be showcased at MWC Barcelona on Monday, March 3rd, 2025, demonstrating unprecedented AI-powered content creation at the edge. You can learn about the partnership on the Built on Arm page here.
image
Today, we are making our cutting-edge generative AI models more accessible through our partnership with Arm, whose technology powers 99% of smartphones globally. Together, we have achieved what was once thought impossible by running Stable Audio Open, our industry-leading text-to-audio model, entirely on Arm CPUs without requiring an internet connection for the first time.
As generative AI becomes increasingly integral to both enterprises and professional creators alike, it's crucial that our models and workflows are easily accessible everywhere builders build and creators create, providing seamless integration into their visual media production pipelines.
With this rising demand, ensuring our models run efficiently at the edge is crucial. This collaboration enables generation of sound effects, audio samples, and production elements in seconds all on-device and offline.
At MWC Barcelona, we’ll showcase real-world applications of generative media at the edge, demonstrating how our on-device text-to-audio model enables rapid, high-quality audio generation.
Technical Advancements
Optimizing Stable Audio Open for mobile devices began as a significant challenge, with initial audio generation on an Arm CPU taking 240 seconds. By distilling the model and using Arm’s software stack, including the int8 matmul kernels from KleidiAI in ExecuTorch via XNNPack, Stability AI and Arm reduced the generation time for an 11-second clip to under 8 seconds on Armv9 CPUs, representing a 30x faster response time.
By running entirely on Arm CPUs, Stable Audio Open is now accessible without heavy hardware requirements, making it available to anyone with a compatible mobile device.
What’s Next
Audio is just the beginning. We aim to bring all of our cutting-edge models across image, video, and 3D to the edge. This partnership with Arm is a key step toward enabling high-quality media generation directly on mobile devices across all visual media modalities, transforming how visual media is created.
You can learn more about the partnership and view a demo on the Built on Arm webpage here and visit the Stability AI partner page here in the Arm partner catalog.
To stay updated on our progress follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み