Stability AIとArmが「Stable Audio Open Small」を共同リリース、オンデバイス音声生成の実用化を実現
Stability AI と Arm が共同で開発した、スマートフォン上で 8 秒未満で音声生成が可能な軽量モデル「Stable Audio Open Small」をオープンソース化し、オンデバイスでの実用化を可能にした。
キーポイント
高性能なオンデバイス対応モデルの公開
3.41 億パラメータの軽量モデル「Stable Audio Open Small」が Arm CPU 向けに最適化され、スマートフォンで 8 秒以内に 11 秒分のオーディオを生成可能になった。
Arm KleidiAI を活用した効率化
Arm の KleidiAI ライブラリを活用することで、ハードウェア要件を低く抑えつつ、エッジデバイスでの高速推論とコスト削減を実現している。
商用利用可能なオープンソース化
Stability AI Community License に基づき、商用・非商用問わず無料で利用可能となり、Hugging Face や GitHub でモデル重みとコードが公開された。
エッジ対応の柔軟なリソース管理
モデルサイズを切り替えることで、短縮効果音からフル曲生成まで、タスクの複雑さに応じて最適なプロセッサにワークロードを割り当てることが可能になります。
商用利用を含む完全無料化
Stable Audio Open Small は、Permissive Stability AI Community License の下で商用・非商用の両方で無料で利用可能です。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の音声分野において、クラウド依存からオンデバイス実行への転換点を示す重要な一歩です。特に Arm 製プロセッサを搭載する世界中のスマートフォンで即座に実装可能なため、クリエイティブツールやリアルタイム音声応用サービスの普及を加速させる可能性があります。
編集コメント
クラウドリソースに依存せず、端末内で完結する高品質な音声生成が可能になる点は、プライバシーとレイテンシが重視される現場において極めて重要です。
主なポイント:
Stable Audio Open Small をオープンソース化しました。これは 3.41 億パラメータのテキストから音声への変換モデルで、Arm CPU のみで完全に実行できるように最適化されています。短い音声サンプルを素早く生成するために設計されており、スマートフォン上で 8 秒未満で最大 11 秒分の音声を生成できます。
今回のリリースは、Mobile World Congress で発表したばかりの取り組みに基づき、Arm とのコラボレーションを通じて、スマートフォーンでの生成型オーディオ作成を実現するものです。
開発者は、Arm CPU 上で Stable Audio Open Small を活用するためのハンズオンガイドを提供する新しい Arm の学習パスを探索できます。
Stable Audio Open Small は、寛容な Stability AI コミュニティライセンスの下で、商用・非商用を問わず無料で利用可能です。論文は arXiv で閲覧でき、モデルの重みは Hugging Face からダウンロードし、コードは GitHub でアクセスできます。
重みのダウンロード
重みのダウンロード
モバイルフォンへの生成型オーディオ作成の導入
Arm とのパートナーシップにより、Stable Audio Open Small をオープンソース化しました。Arm の技術は世界中のスマートフォンの 99% に搭載されています。業界をリードするテキストから音声への変換モデル「Stable Audio Open」に基づき、新しいコンパクトなバリアントはより小さく高速ですが、出力品質とプロンプトへの忠実性は維持されています。
今回のリリースは、Stable Audio Open が Arm KleidiAI を活用してモバイルフォン上で AI 生成オーディオを可能にするよう最適化されたという、以前発表した画期的な成果に続くものです。Mobile World Congress でこの技術を実演した後、Stability AI と Arm は、誰でもモデルの重みにアクセスし、デプロイできるよう公開しました。
技術的な進展
私どもの知る限り、Stable Audio Open Small は市場で最も高速なステレオテキストからオーディオへのモデルです。モデルの技術的詳細については研究論文をご覧ください。主な特徴は以下の通りです。
軽量: Stable Audio Open Small のパラメータ数は 341M で、Stable Audio Open の 1.1B に比べて大幅に軽量化されています。
高速: Stable Audio Open Small はモバイルフォンでのオーディオ生成を 8 秒未満で完了できるよう最適化されており、生成も微調整(ファインチューニング)も迅速に行えます。
効率的: Arm の KleidiAI ライブラリを活用し、エッジ側でもより効率的に動作するように設計しました。これにより、ユーザーはより高速な結果を得られる一方で、計算時間のコストを削減できます。Arm CPU 上で完全に動作するため、Stable Audio Open Small は重厚なハードウェア要件なしにも利用可能です。
モデルの活用タイミング
Stable Audio Open と同様に、Stable Audio Open Small はテキストプロンプトを使用して短いオーディオサンプル、効果音、制作要素を生成するために最適化されています。ドラムループ、フォリー(効果音)、楽器のリフ、アンビエントテクスチャの作成に特に適しています。
そのコンパクトなサイズと高速推論により、リアルタイム生成と応答性が重要な Arm 搭載スマートフォンやエッジデバイスでのオンデバイス展開に完璧に適しています。
AI ドライブ型のクリエイティブメディアワークロードがエッジへ移行するにつれ、小規模モデルは計算リソースをタスクの複雑さに合わせるのに役立ちます。異なるモデルサイズを使用することで、組織は使用ケースに最適なプロセッサにワークロードを割り当てることができます。例えば、短い効果音の生成とフルレングスの楽曲の生成などです。
始め方
Stable Audio Open Small は、寛容な Stability AI コミュニティライセンスの下で、商用・非商用を問わず無料で利用可能です。論文は arXiv で読むことができ、モデルの重みは Hugging Face からダウンロードでき、コードは GitHub でアクセスできます。
Arm ハードウェア上で Stable Audio Open Small を展開する方法については Arm Learning Path を、Stable Audio Open Small がオンデバイスパフォーマンスのためにどのように最適化されたかについての詳細な技術解説については Arm Community Blog をご覧ください。
進捗状況の最新情報をお知りになりたい場合は、X、LinkedIn、Instagram でフォローするか、Discord コミュニティにご参加ください。
原文を表示
Key Takeaways:
We’re open-sourcing Stable Audio Open Small, a 341 million parameter text-to-audio model optimized to run entirely on Arm CPUs. Designed for quickly generating short audio samples, it can produce up to 11 seconds of audio on a smartphone in less than 8 seconds.
This release builds on our collaboration with Arm to bring generative audio creation to smartphones, following our recent announcement at Mobile World Congress.
Developers can explore the new Arm Learning Path, which offers hands-on guidance using Stable Audio Open Small on Arm CPUs.
Stable Audio Open Small is now free for commercial and non-commercial use under the permissive Stability AI Community License. You can read the paper on arXiv, download the model weights on Hugging Face, and access the code on GitHub.
Download weights
Download weights
Bringing generative audio creation to mobile phones
We’re open-sourcing Stable Audio Open Small in partnership with Arm, whose technology powers 99% of smartphones globally. Building on the industry-leading text-to-audio model Stable Audio Open, the new compact variant is smaller and faster, while preserving output quality and prompt adherence.
This release follows our previously announced breakthrough that Stable Audio Open is now optimized to run on Arm CPUs, powered by Arm KleidiAI to enable AI-generated audio on a mobile phone. After demonstrating the technology in action at Mobile World Congress, Stability AI and Arm are now making the model weights available for anyone to access and deploy the model.
Technical advancements
To our knowledge, Stable Audio Open Small is the fastest stereo text-to-audio model on the market. You can read more about the technical advancements of the model in the research paper. Here are a few highlights:
Lightweight: Stable Audio Open Small has 341M parameters, compared to Stable Audio Open’s 1.1B parameters.
Fast: Stable Audio Open Small is optimized to generate audio on a mobile phone in less than 8 seconds. It’s faster to generate, and faster to fine-tune.
Efficient: Leveraging Arm’s KleidiAI libraries, we designed this new model to run even more efficiently at the edge, so users get faster results back while lowering costs for compute time. By running entirely on Arm CPUs, Stable Audio Open Small is also accessible without heavy hardware requirements.
When to use the model
Like Stable Audio Open, Stable Audio Open Small is optimized for generating short audio samples, sound effects and production elements using text prompts. It is well suited for creating drum loops, foley, instrument riffs, and ambient textures.
Its compact size and fast inference make it a perfect fit for on-device deployment on Arm-powered smartphones and edge devices, where real-time generation and responsiveness matter.
As AI-driven creative media workloads move to the edge, smaller models help align compute resources with task complexity. By using different model sizes, organizations can allocate workloads to the processors best suited to their use case, like generating short sound effects versus full-length songs.
Getting started
Stable Audio Open Small is now free for commercial and non-commercial use under the permissive Stability AI Community License. You can read the paper on arXiv, download the model weights on Hugging Face, and access the code on GitHub.
Visit the Arm Learning Path to walk through deploying Stable Audio Open Small on Arm hardware as well as the Arm Community Blog for a deep technical dive into how Stable Audio Open Small was optimized for on-device performance.
To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み