Stability AIとArmが協力し、オンデバイス音声生成向け「Stable Audio Open Small」をリリース
Stability AI と Arm は、スマートフォン上で 8 秒以内に音声を生成可能な軽量テキスト音声モデル「Stable Audio Open Small」をオープンソース化し、オンデバイスでの実用的な生成 AI の普及を加速させた。
キーポイント
オンデバイス最適化の実現
341M パラメータの軽量モデルが Arm CPU 上で動作し、スマートフォンで最大 11 秒分のオーディオを 8 秒未満で生成可能となった。
商用利用可能なオープンソース化
Stability AI Community License に基づき、商用・非商用問わず無料で利用でき、モデル重みとコードが公開された。
Arm KleidiAI 技術の活用
Arm の KleidiAI ライブラリを活用することで、エッジデバイスでの計算コストを削減し、高速な推論を実現している。
エッジ向けリソース最適化
異なるモデルサイズを使用することで、短縮音効果の生成からフル曲作成まで、タスクの複雑さに応じて最適なプロセッサにワークロードを割り当てることが可能になります。
商用利用可能な無料リリース
Stable Audio Open Small は、安定した AI コミュニティライセンスの下で商用・非商用を問わず無料で利用可能です。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の処理をクラウドから端末(エッジ)へ移行させる重要な転換点であり、プライバシー保護と低遅延が求められるモバイル環境での実用化を現実的なものにした。特に、Arm アーキテクチャを持つ世界中のスマートフォンで即座に展開可能なため、クリエイター向けツールやアプリ開発における生成 AI の標準機能化を加速させるだろう。
編集コメント
クラウド依存から脱却し、端末内で完結する生成 AI の実用化に向けた具体的な第一歩と言えます。特に Arm ユーザーの大半を占めるスマートフォン市場での展開は、生成 AI の普及速度に大きな影響を与えるでしょう。
タイトル: Stability AIとArmが協力してStable Audio Open Smallをリリース、オンデバイス音声生成の実世界展開を可能に
キーポイント:
Stable Audio Open Smallをオープンソース化します。これは3億4100万パラメータのテキストtoオーディオモデルで、Arm CPU上で完全に動作するよう最適化されています。短い音声サンプルを素早く生成するために設計されており、スマートフォン上で8秒未満で最大11秒の音声を生成できます。
このリリースは、先ごろのMobile World Congressでの発表に続くもので、生成AIによる音声作成をスマートフォンに導入するためのArmとの協業を基盤としています。
開発者は、Arm CPU上でStable Audio Open Smallを使用する実践的ガイダンスを提供する新しいArm Learning Pathを参照できます。
Stable Audio Open Smallは、寛容なStability AI Community Licenseの下で、商用・非商用を問わず無料で利用可能になりました。arXivで論文を読み、Hugging Faceでモデルウェイトをダウンロードし、GitHubでコードにアクセスできます。
生成AIによる音声作成を携帯電話へ
私たちは、世界のスマートフォンの99%を支える技術を持つArmと提携し、Stable Audio Open Smallをオープンソース化します。業界をリードするテキストtoオーディオモデルであるStable Audio Openを基盤とし、この新しいコンパクト版は、出力品質とプロンプトへの忠実性を維持しながら、より小型で高速です。
このリリースは、Stable Audio OpenがArm KleidiAIによって駆動され、スマートフォン上でAI生成音声を可能にするためArm CPU上で動作するよう最適化されたという、以前発表されたブレークスルーに続くものです。Mobile World Congressで実際に技術を実演した後、Stability AIとArmは現在、誰でもモデルにアクセスしてデプロイできるようモデルウェイトを公開しています。
技術的進歩
私たちの知る限り、Stable Audio Open Smallは市場で最速のステレオテキストtoオーディオモデルです。研究論文でモデルの技術的進歩についてさらに詳しく読むことができます。以下に主な特徴を示します:
軽量: Stable Audio Open Smallは3億4100万パラメータを持ち、Stable Audio Openの11億パラメータと比較して小型です。
高速: Stable Audio Open Smallは、スマートフォン上で8秒未満で音声を生成するよう最適化されています。生成もファインチューニングもより高速です。
効率的: ArmのKleidiAIライブラリを活用し、この新モデルをエッジでさらに効率的に動作するよう設計したため、ユーザーは計算時間のコストを抑えながら、より速く結果を得られます。Arm CPU上で完全に動作するため、高性能なハードウェアを必要とせずに利用可能です。
モデルを使用するタイミング
Stable Audio Openと同様に、Stable Audio Open Smallは、テキストプロンプトを用いて短い音声サンプル、サウンドエフェクト、制作素材を生成するために最適化されています。ドラムループ、フォーリー、楽器のリフ、環境音テクスチャの作成に適しています。
そのコンパクトなサイズと高速な推論により、リアルタイム生成と応答性が重要な、Armを搭載したスマートフォンやエッジデバイスへのオンデバイスデプロイに最適です。
AI駆動のクリエイティブメディアワークロードがエッジに移行する中、より小型のモデルは、計算リソースをタスクの複雑さに合わせるのに役立ちます。異なるモデルサイズを使い分けることで、組織はワークロードをユースケースに最適なプロセッサに割り当てることができます。例えば、短いサウンドエフェクトの生成と、フルレングスの楽曲の生成といった具合です。
始め方
Stable Audio Open Smallは、寛容なStability AI Community Licenseの下で、商用・非商用を問わず無料で利用可能です。arXivで論文を読み、Hugging Faceでモデルウェイトをダウンロードし、GitHubでコードにアクセスできます。
Arm Learning Pathを参照して、Armハードウェア上でStable Audio Open Smallをデプロイする手順を確認し、Arm Community Blogで、オンデバイス性能向けにStable Audio Open Smallがどのように最適化されたかについての技術的詳細を確認してください。
私たちの進捗状況を最新に知りたい方は、X、LinkedIn、Instagramでフォローし、Discord Communityにご参加ください。
原文を表示
Key Takeaways:
We’re open-sourcing Stable Audio Open Small, a 341 million parameter text-to-audio model optimized to run entirely on Arm CPUs. Designed for quickly generating short audio samples, it can produce up to 11 seconds of audio on a smartphone in less than 8 seconds.
This release builds on our collaboration with Arm to bring generative audio creation to smartphones, following our recent announcement at Mobile World Congress.
Developers can explore the new Arm Learning Path, which offers hands-on guidance using Stable Audio Open Small on Arm CPUs.
Stable Audio Open Small is now free for commercial and non-commercial use under the permissive Stability AI Community License. You can read the paper on arXiv, download the model weights on Hugging Face, and access the code on GitHub.
Download weights
Bringing generative audio creation to mobile phones
We’re open-sourcing Stable Audio Open Small in partnership with Arm, whose technology powers 99% of smartphones globally. Building on the industry-leading text-to-audio model Stable Audio Open, the new compact variant is smaller and faster, while preserving output quality and prompt adherence.
This release follows our previously announced breakthrough that Stable Audio Open is now optimized to run on Arm CPUs, powered by Arm KleidiAI to enable AI-generated audio on a mobile phone. After demonstrating the technology in action at Mobile World Congress, Stability AI and Arm are now making the model weights available for anyone to access and deploy the model.
Technical advancements
To our knowledge, Stable Audio Open Small is the fastest stereo text-to-audio model on the market. You can read more about the technical advancements of the model in the research paper. Here are a few highlights:
Lightweight: Stable Audio Open Small has 341M parameters, compared to Stable Audio Open’s 1.1B parameters.
Fast: Stable Audio Open Small is optimized to generate audio on a mobile phone in less than 8 seconds. It’s faster to generate, and faster to fine-tune.
Efficient: Leveraging Arm’s KleidiAI libraries, we designed this new model to run even more efficiently at the edge, so users get faster results back while lowering costs for compute time. By running entirely on Arm CPUs, Stable Audio Open Small is also accessible without heavy hardware requirements.
When to use the model
Like Stable Audio Open, Stable Audio Open Small is optimized for generating short audio samples, sound effects and production elements using text prompts. It is well suited for creating drum loops, foley, instrument riffs, and ambient textures.
Its compact size and fast inference make it a perfect fit for on-device deployment on Arm-powered smartphones and edge devices, where real-time generation and responsiveness matter.
As AI-driven creative media workloads move to the edge, smaller models help align compute resources with task complexity. By using different model sizes, organizations can allocate workloads to the processors best suited to their use case, like generating short sound effects versus full-length songs.
Getting started
Stable Audio Open Small is now free for commercial and non-commercial use under the permissive Stability AI Community License. You can read the paper on arXiv, download the model weights on Hugging Face, and access the code on GitHub.
Visit the Arm Learning Path to walk through deploying Stable Audio Open Small on Arm hardware as well as the Arm Community Blog for a deep technical dive into how Stable Audio Open Small was optimized for on-device performance.
To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み