新曲創作わずか2秒!階躍星辰がACE-Step 1.5をオープンソース化、開発者コミュニティから好評
阶跃星辰がACE Studioと連携して公開したオープンソース音楽生成モデル「ACE-Step 1.5」は、低コストなローカル実行と高速生成を実現し、開発者コミュニティから高い評価を得ている。
キーポイント
高速生成と低リソース要件
A100環境で2秒、RTX 3090で10秒以内に楽曲を生成可能であり、4GB未満のVRAMで動作するため、消費電力やハードウェア制約が低い。
ハイブリッドアーキテクチャの採用
言語モデル(LM)を「全能のプランナー」として活用し、テキストリクエストから曲の青写真やメタデータを生成した後、拡散Transformer(DiT)が音声データを生成する二段階の手法を採用。
商用モデルを上回る品質評価
旋律、リズム、自然度など6つの主要指標において、既存の多くの商業用音楽モデルを上回るスコアを記録し、LoRAによる個人スタイルの微調整にも対応。
開発者コミュニティからの高い支持
オープン公開から1ヶ月でHuggingFace Space Trendingで1位を獲得し、GitHub Starが6.8Kを超え、Stability AIの創設者など業界リーダーから称賛を集めている。
DiT核心模块的六大音乐创作功能
ACE-Step 1.5的核心DiT模块支持文本生成音乐、翻唱重制、局部重绘、音轨提取、分层叠加及自动补全等多种创作任务。
多风格生成示例与低门槛体验
模型能根据从详细的中文爵士描述到简单的工业风格或Lo-Fi指令,生成高质量音乐,且无需复杂设定即可娱乐使用。
官方平台与开源部署渠道
用户可通过官网acemusic.ai直接体验,或通过Hugging Face、GitHub及ModelScope获取项目源码与模型进行本地部署。
影響分析・編集コメントを表示
影響分析
このモデルの登場は、音楽制作における「時間とコスト」の壁を劇的に下げ、個人クリエイターや中小企業でも高品質な商用音楽を生成可能にすることを意味する。特に、既存のクラウドAPI依存からローカル推論へのシフトを促進し、データプライバシーやカスタマイズ性の観点からも業界標準を変革する可能性を秘めている。
編集コメント
商用音楽制作のハードルを劇的に下げる技術革新であり、特に4GB VRAMという低スペック環境での動作は、ローカルAI活用の可能性を大きく広げる。ただし、著作権や倫理面での議論が今後どのように展開するか注視が必要だ。
創作一首新歌只需2秒!阶跃星辰开源 ACE-Step 1.5 收获开发社区好评
原创 阶跃星辰 2026年3月5日 09:02 北京
高品質、高速、多才多藝,已開源
一首製作精良的商業歌曲需要多少人、多長時間才能完成?
現在,這個成本可以壓縮到僅需 2-10 秒。
向大家介紹我們與 ACE Studio 聯合發布的開源音樂生成模型 ACE-Step 1.5,這是大模型界的音樂「鬼才」,它能「一人」包攬從創作端的作詞、作曲、編曲,到製作端的制作人、錄音師、混音師、母帶師,再到前台歌手、若干和聲和樂手等等工作。
開源一個月以來,我們收到來自開發者社區的熱烈反饋。
不僅在 X 上積累超過 100 萬曝光量,同時拿下 HuggingFace Space Trending 榜一,GitHub Star 超過 6.8K。
包括 Stability AI 創始人 Emad 在內的很多圈內大佬都為我們點贊、給予高度評價。以及 ComfyUI、MLX 作者在內的大量開發者也為 ACE-Step 1.5 開發 UI、進行本地部署支持等。
では、ACE-Step 1.5 は具体的に何ができるのでしょうか?詳しく見ていきましょう。
音楽制作の難しさ、低効率、高額な著作権料?これらをすべて解決します。
音楽はコンテンツ創作において不可欠な要素です。多くの商業コンテンツクリエイター、音楽従事者、商業ブランドにとって、良質な楽曲や音楽を取得するには、しばしば大きなコストを払わなければなりません。作曲、編曲、録音には時間と労力がかかり、さらに後で使用する場合の高額な著作権料の問題も無視できません。
音楽の創作と利用を極めてシンプルに、極めて効率的に、かつ極めてお得に行える方法はないのでしょうか?
ACE-Step 1.5 がその答えを示します。
この高効率なオープンソース音楽基礎モデルは、商業レベルの音楽生成能力を消費級ハードウェアへと持ち込みました。ACE-Step 1.5 はローカル環境で動作可能で、VRAM(ビデオメモリ)の使用量は 4GB を下回り、軽量な個人化トレーニングもサポートしています。ユーザーは数曲の楽曲のみで LoRA(Low-Rank Adaptation:低秩適応。大規模モデルを効率的に微調整するための技術であり、パラメータ数や VRAM 使用量を大幅に増やすことなく、モデルが新しいスタイル、タスク、または嗜好を学習できるようにするもの)を訓練することで、独自のスタイルを捕捉し再現することが可能です。
さらに素晴らしいのは、ACE-Step 1.5 は非常に「軽量」であるにもかかわらず、その性能は丝毫も劣らない点です。
一般的な評価指標において、ACE-Step 1.5 の品質は多くの商業音楽モデルを上回っています。CU(コンテンツの理解可能性:メロディ、リズム、聴感)、Coh.(一貫性:セグメント間の接続)、Mus.(音楽性:編曲、和音、リズム)、Mem.(記憶度:聞きやすく覚えやすい、耳に残るメロディ)、Cla.(明瞭度:ボーカルと楽器の層が明確)、Nat.(自然さ:声の擬似化、AI 特有の不自然さがない)という 6 つの指標ですべて第 1 位を獲得しています。
同時に、ACE-Step 1.5 の生成速度も極めて速いです。A100 グラフィックボード上では、1 曲の完全な楽曲生成に要する時間は 2 秒未満、RTX 3090 では 10 秒未満です。この速度は同レベル製品よりも 10〜120 倍も速いものです。
実は新しいアーキテクチャを採用しています。
ACE-Step 1.5 の核心は、新型のハイブリッドアーキテクチャです。言語モデル(LM)が全能型のプランナーとして機能し、ユーザーのテキストリクエストを完全な楽曲の青写真へと変換します。これは短いループフレーズから 10 分間の完全な音楽作品に至るまでカバー可能です。同時に、思考連鎖(Chain-of-Thought)を用いてメタデータ、歌詞、説明文を生成し、これを拡散 Transformer(DiT)に誘導します。
つまり ACE-Step 1.5 は、言語モデルの計画能力と拡散 Transformer の生成能力を組み合わせ、「指示を理解する」かつ「創作できる」という二重の優位性を実現しています。
音楽制作機能はすべて揃っています
DiT は ACE-Step 1.5 の中核を成す音声生成モジュールであり、LM(言語モデル)が提供する青写真に基づき、「無から有へ」「部分的な修正」「音軌操作」など多様な音楽創作タスクを実行します:
Text2Music テキストによる音楽生成——ユーザーがテキスト記述を入力すると、DiT はゼロから完全な楽曲を生成します。
Cover カバー・リメイク・完全改編——既存の楽曲に基づき、新たなバージョン(例:スタイル変更、カバー)を再生成し、核心となるメロディは維持しつつ質感を再構築します。
Repaint 部分的再制作・改編——既存音楽の一部のみを変更(例:サビの変更、旋律の差し替え)、他の部分は元のままに保ちます。
Extract Track 音軌抽出——完全な楽曲から特定の音軌を分離し、「ボーカル分離」や「楽器抽出」を実現します。
Add Layer レゴ式叠加——レゴを組み立てるように、既存の楽曲上に新たな音軌(例:ベース、ストリングス)を重ねて編曲を豊かにします。
Complete 制作補完——既存の単一音軌(例:ボーカル)に基づき、伴奏や編曲を自動的に補完し、完全な楽曲へと仕上げます。
耳で聞いて確かめる
ACE-Step 1.5 の高品質・高速処理・多彩な機能についてこれほど語っても、「百聞は一見にしかず」です。さあ、この全能型音楽の「鬼才」とも呼べる ACE-Step 1.5 の作品を一緒に聴いてみましょう!
テキスト記述による入力リクエスト:
ジャズ調の中文楽曲——流れるようなリラックス感あふれるジャズ・ローファイ・ヒップホップ曲。舒缓なピアノ旋律を基盤とし、弛緩した落ち着いたドラムマシンビートが加わります。温かみのある丸みを帯びたベースラインが、堅固な和声の土台を築きます。楽曲は男女デュエット形式で構成され、音色が清らかでメロディ性豊かな女性ボーカルと、流暢で自然、まるで会話のような男性ボーカルが主歌を交互に歌い上げます。サビ部分ではハーモニーが完璧に調和し、互いに引き立て合います。編曲には格調高く旋律も美しいサックスのインストゥルメンタル間奏が散りばめられ、ジャズ特有の深夜の雰囲気をさらに高めています。楽曲は、延長された器楽によるアウトロで締めくくられます。ピアノの主旋律とリズムセクションの支えのもと、サックスが極めて表現力豊かな即興ソロを披露し、全场の焦点となります。最後は、余韻の長いピアノコードに柔らかい息遣いのエフェクトを組み合わせながらフェードアウトして終了します。
生成された音楽:
具体的なアイデアがない場合や、単なる娯楽目的であれば、一言の記述だけで高品質な楽曲や音楽を即座に得ることができます。
テキスト記述による入力リクエスト:
低く緊張感のあるインダストリアルスタイルのインストゥルメンタル曲。
生成された音楽:
テキスト記述による入力リクエスト:
90 年代グループ調の雰囲気を備えた Lo-Fi 音楽。
テキスト記述による入力リクエスト:
活力に満ち、教育的要素も兼ね備えたヒップホップ曲。リズムが明確で流れるような女性ラッパーが歌います。
今すぐ体験
公式サイト acemusic.ai/ にアクセスすれば、ACE-Step 1.5 の超多機能を実際に試すことができます。あるいは、以下の方法を通じて ACE-Step 1.5 を詳しく知り、ローカル環境でのデプロイも可能です:
Project: https://ace-step.github.io/ace-step-v1.5.github.io/
Space: https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
Github: https://github.com/ace-step/ACE-Step-1.5
ModelScope: https://modelscope.cn/models/ACE-Step/Ace-Step1.5
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 阶跃星辰 2026-03-05 09:02 北京
image
质量高、速度快、才艺全、已开源
一首制作精良的商业歌曲需要多少人、多长时间才能完成?
现在,这个成本可以压缩到仅需 2-10 秒。
和大家介绍我们与 ACE Studio 联合发布的开源音乐生成模型 ACE-Step 1.5,这是一个大模型界的音乐“鬼才”,它能“一人”包揽从创作端的作词、作曲、编曲,到制作端的制作人、录音师、混音师、母带师,再到前台歌手、若干和声和乐手等等工作。
开源一个月以来,我们收到来自开发者社区的热烈反馈。
不仅在 X 上积累超过 100 万曝光量,同时拿下 HuggingFace Space Trending 榜一,GitHub Star 超过 6.8K。
包括 Stability AI 创始人Emad在内的很多圈内大佬都为我们点赞、给予高度评价。以及 ComfyUI、MLX 作者在内的大量开发者也为 ACE-Step 1.5 开发 UI、进行本地部署支持等。
所以 ACE-Step 1.5 具体能做什么?一起来看详细介绍。
配乐难?效率低?版权贵?全能解决
音乐是内容创作中必不可少的元素,对于很多商业内容创作者、音乐从业者、商业品牌来说,获取一段好的歌曲和音乐往往要付出不小的代价。创作、编排、录制都很耗时耗力,更别提在后期使用时面临的昂贵的版权费用。
有没有一个方式,能够让音乐创作和使用这件事变得极其简单、极其高效、极其划算?
ACE-Step 1.5 给出了答案。
这款高效的开源音乐基础模型,将商业级的音乐生成能力带到了消费级硬件上。ACE-Step 1.5 可在本地运行,显存占用低于 4GB,并支持轻量级个性化:用户仅需少量歌曲即可训练一个 LoRA(Low-Rank Adaptation,低秩适配,是一种用于高效微调大模型的技术,核心目标是在不大幅增加参数量和显存占用的情况下,让模型学会新的风格、任务或偏好),用于捕捉并复现个人风格。
更绝妙的是,虽然 ACE-Step 1.5 很“轻巧”,但它的性能可丝毫不打折扣。
在常用的评估指标上,ACE-Step 1.5 的质量超过了大多数商业音乐模型。在 CU 内容可理解性(旋律、节奏、听感)、 Coh.连贯性(段落衔接)、Mus.音乐性(编曲、和旋、律动)、Mem.记忆度(好听好记、旋律洗脑)、Cla.清晰度(人声、器乐层次分明)、Nat.自然度(声音拟真、无AI感)六大指标上得分第一。
同时 ACE-Step 1.5的生成速度极快——在 A100 上每首完整歌曲生成时间不到 2 秒,在 RTX 3090 上不到 10 秒。这个速度比同级别产品快了 10-120 倍。
原来用了新架构
ACE-Step 1.5 的核心是一种新型的混合架构:语言模型(LM)作为全能规划器,将用户的文本请求转化为完整的歌曲蓝图 —— 可覆盖从一个较短的循环片段到 10 分钟长度的完整音乐作品创作,同时通过思维链(Chain-of-Thought) 生成元数据、歌词和描述文本,以此引导扩散 Transformer(DiT)。
也就是说 ACE-Step 1.5 能够将语言模型的规划能力与扩散 Transformer 的生成能力结合,实现 “懂指令 + 会创作” 的双重优势。
音乐创作功能一应俱全
DiT 是 ACE-Step 1.5 核心的音频生成模块,根据LM语言模型提供的蓝图,执行从 “无到有”“局部修改”“音轨操作” 等多种音乐创作任务:
Text2Music 文本生成音乐——用户输入文本描述,DiT 从零开始生成一首完整的音乐;
Cover 翻唱、重制、完整改编——基于已有歌曲,重新生成一版(如风格改编、翻唱),保留核心旋律但重塑质感;
Repaint 局部重制、改编——对已有音乐的局部进行修改(如改副歌、换一段旋律),其他部分保持原样;
Extract Track 提取音轨——从完整音乐中分离出某一轨,实现 “人声分离”“乐器提取”;
Add Layer 乐高式叠加——像搭乐高一样,在已有音乐上叠加新的音轨(如加贝斯、弦乐),丰富编曲;
Complete 补全制作——根据已有单音轨(如人声),自动补全伴奏、编曲,形成完整歌曲。
耳听为实
讲了这么多 ACE-Step 1.5 质量高、速度快、才艺全的优点,还是得“耳听为实”。一起感受下 ACE-Step 1.5 这个全能音乐“鬼才”的作品吧!
输入文本描述请求:
中文爵士:一首流畅慵懒的爵士低保真嘻哈曲目,以舒缓的钢琴旋律为基底,搭配松弛沉稳的鼓机律动。温暖圆润的贝斯线条,构筑出扎实的和声根基。歌曲采用男女对唱形式:音色清亮、旋律感十足的女声,与流畅自然、如对话般的男声交替演绎主歌,副歌部分和声配合相得益彰。编曲中点缀着格调雅致、旋律优美的萨克斯间奏,进一步烘托出爵士质感的深夜氛围。曲目以一段加长的器乐尾奏收尾:萨克斯在钢琴主旋律与节奏组的铺垫下,献上极具表现力的即兴独奏,成为全场焦点;最终以一段余韵悠长的钢琴和弦,搭配轻柔的气音效果渐弱结束。
生成音乐:
如果你没有具体的想法,或者仅是为了娱乐,也可以简单一句话就能收获一段高质量的歌曲或音乐。
输入文本描述请求:
一段低沉、紧张的工业风格纯音乐。
生成音乐:
输入文本描述请求:
一段带有 90 年代组合风格的 Lo-Fi 音乐。
输入文本描述请求:
一首充满活力、寓教于乐的嘻哈歌曲,由一位女说唱歌手演唱,她的节奏清晰流畅。
即刻体验
登录官网 acemusic.ai/ 即可体验到 ACE-Step 1.5 的超多功能。或者通过以下方式详细了解 ACE-Step 1.5 并进行本地部署:
Project:https://ace-step.github.io/ace-step-v1.5.github.io/
Space:https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
Github:https://github.com/ace-step/ACE-Step-1.5
ModelScope:https://modelscope.cn/models/ACE-Step/Ace-Step1.5
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み