阶跃星辰·2026年2月27日 13:00·約12分

階躍星辰コアチームがReddit r/LocalLLaMAに登場：Step 3.5 Flashのエンジニアリングトレードオフと次のステップ

#StepFun #LocalLLM #SparseMoE #Agent #OpenSource

TL;DR

阶跃星辰（StepFun）核心团队がRedditのr/LocalLLaMAコミュニティにて開催したAMAにおいて、11Bパラメータ規模の「Step 3.5 Flash」モデルが消費級ハードウェアでの実用的な推論速度（350 TPS）と高度なAgent能力を両立する設計思想、およびMTP-3やSparse MoEといった具体的な技術的実装について公開した。

AI深層分析2026年4月27日 08:15

重要/ 5段階

深度40%

キーポイント

11Bパラメータ規模の選定意図

CEOやCTO自身が128GBメモリ搭載のMacBook Proなどの消費級ハードウェアで動作させることを念頭に置き、230BクラスのモデルがQ4量化で限界を超える中、11Bパラメータ（約89 tokens/parameter）が「賢さとメモリ使用量の理想的なバランス点」として選定された。

高速推論を実現するアーキテクチャ

350 TPSという高速な生成速度を実現するため、GQA8とSWA（Sliding Window Attention）による長文コンテキスト処理の最適化、推論速度向上のためのSparse MoE（Mixture of Experts）の採用、そして投機デコーディングを促進するMTP-3（Multi-Token Prediction）予測頭が採用された。

エージェント基盤としての設計哲学

単なる言語モデルではなく、Agent（自律型エージェント）としての能力を重視しており、「インテリジェンスの密度」「推論・生成速度」「Agent能力」の3つを初期目標とし、アルゴリズム、データ、インフラストラクチャをこれらに合わせ込んだ。

強化学習による自己改善と安定性の両立

数学やコードの正確性といった検証可能な信号と偏好フィードバックを統合し、大規模異方政策学習の安定性を維持しながらモデルの自己改善を実現している。

ベースモデルの早期公開と機能強化

Step 3.5 Flashのベースモデルと統合トレーニングコード庫を1〜2週間以内に公開し、次期バージョン3.6では推論強度の切替機能をサポートする予定。

ツール呼び出しのサポート改善と開発者への謝罪

リリース当初の主要推論スタックでのツール呼び出しサポート不備について謝罪し、既に対応を進めていると明言し、今後のリリースでは同等の成熟度を目指す。

消費級ハードウェアでの実用性への高い評価

197B MoEアーキテクチャは4bit量子化と適切なコンテキスト長により128GBメモリに収まり、単一のStrix Haloチップでも動作可能であり、統一メモリアーキテクチャの普及に適合している。

影響分析・編集コメントを表示

影響分析

このニュースは、大規模言語モデル（LLM）の開発トレンドが「パラメータ数の肥大化」から「効率性と実用性の最適化」へシフトしていることを示唆しています。特に、128GBメモリという消費級ハードウェアの上限を意識した設計は、ローカル環境でのLLM運用を希望する開発者や企業にとって非常に示唆に富むものであり、OpenAIやAnthropicなどのクラウド依存型モデルとは異なる、エッジ側での高度なAgent実装の可能性を提示しています。

編集コメント

クラウドリソースに依存しない「ローカルファースト」のLLM戦略が、特定のハードウェア制約（128GB RAM）を逆手に取って競争優位を生む好例です。技術的な詳細（MTP-3など）の開示は、開発者コミュニティからの信頼獲得に寄与するだけでなく、競合他社に対する技術的差別化の明確な示唆ともなります。

阶跃星辰 2026-02-27 12:00 北京

image

从 11B 激活参数到 350 TPS 推理，直击 Reddit 社区深度对话现场

“Step 3.5 Flash 的目标，从一开始就是三件事：智能密度、推理与生成速度、Agent 能力。目标清晰后，算法、数据与基础设施会自然对齐。”

近日，阶跃星辰核心研发团队带着这款 Agent 基座模型（Agent Base Model），做客 Reddit r/LocalLLaMA 社区，与极客开发者们面对面交流。

面对社区开发者最关心的技术内幕与开源规划，我们的研发团队逐一给出了回应，一起回顾下这场纯粹、透明的深度对话吧！

01 直击现场：阶跃星辰研发团队走进海外开源社区

面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区，阶跃星辰拿出了十足的诚意。

此次 AMA（Ask Me Anything）由 CEO、CTO、首席科学家以及预训练（Pre-training）、后训练（Post-training）、Agent 等各核心算法团队组团上阵，毫无保留地回应开发者的每一个关切。

我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞，都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请：

image

StepFun_ai:

嗨，r/LocalLLaMA 社区的朋友们！

我们是 StepFun Team，Step 系列模型（包括 Step 3.5 Flash 和 Step-3-VL-10B）背后的研发团队。

我们非常激动，在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型（LLM）研究员。

02 深度对话：为什么 11B 激活参数是理想的 Agent 基座模型？

“既要聪明，又不能太吃显存”是当前所有 Agent 开发者的共同痛点。在探讨模型尺寸和硬件适配时，将激活参数规模最终定格在 11B（110 亿），其实藏着主创团队自己作为“本地模型极客玩家”的小巧思。

image

開発者 award_reply からの質問：

Step 3.5 Flash を計画する際、你们はすでにこの特定の「最適なバランス点」を目標に据えていましたか？すなわち、89 トークン/パラメータという比率であり、かつ消費級ハードウェアの規模上限（Q4 量化で 128GB メモリを使用し、実用的な実行速度を保つための 11B アクティブパラメータ）にきっちり収まるように設計された点です。

CTO の bobzhuyb からの回答：

確かに目標はありました。それは、128GB メモリを備えたシステム上で動作させることです。私自身も、128GB メモリと M3 Max チップを搭載した Macbook Pro を持っています（自費で購入したもので、会社支給品ではありません！）。私はローカルモデルの運用を楽しむのが大好きです。また、私たちの首席科学者である Xiangyu（張祥雨）さんも数ヶ月前に、128GB メモリを備えた個人用の AMD Max+AI 395 を購入しました。

既存の約 230B パラメータ規模のモデル（Qwen が代表例です）は、私の Mac の 4 ビット量化の許容範囲をわずかに超えていることに気づきました。そこでチームに指示し、モデルの規模を少し縮小させました。私や Xiangyu と同じようにこの趣味を持つ人は多くいると信じています。

03 ハードコア解説：MTP-3 予測ヘッドと 350 TPS の背後にあるアーキテクチャ美学

天下の武芸、唯速く破るに如かず。複雑な Agent タスクにおいて最高 350 TPS（1 秒間あたりのトークン生成数）の生成速度を実現しつつ、極めて高い実行精度を維持するためには、単純な手法では不十分です。

質疑応答セッションでは、事前学習と後学習チームの研究員が底辺からの視点で、モデルを「既速く且つ賢く」するアーキテクチャの詳細をハードコアに分解しました。それは MTP-3 予測ヘッドと強化学習（RL）フレームワークの相乗効果です。

image

事前学習研究員 Elegant-Sale-1328 の発言：

事前学習アーキテクチャの差別化：最初から、私たちはシステムチームと緊密に協力し、特定の目標を掲げてアーキテクチャを共同設計しました。その目標とは、最先端レベルのエージェント能力と計算効率との間のギャップを埋めることです。Step 3.5 Flash については、以下の 3 つの相互に関連する軸に沿って、低実時間遅延（wall-clock latency）を実現するための協調設計を行いました：

アテンション機構（GQA8 と SWA を使用して長文脈処理を加速し、MTP と高い親和性を確保）、
推論速度向上のためのスパース MoE（Sparse Mixture of Experts）の採用（EP-group loss を用いて、スループット低下を引き起こす「遅れ組」を防ぐ）、
MTP-3（多トークン予測；スペキュレーション・デコーディングを促進して高速生成を実現することを目的としたもの）。

image

後訓練研究員 SavingsConclusion298 氏の発言：

私たちの独自性（後訓練の観点から）：

私たちは、最先端レベルの知能に向けたスケーラブルな RL（強化学習 Reinforcement Learning）フレームワークの開発に多大なリソースを投入しています。鍵となるのは、検証可能なシグナル（例えば、数学やコードの正しさなど）と嗜好フィードバックを統合しつつ、大規模な異方性ポリシー学習の安定性を維持することです。これにより、基礎モデルの安定性を損なうことなく、数学、コード、ツール使用の分野で継続的な自己向上を実現しています。

04 率直な対話：無限推論ループのバグフィードバックと直面し、3.6 バージョンのオープンソース路線

この高密度な技術対談において、チームはあらゆる「鋭い」声から目を逸らしませんでした。初期バージョンにおけるツール呼び出しのバグへのフィードバックに直面することや、開発者が最も関心を持つ Base モデルのリリース時期について答えることなど、開発者は第一報として透明性の高い進捗表と明確なコミットメントを即座に提示しました。

image

開発者 Expensive-Paint-9490 氏の質問：

素晴らしいご活動に感謝いたします。Step 3.5 Flash は私が最も愛するモデルの一つです。

基礎モデル（base model）と指令/思考モデル（instruct/thinking one）を同時にリリースすることを検討されたことはありますか？そうすれば、コミュニティがファインチューニングを行えるようになります。あるいは、これは何らかの規制リスクに関わるのでしょうか？

チーフサイエンティスト Lost-Nectarine1016 氏：

今後 1〜2 週間で Step 3.5 Flash の base model と、統合されたトレーニングコードベースをリリースする予定です。次のバージョン 3.6 では、思考強度の切り替えをサポートします（低強度推論は体験上は純粋な対話モデルに非常に近いですが、より正確です）。

ツール呼び出しバグについて：

image

開発者 __JockY__ 氏の質問：

モデルの重みを公開していただきありがとうございます。私の質問は：

vllm、sglang、llama.cpp の各チームに対して、機能完備の PR（プルリクエスト）を提出し、リリース初日（Day 0）にモデルがツール呼び出しをサポートできるようにする検討は行いますか？

リリース当日において、上記の主要な推論スタックいずれにおいても、Step3.5-Flash 上ではツール呼び出しのパーサーが全く機能していません。率直に言って、現在ツール呼び出しが使えるかどうかは私にもわかりません……残念なことに、私は試行を断念し、MiniMax-M2.x に戻しました。

このモデルに関する多くの称賛の声听到了。しかし残念ながら、ツールを呼び出すことができない（あるいは今もまだできない？）のです。

今後のモデルにおいて、リリース初日にツール呼び出しをサポートできるようにするために協力するお考えはありますか？Step 3.5 の包括的なサポート実現のために手を貸していただけるでしょうか？ありがとうございます！

CTO bobzhuyb の返信：

こんにちは。リリース初日における vllm/sglang/llama.cpp のツール呼び出しサポートの不備について、大変申し訳なく思っております。リリース前に vllm と sglang のコミュニティと連携し、初日にモデルを実行できるように確保しました。残念ながら、私たちのテストケースはツール呼び出しをカバーしておらず、推論ベンチマーク（例えば数学や競技プログラミング）が内部ベンチマークの結果と一致することのみを確認していました。

ツール呼び出しに関する多くの問題を修正したと考えています。もしさらに問題が残っている場合は、発見次第すべて修復することを約束します。

これは確かに、ツール呼び出しをサポートするモデルのリリースにおいて私たちが経験不足であることを示しています。しかしながら、時が経つにつれてこれは確実に改善されるでしょう。次のリリースでは、より早く（そして工程上のバグをより早く修正した）他のモデルと同様に成熟している姿をご覧いただけるはずです。

05 技術者たちの証言：Reddit コミュニティからの開発者の生の声

技術が本当に堅牢かどうかを検証する上で、最前線で活動する開発者たちが最終的な判断権を持っています。Step 3.5 Flash は消費レベルのメモリアーキテクチャに高度に適合しており、リリース後すぐに多くの海外のテック愛好家の関心を引きつけました。コメント欄には、上位 1% に属するベテランユーザーによる本格的な証言が数多く見られます：

image

開発者 ilintar の意見：

私は 197B MoE（Mixture of Experts）が完璧なパラメータ規模だと考えています。これにより、高品質な 4 ビット量子化と適切なコンテキスト長を組み合わせることで、ちょうど 128GB のメモリに収めることができます。また、メモリや GPU の価格が高騰しているため、統一メモリシステムは今後の数ヶ月でますます普及していくと考えています。

image

開発者 Adventurous-Okra-407 の意見：

Step 3.5 は本当に素晴らしいモデルです。その規模は絶妙で、単一の Strix Halo グラフィックボードでも十分に動作しますし、同規模のモデルの中で非常に強力かつ賢いパフォーマンスを発揮しています。このような優れたモデルがもっと登場することを期待しています！

image

開発者 tarruda 氏のコメント：

素晴らしいご努力に感謝します。今後のリリースも楽しみにしています！

06 あなたの Agent アシスタントを見つける：Step 3.5 Flash を今すぐ活用

ここまでお話ししましたが、Step 3.5 Flash は実際に使ってみるとどれほど強力なのでしょうか？複雑なタスクを処理するあなたの Agent アシスタントとして、その知能、速度、コストの面で極めて優れたバランスを実現しています。

image

最高峰の知能：AIME 2025 の論理推論テストで 97.3 点を獲得し、極めて強力な Agent ツール呼び出しと多段階計画能力を備えています。

究極の速度：推論速度は最大で秒間 350 トークンに達し、1 秒間でページ一枚分の文章を書き終えるスピードです。

精巧かつ効率的：アクティブパラメータ数は 11B で、計算コストはわずか 12.1% に抑えられ、必要メモリ容量も 24GB（RTX 4090 グラフィックボード 1 枚で動作可能）という低ハードルを実現しています。

ちょっとしたおまけ：

image

開発者 uglylookingguy 氏の質問：

現在、多くのオープンソースモデルラボが間違っていると思う点はどこでしょうか？

CEO Ok_Reach_5122 氏の回答：

おそらく、春節（中国の旧正月）にモデルをリリースすべきではなかったのかもしれませんね。:-) ご存知の通り、これは中国で最も盛大な祝祭であり、家族全員が団欒する日です。

しかし、私も理解しています。皆さん（私たち自身も含めて）が、素晴らしいものをコミュニティ全体と共有したくてたまらない気持ちになるのは当然のことです。

私たちは、より多くの開発者に Step 3.5 Flash を体験していただき、Agent の無限の可能性を一緒に探求することを歓迎します。

Step 3.5 Flash モデルの体験：

OpenRouter で期間限定無料提供中。0 コストであなたの Agent をアップグレード：https://openrouter.ai/stepfun/step-3.5-flash:free

GitHub でクイックデプロイして、あなただけの Agent を構築：https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

HuggingFace: https://huggingface.co/stepfun-ai/Step-3.5-Flash；

ModelScope: https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

「阶跃 AI」アプリをダウンロードするか、阶跃 AI のウェブページ（https://www.stepfun.com/）にアクセスして体験してください。

Tech Report: https://arxiv.org/pdf/2602.10604

より詳細な技術情報：https://static.stepfun.com/blog/step-3.5-flash/

AMA の完全版を読むには、「原文を読む」をクリックして Reddit 原帖へ直接ジャンプしてください。

原文を読む

WeChat で開くためにジャンプ

原文を表示

阶跃星辰 2026-02-27 12:00 北京

image

从 11B 激活参数到 350 TPS 推理，直击 Reddit 社区深度对话现场

“Step 3.5 Flash 的目标，从一开始就是三件事：智能密度、推理与生成速度、Agent 能力。目标清晰后，算法、数据与基础设施会自然对齐。”

近日，阶跃星辰核心研发团队带着这款 Agent 基座模型，做客 Reddit r/LocalLLaMA社区，与极客开发者们面对面交流。

面对社区开发者最关心的技术内幕与开源规划，我们的研发团队逐一给出了回应，一起回顾下这场纯粹、透明的深度对话吧！

01 直击现场：阶跃星辰研发团队走进海外开源社区

面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区，阶跃星辰拿出了十足的诚意。

此次 AMA 由 CEO、CTO、首席科学家以及预训练、后训练、Agent 等各核心算法团队组团上阵，毫无保留地回应开发者的每一个关切。

我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞，都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请：

StepFun_ai:

嗨，r/LocalLLaMA 社区的朋友们！

我们是 StepFun Team，Step 系列模型（包括 Step 3.5 Flash 和 Step-3-VL-10B）背后的研发团队。

我们非常激动，在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型（LLM）研究员。

02 深度对话：为什么 11B 激活参数是理想的 Agent 基座模型？

“既要聪明，又不能太吃显存”是当前所有 Agent 开发者的共同痛点。在探讨模型尺寸和硬件适配时，将激活参数规模最终定格在 11B，其实藏着主创团队自己作为“本地模型极客玩家”的小巧思。

开发者 award_reply 提问：

在规划 Step 3.5 Flash 时，你们是否心中已经瞄准了这个特定的“最佳平衡点”：89 tokens/参数，并且正好卡在消费级硬件规模的上限（128GB 用于 Q4 量化，11B 激活参数以保证实用的运行速度）？

CTO bobzhuyb 回复：

我们的确有一个目标，就是让它能够跑在一个 128GB 内存系统的内存中。我自己就有一台配备 128GB 内存和 M3 Max 芯片的 Macbook Pro（是我自己掏钱买的，不是公司配的！），并且我非常喜欢玩本地模型。我们的首席科学家 Xiangyu （张祥雨）几个月前也买了一台个人的、拥有 128GB 内存的 AMD Max+AI 395。

我发现现有的约 230B 规模的模型（以 Qwen 为代表）刚好超出了我这台 Mac 的 4 位量化承受范围，所以我让团队把规模稍微缩小了一点。我相信有很多像我和 Xiangyu 一样有此爱好的人。

03 硬核解密：MTP-3 预测头与 350 TPS 背后的架构美学

天下武功，唯快不破。要想在复杂的 Agent 任务中实现最高 350 TPS 的生成速度，又要做到保持极高的执行准确率，依靠简单的化远远不够。

在问答环节中，预训练与后训练团队研究员从底层视角出发，硬核拆解让模型“既快又聪明”的架构细节：即 MTP-3 预测头与强化学习（RL）框架的相辅相成。

预训练研究员Elegant-Sale-1328 发言：

预训练架构差异化：从一开始，我们就与系统团队紧密合作，带着一个特定的目标共同设计架构，即弥合前沿级别的智能体能力与计算效率之间的差距。我们沿着三个相互关联的轴心对 Step 3.5 Flash 进行了低实际响应延迟（ wall-clock latency ）的协同设计：注意力机制（我们使用 GQA8 和 SWA 来加速长上下文处理，并且与 MTP 有很好的亲和力）、采用稀疏 MoE 而非稠密架构以提高推理速度（我们使用 EP-group loss 来防止出现降低吞吐量的“掉队者”），以及 MTP-3（多 Token 预测；旨在通过投机解码促进快速生成）。

后训练研究员 SavingsConclusion298 发言：

我们的与众不同之处（后训练方面）：

我们在迈向前沿级智能的可扩展 RL（强化学习）框架上投入了大量资源。关键是将可验证的信号（例如，数学/代码的正确性）与偏好反馈整合在一起，同时保持大规模异策略训练的稳定性。这让我们能够在数学、代码和工具使用方面推动持续的自我提升，而不会破坏基础模型的稳定性。

04 坦诚对话：直面无限推理循环 Bug 反馈与 3.6 版本开源路线

在这场高密度的技术对谈中，团队没有绕开任何“尖锐”的声音。无论是直面早期版本中工具调用的 Bug 反馈，还是解答开发者最关心的 Base 模型何时释出，研发人员都在第一时间给出了透明的进度表与明确承诺。

开发者 Expensive-Paint-9490 提问：

感谢你们出色的工作，Step 3.5 flash 是我最喜欢的模型之一。

你们有没有考虑过将基础模型（base model）与指令/思考模型（instruct/thinking one）一起发布？这样社区就可以对它进行微调了。还是说，这涉及一些监管风险？

首席科学家 Lost-Nectarine1016 ：

我们将在未来一两周内发布 Step 3.5 Flash base model ，以及一个一体化的训练代码库。在下一个版本 3.6 中，将支持思考强度切换（低强度推理在体验上非常接近纯对话模型，但要精确得多）。

对于工具调用 Bug：

开发者 __JockY__ 提问：

感谢你们开放模型的权重。我的问题是：

你们是否会考虑向 vllm、sglang 和 llama.cpp 团队提交功能完整的 PR（拉取请求），以确保在发布首日（Day 0）你们的模型就能支持工具调用（tool calling）？

在发布的当天，对于上述任何主流推理栈，工具调用的解析器在 Step3.5-Flash 上根本无法工作。老实说，我不知道现在工具调用是否能用了……很遗憾地说，我放弃了尝试并换回了 MiniMax-M2.x。

我听到了很多关于这个模型的好评。可惜它不能（或者现在仍然不能？）调用工具。

你们会考虑协助确保未来的模型在发布首日就能支持工具调用吗？你们会帮助 Step 3.5 实现全面支持吗？谢谢！

CTO bobzhuyb 回复：

你好，对于发布首日 vllm/sglang/llama.cpp 对工具调用的支持不完整，我感到非常抱歉。我们在发布前与 vllm 和 sglang 社区进行了合作，以确保他们能在首日运行该模型。遗憾的是，我们的测试用例没有覆盖到工具调用——我们只确保了推理基准测试（例如，数学和竞技编程）与我们的内部基准测试结果相匹配。

我相信我们已经修复了相当多工具调用的问题。如果还有更多问题，我们承诺一旦发现，就会全部予以修复。

这确实表明我们在发布支持工具调用的模型方面经验不足。然而，随着时间的推移，这肯定会得到改善。在我们的下一次发布中，你可能会看到它将与那些发布较早（并且更早修复了工程 bug）的其他模型一样成熟。

05 极客证言：来自 Reddit 社区的开发者真实原声

对于验证技术是否真的过硬，跑在最前线的开发者们拥有最终话语权。Step 3.5 Flash 高度契合消费级内存架构的特性，在发布后迅速击中了众多海外极客的爽点，评论区里不乏前 1% 资深玩家的硬核证言：

开发者 ilintar 表达：

我觉得 197B MoE 是一个完美的参数规模——它允许高质量的 4 位量化加上合理的上下文长度刚好能放入 128GB 内存中，而且我觉得由于内存/GPU 价格的飙升，统一内存系统在接下来的几个月里会变得越来越流行。

开发者 Adventurous-Okra-407 表达：

Step 3.5 真的是个非常棒的模型。它的体量恰到好处，单颗 Strix Halo 刚好就能跑得动，而且在同等规模的模型里，它表现得非常强大且聪明。期待你们能推出更多这样的好模型！

开发者 tarruda 表达：

感谢你们出色的工作，期待后续的发布！

06 寻找你的 Agent 搭子：即刻上手 Step 3.5 Flash

说了这么多，Step 3.5 Flash 真正用起来到底有多强？作为帮你处理复杂任务的 Agent 搭子，它在智商、速度和成本上，都已经达到了极佳的平衡：

顶尖智商：AIME 2025 逻辑推理测试得分 97.3，具备极强的 Agent 工具调用与多步规划能力

极致速率：推理速度最高达每秒 350 个 Token，相当于一秒钟写完一页纸

精巧高效：11B 激活参数，算力成本低至 12.1%，显存门槛仅 24GB（单张 RTX 4090 即可运行）

一个彩蛋：

开发者 uglylookingguy 提问：

你认为目前大多数开源模型实验室做错的地方是什么？

CEO Ok_Reach_5122 回复：

也许是不该在春节期间发布模型？:-) 你知道的，这是中国最隆重的节日，是全家团圆的日子。

但我也能理解，大家（包括我们在内）都迫不及待地想把好东西分享给整个社区。

我们欢迎更多开发者体验 Step 3.5 Flash，一起探索 Agent 的无限可能。

Step 3.5 Flash 模型体验：

OpenRouter 限免中，0 成本升级你的 Agent：https://openrouter.ai/stepfun/step-3.5-flash:free

GitHub 下载快速部署，打造专属 Agent：https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

HuggingFace：https://huggingface.co/stepfun-ai/Step-3.5-Flash；

ModelScope：https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

下载「阶跃 AI」APP 或前往阶跃 AI 网页端（https://www.stepfun.com/）体验

Tech Report: https://arxiv.org/pdf/2602.10604

更多技术细节：https://static.stepfun.com/blog/step-3.5-flash/

阅读 AMA 完整版，点击“阅读原文”直达 Reddit 原帖。

阅读原文

跳转微信打开

この記事をシェア

LangChain Blog2026年7月3日 02:29

コーディングエージェントの利用料金が倍増。その対策とは

阶跃星辰重要度42026年4月24日 12:39

阶跃（StepFun）「StepAudio 2.5 ASR」リリース！500TPSの超高速推論、30分音声を「数秒で文字起こし」

阶跃星辰2026年4月23日 11:01

公式発表！阶跃と千里科技、全面戦略的パートナーシップを締結

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

阶跃星辰·2026年2月27日 13:00·約12分

階躍星辰コアチームがReddit r/LocalLLaMAに登場：Step 3.5 Flashのエンジニアリングトレードオフと次のステップ

#StepFun #LocalLLM #SparseMoE #Agent #OpenSource

TL;DR

AI深層分析2026年4月27日 08:15

重要/ 5段階

深度40%

キーポイント

11Bパラメータ規模の選定意図

高速推論を実現するアーキテクチャ

エージェント基盤としての設計哲学

強化学習による自己改善と安定性の両立

ベースモデルの早期公開と機能強化

Step 3.5 Flashのベースモデルと統合トレーニングコード庫を1〜2週間以内に公開し、次期バージョン3.6では推論強度の切替機能をサポートする予定。

ツール呼び出しのサポート改善と開発者への謝罪

消費級ハードウェアでの実用性への高い評価

影響分析・編集コメントを表示

影響分析

編集コメント

阶跃星辰 2026-02-27 12:00 北京

image

从 11B 激活参数到 350 TPS 推理，直击 Reddit 社区深度对话现场

“Step 3.5 Flash 的目标，从一开始就是三件事：智能密度、推理与生成速度、Agent 能力。目标清晰后，算法、数据与基础设施会自然对齐。”

近日，阶跃星辰核心研发团队带着这款 Agent 基座模型（Agent Base Model），做客 Reddit r/LocalLLaMA 社区，与极客开发者们面对面交流。

面对社区开发者最关心的技术内幕与开源规划，我们的研发团队逐一给出了回应，一起回顾下这场纯粹、透明的深度对话吧！

01 直击现场：阶跃星辰研发团队走进海外开源社区

面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区，阶跃星辰拿出了十足的诚意。

我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞，都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请：

image

StepFun_ai:

嗨，r/LocalLLaMA 社区的朋友们！

我们是 StepFun Team，Step 系列模型（包括 Step 3.5 Flash 和 Step-3-VL-10B）背后的研发团队。

我们非常激动，在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型（LLM）研究员。

02 深度对话：为什么 11B 激活参数是理想的 Agent 基座模型？

image

開発者 award_reply からの質問：

CTO の bobzhuyb からの回答：

03 ハードコア解説：MTP-3 予測ヘッドと 350 TPS の背後にあるアーキテクチャ美学

image

事前学習研究員 Elegant-Sale-1328 の発言：

アテンション機構（GQA8 と SWA を使用して長文脈処理を加速し、MTP と高い親和性を確保）、
推論速度向上のためのスパース MoE（Sparse Mixture of Experts）の採用（EP-group loss を用いて、スループット低下を引き起こす「遅れ組」を防ぐ）、
MTP-3（多トークン予測；スペキュレーション・デコーディングを促進して高速生成を実現することを目的としたもの）。

image

後訓練研究員 SavingsConclusion298 氏の発言：

私たちの独自性（後訓練の観点から）：

04 率直な対話：無限推論ループのバグフィードバックと直面し、3.6 バージョンのオープンソース路線

image

開発者 Expensive-Paint-9490 氏の質問：

素晴らしいご活動に感謝いたします。Step 3.5 Flash は私が最も愛するモデルの一つです。

チーフサイエンティスト Lost-Nectarine1016 氏：

ツール呼び出しバグについて：

image

開発者 __JockY__ 氏の質問：

モデルの重みを公開していただきありがとうございます。私の質問は：

このモデルに関する多くの称賛の声听到了。しかし残念ながら、ツールを呼び出すことができない（あるいは今もまだできない？）のです。

CTO bobzhuyb の返信：

ツール呼び出しに関する多くの問題を修正したと考えています。もしさらに問題が残っている場合は、発見次第すべて修復することを約束します。

05 技術者たちの証言：Reddit コミュニティからの開発者の生の声

image

開発者 ilintar の意見：

image

開発者 Adventurous-Okra-407 の意見：

image

開発者 tarruda 氏のコメント：

素晴らしいご努力に感謝します。今後のリリースも楽しみにしています！

06 あなたの Agent アシスタントを見つける：Step 3.5 Flash を今すぐ活用

image

最高峰の知能：AIME 2025 の論理推論テストで 97.3 点を獲得し、極めて強力な Agent ツール呼び出しと多段階計画能力を備えています。

究極の速度：推論速度は最大で秒間 350 トークンに達し、1 秒間でページ一枚分の文章を書き終えるスピードです。

ちょっとしたおまけ：

image

開発者 uglylookingguy 氏の質問：

現在、多くのオープンソースモデルラボが間違っていると思う点はどこでしょうか？

CEO Ok_Reach_5122 氏の回答：

私たちは、より多くの開発者に Step 3.5 Flash を体験していただき、Agent の無限の可能性を一緒に探求することを歓迎します。

Step 3.5 Flash モデルの体験：

OpenRouter で期間限定無料提供中。0 コストであなたの Agent をアップグレード：https://openrouter.ai/stepfun/step-3.5-flash:free

GitHub でクイックデプロイして、あなただけの Agent を構築：https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

HuggingFace: https://huggingface.co/stepfun-ai/Step-3.5-Flash；

ModelScope: https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

「阶跃 AI」アプリをダウンロードするか、阶跃 AI のウェブページ（https://www.stepfun.com/）にアクセスして体験してください。

Tech Report: https://arxiv.org/pdf/2602.10604

より詳細な技術情報：https://static.stepfun.com/blog/step-3.5-flash/

AMA の完全版を読むには、「原文を読む」をクリックして Reddit 原帖へ直接ジャンプしてください。

原文を読む

WeChat で開くためにジャンプ

原文を表示

阶跃星辰 2026-02-27 12:00 北京

image

从 11B 激活参数到 350 TPS 推理，直击 Reddit 社区深度对话现场

“Step 3.5 Flash 的目标，从一开始就是三件事：智能密度、推理与生成速度、Agent 能力。目标清晰后，算法、数据与基础设施会自然对齐。”

近日，阶跃星辰核心研发团队带着这款 Agent 基座模型，做客 Reddit r/LocalLLaMA社区，与极客开发者们面对面交流。

面对社区开发者最关心的技术内幕与开源规划，我们的研发团队逐一给出了回应，一起回顾下这场纯粹、透明的深度对话吧！

01 直击现场：阶跃星辰研发团队走进海外开源社区

面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区，阶跃星辰拿出了十足的诚意。

此次 AMA 由 CEO、CTO、首席科学家以及预训练、后训练、Agent 等各核心算法团队组团上阵，毫无保留地回应开发者的每一个关切。

我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞，都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请：

StepFun_ai:

嗨，r/LocalLLaMA 社区的朋友们！

我们是 StepFun Team，Step 系列模型（包括 Step 3.5 Flash 和 Step-3-VL-10B）背后的研发团队。

我们非常激动，在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型（LLM）研究员。

02 深度对话：为什么 11B 激活参数是理想的 Agent 基座模型？

开发者 award_reply 提问：

CTO bobzhuyb 回复：

03 硬核解密：MTP-3 预测头与 350 TPS 背后的架构美学

天下武功，唯快不破。要想在复杂的 Agent 任务中实现最高 350 TPS 的生成速度，又要做到保持极高的执行准确率，依靠简单的化远远不够。

预训练研究员Elegant-Sale-1328 发言：

后训练研究员 SavingsConclusion298 发言：

我们的与众不同之处（后训练方面）：

04 坦诚对话：直面无限推理循环 Bug 反馈与 3.6 版本开源路线

开发者 Expensive-Paint-9490 提问：

感谢你们出色的工作，Step 3.5 flash 是我最喜欢的模型之一。

首席科学家 Lost-Nectarine1016 ：

对于工具调用 Bug：

开发者 __JockY__ 提问：

感谢你们开放模型的权重。我的问题是：

你们是否会考虑向 vllm、sglang 和 llama.cpp 团队提交功能完整的 PR（拉取请求），以确保在发布首日（Day 0）你们的模型就能支持工具调用（tool calling）？

我听到了很多关于这个模型的好评。可惜它不能（或者现在仍然不能？）调用工具。

你们会考虑协助确保未来的模型在发布首日就能支持工具调用吗？你们会帮助 Step 3.5 实现全面支持吗？谢谢！

CTO bobzhuyb 回复：

我相信我们已经修复了相当多工具调用的问题。如果还有更多问题，我们承诺一旦发现，就会全部予以修复。

05 极客证言：来自 Reddit 社区的开发者真实原声

开发者 ilintar 表达：

开发者 Adventurous-Okra-407 表达：

开发者 tarruda 表达：

感谢你们出色的工作，期待后续的发布！

06 寻找你的 Agent 搭子：即刻上手 Step 3.5 Flash

说了这么多，Step 3.5 Flash 真正用起来到底有多强？作为帮你处理复杂任务的 Agent 搭子，它在智商、速度和成本上，都已经达到了极佳的平衡：

顶尖智商：AIME 2025 逻辑推理测试得分 97.3，具备极强的 Agent 工具调用与多步规划能力

极致速率：推理速度最高达每秒 350 个 Token，相当于一秒钟写完一页纸

精巧高效：11B 激活参数，算力成本低至 12.1%，显存门槛仅 24GB（单张 RTX 4090 即可运行）

一个彩蛋：

开发者 uglylookingguy 提问：

你认为目前大多数开源模型实验室做错的地方是什么？

CEO Ok_Reach_5122 回复：

也许是不该在春节期间发布模型？:-) 你知道的，这是中国最隆重的节日，是全家团圆的日子。

但我也能理解，大家（包括我们在内）都迫不及待地想把好东西分享给整个社区。

我们欢迎更多开发者体验 Step 3.5 Flash，一起探索 Agent 的无限可能。

Step 3.5 Flash 模型体验：

OpenRouter 限免中，0 成本升级你的 Agent：https://openrouter.ai/stepfun/step-3.5-flash:free

GitHub 下载快速部署，打造专属 Agent：https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

HuggingFace：https://huggingface.co/stepfun-ai/Step-3.5-Flash；

ModelScope：https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

下载「阶跃 AI」APP 或前往阶跃 AI 网页端（https://www.stepfun.com/）体验

Tech Report: https://arxiv.org/pdf/2602.10604

更多技术细节：https://static.stepfun.com/blog/step-3.5-flash/

阅读 AMA 完整版，点击“阅读原文”直达 Reddit 原帖。

阅读原文

跳转微信打开

この記事をシェア

LangChain Blog2026年7月3日 02:29

コーディングエージェントの利用料金が倍増。その対策とは

阶跃星辰重要度42026年4月24日 12:39

阶跃（StepFun）「StepAudio 2.5 ASR」リリース！500TPSの超高速推論、30分音声を「数秒で文字起こし」

阶跃星辰2026年4月23日 11:01

公式発表！阶跃と千里科技、全面戦略的パートナーシップを締結

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

階躍星辰コアチームがReddit r/LocalLLaMAに登場：Step 3.5 Flashのエンジニアリングトレードオフと次のステップ

キーポイント

影響分析

編集コメント

関連記事

階躍星辰コアチームがReddit r/LocalLLaMAに登場：Step 3.5 Flashのエンジニアリングトレードオフと次のステップ

キーポイント

影響分析

編集コメント

関連記事