Together AI、ICML 2026 に参加:フルスタックにわたる最先端研究を発表
Together AI は ICML 2026 の場で、フルスタックにわたる最先端の研究内容を発表したが、具体的な技術詳細や数値データが提示されていないため、現時点では業界への具体的な影響を評価するには情報が不足している。
キーポイント
ICML 2026 での発表概要
Together AI が同カンファレンスにおいて、研究の全スタック(フルスタック)にわたる最先端の内容を発表したことが確認された。
情報の具体性不足
記事内容には「最先端の研究」という総括的な記述のみが含まれており、具体的な技術名や成果の詳細は提供されていない。
業界への示唆
フルスタックアプローチの強調は、同社の戦略的方向性を示しているが、即座に実装可能な知見としては限定的である。
影響分析・編集コメントを表示
影響分析
このニュースは Together AI の研究姿勢を示すものだが、具体的な技術的ブレイクスルーや実装事例が欠けているため、現時点での業界への直接的なインパクトは限定的です。今後の詳細な論文発表やデモを通じて、その「フルスタック」アプローチの真価が問われることになります。
編集コメント
プレスリリース的な発表内容にとどまり、技術的深みが欠けているため、現時点では注目度が高すぎないと言えます。
Together AI とその仲間たちからの8編の論文が、ソウルで開催される ICML 2026 に採択されました。ご来場予定の方は、ブース B714 までお越しください。ぜひお話しできれば幸いです。
image
image8編の論文をリストとして一覧するのは大変なことです。それらを読むより良い方法は、それぞれの論文がスタック(技術階層)のどこに位置するかで読むことです。フロンティア AI は単一のレイヤーだけで構築されるものではありません。それはエージェントから GPU カーネルに至るまで続く研究の産物であり、もし周囲のレイヤーが追いつかない場合、ある1つのレイヤーでの進歩は無駄になってしまいます。
これが私たちの仕事の核心です。最上位のフロンティア・エージェントから最下位のカーネルに至るまで、私たちの研究はすべてに及び、各レイヤーが次のレイヤーを支えます。この研究は Together プラットフォームの一部となり、そのプラットフォーム上で実行される本番ワークロードが、次なる研究課題へと私たちに道を示します。適応型推測デコーディング(adaptive speculative decoding)に関する ICML 論文「Aurora」はその明確な例です:同じ研究ラインが今日、本番環境の ATLAS スペキュレーターとして出荷されています。
今年の研究を、レイヤーごとに上から順に紹介します。
01 フロンティア・エージェント
実際的な作業を行うエージェント — 偽装できないタスクで測定されます。
DSGym1,000 以上のタスク、10 以上のドメイン
ThunderAgent エージェント推論が最大 3.6 倍高速化
TTT-Discover 最良の人間およびオープンモデルを上回る
02 モデルの形状変更
ベースモデルを推論型モデルに変換する — 正解キーが存在しない場合でも。
RARO 勝率 25%、検証器なし
V1 正答率が最大 10% 向上
03 アルゴリズム最適化
トークンごとのコスト削減 — 実トラフィックに適応する推測デコーディング。
Aurora トラフィックのシフトに応じて 1.25 倍
04 システム最適化
同じ GPU でより多くの処理を収容 — より長いコンテキスト、大きなバッチサイズ、高速な MoE デコーディング。
Untied Ulysses 単一ノードで 5M トークンのコンテキスト
OEA MoE デコーディングが最大 39% 高速化
05 カーネル
すべての処理を支える GPU カーネル — マイクロ秒の積み重ねがスタック全体に波及する領域。
今年この層では新たな ICML 論文はありませんが、これは同じフライングホイール(回転増幅装置)の中核です。Together ブログでカーネルに関する研究について読むことができます。
フロンティアエージェント
スタックの最上位:実際に作業を行うエージェントを構築し、誠実に評価する。
論文 1
DSGym: データサイエンスエージェントの評価と訓練のための包括的フレームワーク
1,000 以上のタスク
10 以上のドメイン、単一の API
10 以上のドメインにわたる 100 件以上のデータサイエスタスクを、単一の評価および訓練 API の背後で統一。 データサイエンスエージェントは公平に測定することが困難であり、各ベンチマークには独自のインターフェースがあり、多くのタスクではデータを一度も開かずに解決できてしまいます。DSGym は測定の標準化を行い、その抜け穴を埋めます。
これは、データセット、エージェント、指標に対する共通の抽象化を備えた多様な評価スイートを一つの API の背後に統合し、各タスクを自己完結型の実行環境で実行するものです。この環境では、エージェントは答えを思い出すのではなく、データと対話して作業を行う必要があります。洗練された既存のスイートに加え、学術文献に基づいた 90 の専門的なバイオインフォマティクスタスクと、Kaggle スタイルの 92 のエンドツーエンドモデリングコンペティションを追加しました。同じ環境は逆方向にも動作し、トレーニングエンジンとして機能します。軌跡生成と合成クエリパイプラインによって実行検証済みデータを生成し、これを用いて人間のラベル付けなしで 4B パラメータのモデルを、最先端のオープンソースデータサイエンスエージェントへと訓練しました。
正直に評価し、同じハーンチスから合成し、ファインチューニングを行い、再評価を行う。これらすべてが一つのフレームワーク内で完結します。
著者:Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou。スタンフォード大学、デューク大学、ハーバード大学の協力者と共著。
論文 2
ThunderAgent: シンプルで高速かつプログラム意識型のエージェント推論システム
最大 3.6 倍
エージェントスループット
エージェントワークロードに対するサービングスループットを 1.5 倍から 3.6 倍向上させること。導入にはコード 3 行のみで十分です。 パラレルなエージェントワークロードは負荷下でも崩壊せず、その解決策はより高速なモデルではありません。
*著者:Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou。スタンフォード大学、デューク大学、ハーバード大学の協力者と共著。
論文 2
ThunderAgent: シンプルで高速かつプログラム意識型のエージェント推論システム
最大 3.6 倍
エージェントスループット
エージェントワークロードに対するサービングスループットを 1.5 倍から 3.6 倍向上させること。導入にはコード 3 行のみで十分です。 パラレルなエージェントワークロードは負荷下でも崩壊せず、その解決策はより高速なモデルではありません。
問題は、推論エンジンがエージェントを実行していることに気づいておらず、マルチターンワークフローの各ステップを独立したリクエストとして扱っている点にあります。これにより、負荷下でレイテンシが最大 7.14 倍に膨張してしまいます。ThunderAgent は、ワークフロー自体をスケジューラがエンドツーエンドで推論できるファーストクラスオブジェクトへと昇格させます。スループットの向上に加え、最先端システムと比較して RL(強化学習)のロールアウトを 1.8 倍から 3.9 倍高速化し、ディスク使用量を最大 4.2 倍削減します。
著者:Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora。ジョージア工科大学、カーネギーメロン大学、イリノイ大学アーバナ・シャンペーン校との共同研究者を含む。
論文 3
テスト時における発見の学習 (TTT-Discover)
ベストな人間を超え、オープンモデルで約 500 ドル。
数学、GPU カーネル、競技用アルゴリズム、生物学の 4 つの分野にわたる最先端の発見。すべてオープンモデルを用いて実現。 これまでの同レベルの結果はすべて、API の背後にある非公開のフロンティアモデルに依存しており、その内部を参照したり実行したりすることはできませんでした。TTT-Discover は、変更のない単一の手法と 120B パラメータのオープンモデルを用いてこれを達成し、問題あたり数百ドルで済みます。
AI の発見における一般的なレシピは検索です:凍結されたモデルに数千回プロンプトを送り、最良のサンプルを選びます。一方、TTT-Discover は、目の前にある単一の問題に対してテスト時に強化学習を実行するため、試行ごとに次の試行のためのトレーニングデータとなり、モデルは作業するにつれて改善されます。同じサンプリング予算であれば、単純な Best-of-N 手法ではこれに追いつくことはできません。
この同一の設定(変更なし)は、60 年前の数学におけるエルデシュ問題に対してより厳しい上限を設定し(以前の AI レコードであるクローズドモデルを使用した場合を超え)、GPUMode リーダーボードにおいて最良の事前提出よりも高速な GPU カーネルを発見し、競技プログラミングコンテストで 1 位レベルの結果を達成し、生物学における単一細胞ノイズ除去ベンチマークで新たな最高記録を樹立しました。これらはすべてオープンソースの gpt-oss-120b で実現されています。コードと記録更新されたカーネルは公開されています。
著者:Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun。スタンフォード大学、NVIDIA、UC サンディエゴ、Astera 研究所の協力者を含む。
モデルの構築(Model shaping)
モデルをどのように訓練し、形成するか:推論、ファインチューニング、および強化学習。
論文 4
検証器からの脱却:デモンストレーションによる推論学習 (RARO)
専門家との比較:25% vs 5.9%
検証器なし
専門家回答に対して 25% の勝率を記録し、教師あり微調整では 5.9% に留まる中、検証器は一切使用していません。 これにより、数学やコードだけでなく、詩の作成や財務分析など、検証器が存在しないタスクにおいても RL(強化学習)グレードの推論が可能になります。
RL ベースの推論は通常、正答性をスコアリングできる検証器を前提としています。RARO (Relativistic Adversarial Reasoning Optimization) はこれを敵対的ゲームに置き換えます:1 つのモデルが、専門家品質の回答を生み出す方策として機能すると同時に、2 つの回答のうちより優れたものを選別する「相対的な批評家」として学習します。同点を含むペア比較がトレーニングの安定性にとって鍵となります。Countdown において、RARO は検証器を使用しないにもかかわらず、真値検証器を伴う RL の 57.7% に対し 54.4% の精度を達成しました。一方、SFT(教師あり微調整)や反復 DPO は 40.7% を超えることはありませんでした。学習された批評家はテスト時の再ランク化器としても機能し、DeepMath の性能を 7B モデルで 57.5% から 68.4% に引き上げます。
*著者:Locke Cai, Max Ryabinin, Ivan Provilkov*
論文 5
V1: パラレル推論器における生成と自己検証の統合
+10%
Pass@1 · 同じ計算リソース
最大で 10% 多くの正解を引き出す。 これは、すでに支払い済みの生成結果からより良い回答を選別する勝利であり、計算リソースを増やすことではありません。
オラクルなしで多数の回答をサンプリングし、それぞれを独立して採点する場合、ジャッジはほぼすべての回答に 10 点満点を付与してしまい、差別化する能力を失ってしまいます。V1 は、ほぼ線形のスイス・トーナメント方式の検証器を通じて選択を比較へと再定義します。トレーニングレシピである V1-PairRL は、単一のモデルに対して、自身の出力を生成すると同時にペアwise 検証を行うことを同時に教えることで、テスト時の検証が全くない場合でもベースラインの精度を向上させます。
著者:Harman Singh, Xiuyu Li, Kusha Sareen, Monishwaran Maheswaran, Sijun Tan, Xiaoxia Wu, Junxiong Wang, Alpay Ariyak, Qingyang Wu, Samir Khaki, Rishabh Tiwari, Long Lian, Yucheng Lu, Boyi Li, Alane Suhr, Ben Athiwaratkun, Kurt Keutzer。UC Berkeley、NVIDIA、Mila の協力者を含む。
アルゴリズム最適化
推論の計算コストを削減する:スペキュレーティブ・ディコーディング、量子化、RL 推論。
論文 6
RL と適応的スペキュレーショントレーニングの融合:統合されたトレーニング・サービングシステム (Aurora)
1.25×
トラフィックがシフトするにつれて
MiniMax M2.1 229B や Qwen3-Coder-Next 80B といった最新のフロンティアモデルにおいて、初日(day-0)で 1.5 倍の速度向上を実現し、さらにトラフィックがシフトするにつれて強力な静的スペキュレーターに対して追加で 1.25 倍の向上をもたらします。 初日には高速であり、実行時間が長くなるほどさらに高速化するスペキュレーティブ・ディコーディングです。
多くのデプロイメントでは、推測器(speculator)をオフラインで訓練して凍結するため、デプロイが遅く、トラフィックやターゲットモデルの変化に伴って陳腐化してしまいます。Aurora は、オンラインでの推測器学習を、本番環境で実行される非同期強化学習問題として再定義します:受け入れられたトークンと拒否されたトークンが報酬信号となり、訓練サーバーは推測器を継続的に更新し、新しい重みはダウンタイムゼロでサーバーにホットスワップされます。
著者: Junxiong Wang, Fengxiang Bie, Jisen Li, Zhongzhu Zhou, Zelei Shao, Yubo Wang, Yinghui Liu, Qingyang Wu, Avner May, Sri Yanamandra, Yineng Zhang, Ce Zhang, Tri Dao, Percy Liang, Ben Athiwaratkun, Shuaiwen Leon Song, Chenfeng Xu, Xiaoxia Wu.
論文: arXiv:2602.06932
システム最適化
モデルの訓練とサービングを行うシステム:非集約化(disaggregation)、バッチ処理、スケジューリング、コンテキスト並列性。
論文 7
Untied Ulysses: ヘッドごとのチャンク分割によるメモリ効率の高いコンテキスト並列性
500 万トークン
1 ノード · ~87.5% メモリ削減
単一の 8xH100 ノードでの最大 500 万トークンのコンテキスト訓練、アテンションメモリの最大 87.5% 削減。 より大きなクラスターがなくても、非常に長いコンテキストで訓練できます。
アテンション層内の活性化メモリが長文コンテキストのトレーニングを制限しており、GPU を追加してもその天井は上がりません。UPipe は一度に数個のアテンションヘッドのみを処理し、ステージ間で同じバッファを再利用することで、32B Transformer においてピーク時のアテンションメモリを最大 87.5% 削減します。その結果、1 ノードで 5M トークン(既存手法より約 25% 上回る)、2 ノードでは 8M トークンを処理可能となりながら、スループットは同等水準を維持します。これは FlashAttention-3 カーネル上で DeepSpeed-Ulysses のドロップイン代替手段であり、コードはオープンソースです。
著者:Ravi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin.
論文 8
オポチュニスティック・エキスパート活性化:再学習なしで高速デコードを実現するバッチ対応エキスパートルーティング (OEA)
最大 39%
高速な MoE デコード
再学習もアーキテクチャ変更も不要で、MoE のデコードレイテンシを最大 39% 削減。 バッチ処理によって静かに失われるスパースリティを、無料で取り戻します。
Mixture-of-Experts モデルは、各トークンが少数のエクスパートにしかアクセスしないため安価であるはずですが、バッチ処理を行う瞬間にそのスパース性が崩壊します。バッチサイズ 16 の場合、各トークンが 8 つのエクスパートを必要とするモデルでも、実際には約 82 個のエクスパートを読み込むことになります。OEA のバッチ対応ルーティングは、推論時に 2 フェーズでスパース性を回復し、その第 2 フェーズではバッチ内で既に読み込まれているエクスパートをトークン間で共有することで、レイテンシコストゼロで品質を維持します。AIME24、GPQA、LiveCodeBench、MATH 500 における精度は横ばいを保ち、調整すべきハイパーパラメータも 1 つだけです。
著者:Costin-Andrei Oncescu, Qingyang Wu, Wai Tong Chung, Robert Wu, Bryan Gopal, Junxiong Wang, Tri Dao, Ben Athiwaratkun。ハーバード大学およびプリンストン大学の協力者を含む。
数値で見る
1,000+ のタスク
10 以上のドメイン、1 つの API
DSGym
最大 3.6 倍
エージェントのスループット
ThunderAgent
ベストな人間を上回る
オープンモデル、約$500
TTT-Discover
エキスパートに対して 25% vs 5.9%
検証者なし
RARO
+10%
Pass@1 · 同じ計算リソース
V1
トラフィックシフト時に 1.25 倍
Aurora
5M トークン
1 ノード・メモリ使用率約 87.5%
Untied Ulysses
最大 39% 高速化
MoE デコード
OEA
ソウルでの出展場所
全 8 編の論文は、7 月 6 日から 11 日にソウルで開催される ICML 2026 に掲載されます。ブース B714 にお立ち寄りいただき、詳細をご確認ください。
Together AI @ ICML 2026
COEX, ソウル · 7 月 6 日~11 日
ブース B714 · 通週
論文日時(ソウル KST)ポスター
**フロンティア・エージェント
DSGym
木曜日 7/9 · 午後 2:30 – 4:15
#66567
ThunderAgent
火曜日 7/7 · 午前 10:30 – 正午 12:15
#62040
TTT-Discover
火曜日 7/7 · 午後 5:00 – 6:45
#62199
モデルの形状設計 (Model shaping)
RARO
木曜日 7/9 · 午前 10:30 – 正午 12:15
#61507
V1
木曜日 7/9 · 午後 5:00 – 6:45
#64825
アルゴリズムの最適化 (Algorithmic optimizations)
Aurora
木曜日 7/9 · 午前 10:30 – 正午 12:15
#66675
システム最適化 (Systems optimizations)
Untied Ulysses
木曜日 7/9 · 午後 5:00 – 6:45
#66102
OEA
水曜日 7/8 · 午前 10:30 – 正午 12:15
#62958
私たちは今週中、ブースにも出展しています。ぜひお立ち寄りください:
- 執筆した本人たちと、8 つの論文すべてについて議論する
- ファインチューニングから本番環境での推論まで、この研究が Together プラットフォームでどのように実装されているかを実演で見る
- チームメンバーに会い、今後の取り組みについて聞く
これを一緒に作りましょう
私たちは、特定のレイヤーだけでなく、スタック全体(フルスタック)にわたって作業したい研究者および研究エンジニアを募集しています。オープンポジションの詳細は together.ai/careers をご覧ください、またはブースまでお越しください。
その他の方へ:ソウルでの面談をリクエストする、完全な研究ブログを閲覧する、そしてカンファレンス中に深掘り記事が公開されるにつれて X(旧 Twitter)の [@togethercompute] をフォローしてください。
原文を表示
Eight papers from Together AI and our peers were accepted to ICML 2026 in Seoul. If you are attending come by booth B714. We’d love to connect.


Eight papers is a lot to take in as a list. The better way to read them is by where they sit in the stack. Frontier AI is not built at a single layer. It is the product of research that runs from the agent down to the GPU kernel, and a gain at any one layer is wasted if the layers around it cannot keep up.
This is at the core of how we work. From frontier agents at the top to kernels at the bottom, our research touches each one, and each layer feeds the next. The research becomes part of the Together platform, and the production workloads running on that platform point us to the next research problem. Aurora, our ICML paper on adaptive speculative decoding, is a clear example: the same line of work ships today as our ATLAS speculator in production.
Here is this year's work, layer by layer, top down.
01Frontier agents
Agents that do real work — measured on tasks you can't fake your way through.
DSGym1,000+ tasks across 10+ domains
ThunderAgentUp to 3.6× faster agent inference
TTT-DiscoverBeats best human, open model
02Model shaping
Turning a base model into a reasoner — even where there's no answer key to check.
RARO25% win rate, no verifier
V1Up to 10% more correct answers
03Algorithmic optimizations
Cutting the cost of every token — speculative decoding that adapts to live traffic.
Aurora1.25× as traffic shifts
04Systems optimizations
Fitting more on the same GPUs — longer context, bigger batches, faster MoE decode.
Untied Ulysses5M-token context on one node
OEAUp to 39% faster MoE decode
05Kernels
The GPU kernels it all runs on — where microseconds compound across the whole stack.
No new ICML paper at this layer this year, but it is core to the same flywheel. You can read about our kernels research work on the Together blog.
Frontier agents
The top of the stack: building agents that do real work, and measuring them honestly.
Paper 1
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents
1,000+ tasks
10+ domains, one API
More than 100 data-science tasks across 10+ domains, unified behind a single evaluation and training API. Data-science agents have been hard to measure fairly, every benchmark has its own interface and many of their tasks can be solved without ever opening the data. DSGym standardizes the measurement and closes that loophole.
It puts diverse evaluation suites behind one API with shared abstractions for datasets, agents, and metrics, and runs each task in a self-contained execution environment where the agent has to work with the data rather than recall an answer. On top of the refined existing suites, it adds 90 expert bioinformatics tasks grounded in academic literature and 92 end-to-end Kaggle-style modeling competitions. The same environment then runs in reverse as a training engine: trajectory generation and synthetic query pipelines produce execution-verified data, which we used to train a 4B model into a state-of-the-art open-source data-science agent, with no human labeling. Evaluate honestly, synthesize from the same harness, fine-tune, re-evaluate, all in one framework.
*Authors: Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou. With collaborators at Stanford, Duke, and Harvard. *
Paper: arXiv:2601.16344
Paper 2
ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System
up to 3.6×
agent throughput
Achieving 1.5 to 3.6x higher serving throughput for agent workloads, with three lines of code to adopt. Parallel agent workloads stop collapsing under load, and the fix is not a faster model.
The problem is the inference engine has no idea it is running an agent. It treats each step of a multi-turn workflow as an isolated request, inflating latency by up to 7.14x under load. ThunderAgent makes the workflow itself a first-class object the scheduler can reason about end to end. Alongside the throughput gain, it delivers 1.8 to 3.9x faster RL rollouts and up to 4.2x disk savings over state-of-the-art systems.
*Authors: Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora. With collaborators at Georgia Tech, CMU, and UIUC.*
Paper: arXiv:2602.13692
Paper 3
Learning to Discover at Test Time (TTT-Discover)
Beats best human
open model, ~$500
State-of-the-art discoveries across four fields, mathematics, GPU kernels, competitive algorithms, and biology, all with open models. Every prior result at this level relied on closed frontier models behind an API you cannot inspect or run. TTT-Discover reaches it with an open 120B model and one unchanged method, for a few hundred dollars per problem.
The usual recipe for AI discovery is search: prompt a frozen model thousands of times and keep the best sample. TTT-Discover instead runs reinforcement learning at test time on the single problem in front of it, so every attempt becomes training data for the next one and the model improves as it works, and with the same sampling budget plain best-of-N never catches up. The same setup, unchanged, set a tighter bound on a 60-year-old Erdős problem in mathematics (past the previous AI record, which used closed models), discovered a GPU kernel faster than the best prior submission on the GPUMode leaderboard, produced a first-place-level finish on a competitive-programming contest, and set a new high on a single-cell denoising benchmark in biology, all on the open gpt-oss-120b. The code and the record-setting kernels are public.
*Authors: Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun. With collaborators at Stanford, NVIDIA, UC San Diego, and the Astera Institute.*
Paper: arXiv:2601.16175
Model shaping
How you train and shape a model: reasoning, fine-tuning, and reinforcement learning.
Paper 4
Escaping the Verifier: Learning to Reason via Demonstrations (RARO)
25% vs 5.9%
vs experts · no verifier
A 25% win rate against expert responses, versus 5.9% for supervised fine-tuning, with no verifier at all. You can get RL-grade reasoning on tasks that have no checker, like poetry writing or financial analysis, not just math and code.
RL-based reasoning normally assumes a verifier that can score correctness. RARO (Relativistic Adversarial Reasoning Optimization) replaces it with an adversarial game: one model acts both as a policy that produces expert-quality answers and as a relativistic critic, which learns to pick a better response of the two. Pairwise comparison with a tie option is key for training stability. On Countdown, RARO reaches 54.4% accuracy versus 57.7% for RL with a ground-truth verifier despite not using one; by contrast, SFT or iterative DPO do not go beyond 40.7%. The learned critic can double as a test-time reranker that lifts DeepMath from 57.5% to 68.4% at 7B.
*Authors: Locke Cai, Max Ryabinin, Ivan Provilkov *
Paper: arXiv:2511.21667
Paper 5
V1: Unifying Generation and Self-Verification for Parallel Reasoners
+10%
Pass@1 · same compute
Up to 10% more correct answers, pulled from generations you already paid for. The win is better answer selection, not more compute.
When you sample many answers with no oracle, scoring each one independently fails, the judge hands almost everything a 10 out of 10 and loses the ability to discriminate. V1 reframes selection as comparison through a near-linear Swiss-tournament verifier. The training recipe, V1-PairRL, teaches a single model to generate and to pairwise-verify its own outputs at the same time, which lifts base accuracy even with no test-time verification at all.
*Authors: Harman Singh, Xiuyu Li, Kusha Sareen, Monishwaran Maheswaran, Sijun Tan, Xiaoxia Wu, Junxiong Wang, Alpay Ariyak, Qingyang Wu, Samir Khaki, Rishabh Tiwari, Long Lian, Yucheng Lu, Boyi Li, Alane Suhr, Ben Athiwaratkun, Kurt Keutzer. With collaborators at UC Berkeley, NVIDIA, and Mila.*
Paper: arXiv:2603.04304
Algorithmic optimizations
Making the math of inference cheaper: speculative decoding, quantization, RL inference.
Paper 6
When RL Meets Adaptive Speculative Training: A Unified Training-Serving System (Aurora)
1.25×
as traffic shifts
A 1.5x day-0 speedup on brand-new frontier models like MiniMax M2.1 229B and Qwen3-Coder-Next 80B, plus an additional 1.25x over a strong static speculator as traffic shifts. Speculative decoding that is fast on day 0 and keeps getting faster the longer it runs.
Most deployments train the speculator offline and freeze it, so it is slow to deploy and goes stale as traffic and target models change. Aurora reframes online speculator learning as an asynchronous reinforcement-learning problem running in production: accepted and rejected tokens are the reward signal, the training server updates the speculator continuously, and new weights hot-swap into the server with zero downtime.
*Authors: Junxiong Wang, Fengxiang Bie, Jisen Li, Zhongzhu Zhou, Zelei Shao, Yubo Wang, Yinghui Liu, Qingyang Wu, Avner May, Sri Yanamandra, Yineng Zhang, Ce Zhang, Tri Dao, Percy Liang, Ben Athiwaratkun, Shuaiwen Leon Song, Chenfeng Xu, Xiaoxia Wu.*
Paper: arXiv:2602.06932
Systems optimizations
The systems that train and serve models: disaggregation, batching, scheduling, context parallelism.
Paper 7
Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking
5M tokens
one node · ~87.5% mem
5M-token context training on a single 8xH100 node, with up to 87.5% less attention memory. You can train at a very long context without a bigger cluster.
Activation memory inside the attention layer caps long-context training, and adding GPUs does not move that ceiling. UPipe processes a few attention heads at a time and reuses the same buffers across stages, cutting peak attention memory by up to 87.5% on a 32B Transformer. The result is 5M tokens on one node, about 25% beyond prior methods, and 8M tokens on two nodes, while matching their throughput. It is a drop-in replacement for DeepSpeed-Ulysses on the same FlashAttention-3 kernels, and the code is open.
*Authors: Ravi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin.*
Paper: arXiv:2602.21196
Paper 8
Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining (OEA)
up to 39%
faster MoE decode
Up to 39% lower MoE decode latency, with no retraining and no architecture change. You reclaim the sparsity that batching quietly destroys, for free.
A Mixture-of-Experts model is supposed to be cheap because each token touches only a few experts, but the moment you batch, that sparsity collapses: At batch size 16, a model where each token wants eight experts ends up loading around 82 of them. OEA's batch-aware routing recovers the sparsity at inference time in two phases, the second of which lets tokens share experts the batch has already loaded, buying back quality at zero latency cost. Accuracy holds flat across AIME24, GPQA, LiveCodeBench, and MATH 500, and there is a single hyperparameter to tune.
*Authors: Costin-Andrei Oncescu, Qingyang Wu, Wai Tong Chung, Robert Wu, Bryan Gopal, Junxiong Wang, Tri Dao, Ben Athiwaratkun. With collaborators at Harvard and Princeton.*
Paper: arXiv:2511.02237
By the numbers
1,000+ tasks
10+ domains, one API
DSGym
Up to 3.6×
agent throughput
ThunderAgent
Beats best human
open model, ~$500
TTT-Discover
25% vs 5.9%
vs experts · no verifier
RARO
+10%
Pass@1 · same compute
V1
1.25×
as traffic shifts
Aurora
5M tokens
one node · ~87.5% mem
Untied Ulysses
Up to 39%
faster MoE decode
OEA
Where to find us in Seoul
All eight papers are at ICML 2026, July 6 to 11, in Seoul. Stop by booth B714 to dive deeper into the work.
Together AI @ ICML 2026
COEX, Seoul · July 6 to 11Booth B714 · all week
PaperDate & time · Seoul KSTPoster
**Frontier agents
**DSGym
Thu 7/9 · 2:30 PM – 4:15 PM
#66567
**ThunderAgent
Tue 7/7 · 10:30 AM – 12:15 PM
#62040
**TTT-Discover
Tue 7/7 · 5:00 PM – 6:45 PM
#62199
**Model shaping
**RARO
Thu 7/9 · 10:30 AM – 12:15 PM
#61507
**V1
Thu 7/9 · 5:00 PM – 6:45 PM
#64825
**Algorithmic optimizations
**Aurora
Thu 7/9 · 10:30 AM – 12:15 PM
#66675
**Systems optimizations
**Untied Ulysses
Thu 7/9 · 5:00 PM – 6:45 PM
#66102
**OEA
Wed 7/8 · 10:30 AM – 12:15 PM
#62958
We will also be at our booth all week. Stop by to:
- Talk through any of the eight papers with the people who wrote them
- See how this research shows up in the Together platform, from fine-tuning to production inference
- Meet the team and hear what we are working on next
Come build this with us
We are hiring researchers and research engineers who want to work across the whole stack, not just one layer of it. See open roles attogether.ai/careers, or come find us at the booth.
For everyone else:request a meeting in Seoul, browse the fullresearch blog, and follow along on X at [@togethercompute] as the deep dives land across the conference.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み