Together AI Blog の最新記事

公式

20件の記事

分布認識型推論特定デコーディングでRLロールアウトを最大50%高速化

強化学習のポストトレーニングにおけるボトルネック「ロールアウト」を、適応型推論特定デコーディング（DAS）により最大50%高速化する。この手法は報酬品質の低下なしに処理速度を向上させる。

Together AI Blog·4月24日·★★★★

AIネイティブチームのためのマルチテナントGPUクラスター設計ガイド：競合のない容量確保

Together AIは、チームの分離を損なうことなくGPUリソースを共有するマルチテナントクラスターの設計手法を実践例とともに解説している。

Together AI Blog·4月21日

Parcae：安定したループモデルで少ないパラメータでより多くのことを実現

Parcaeは、Transformerの2倍のサイズに匹敵する品質を持つ安定したループ言語モデルです。7.7億パラメータのモデルが13億レベルのパフォーマンスを実現し、ループ回数の増加が計算効率の高いスケーリング法則であることを示しました。

Together AI Blog·4月15日·★★★★

EinsteinArena：野生のエージェント集団知能を活用して科学を進展させる

EinsteinArenaは、AIエージェントが数学問題で協力・競争するプラットフォーム。同プラットフォームのエージェントは11件の新記録を樹立し、次元11の kissing number の下限を593から604に引き上げた。

Together AI Blog·4月13日

AIネイティブクラウドとは何か

AI企業は既存のワークロードではなく、モデル用に構築されたインフラを必要とする。本記事はAIネイティブクラウドの定義と、次なるプラットフォームシフトにおいてそれがなぜ重要かを解説する。

Together AI Blog·4月7日

Together AIでWan 2.7動画モデルスイートが利用可能に

Together AIは、テキストから動画生成や編集など4つの機能を持つWan 2.7モデルスイートを公開した。まずテキストから動画生成機能が提供され、継続や参照駆動ワークフローなどの機能も順次展開される。

Together AI Blog·4月3日

システム向けAI：LLMを用いたデータベースクエリ実行の最適化

新研究により、大規模言語モデル（LLM）が統計ヒューリスティックが見逃す基数推定エラーを修正し、データベースクエリの実行計画を最適化できることが示された。これにより最大4.78倍の高速化が実現する。

Together AI Blog·4月3日

Deepgramの音声認識・生成モデルがTogether AIでネイティブ利用可能に

Deepgramの音声テキスト変換（STT）およびテキスト読み上げ（TTS）モデルが、Together AIの専用推論インフラ上でリアルタイム音声エージェント向けに利用可能となった。

Together AI Blog·4月2日

Together AIのカーネルチーム内覧

Together AIのカーネル研究チームは、FlashAttentionやThunderKittensの開発者であり、GPUハードウェアと本番環境のAIとの間のギャップを埋める役割を果たしている。

Together AI Blog·4月1日

Aurora：推論効率を向上させるオープンソース強化学習フレームワーク

Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。

Together AI Blog·3月31日

計画、分割、征服：弱モデルが長いコンテキストタスクで優れる理由

研究者らは、計画者・ワーカー・マネージャーによる「分割統治」フレームワークを開発した。これにより、Llama-3-70BやQwen-72Bといった比較的小さなモデルが、GPT-4oの単一ショット推論を上回る性能を発揮し、長大なコンテキスト処理におけるLLMの劣化問題を解決した。

Together AI Blog·3月26日

Together AI、ツール呼び出し・推論・ビジョン対応のファインチューニングサービスを拡大

Together AIは、ツール呼び出し、推論、ビジョン言語モデルのネイティブサポートを追加し、100B以上のモデルトレーニングに対応するファインチューニングサービスを拡大した。処理速度は最大6倍向上し、ジョブコストと所要時間の見積もり機能も提供している。

Together AI Blog·3月18日

Mamba-3：推論専用SSMの登場

Mambaチームは、推論に特化した状態空間モデル「Mamba-3」を発表した。このモデルはTransformerよりデコード速度が速く、前版Mamba-2よりも性能が高い。また、初日からオープンソースとして公開されている。

Together AI Blog·3月17日

Together AI、NVIDIA GTC 2026で最新イノベーションを発表

Together AIはNVIDIA GTC 2026にて、推論、エージェント、音声AI、オープンモデルの新規リリースを発表する。同社の研究・エンジニアリングリーダーによる技術セッションも実施される。

Together AI Blog·3月16日

Together AIでリアルタイム音声エージェントを構築

Together AIは、STT、LLM、TTSを一体化したインフラを提供し、DeepgramやCartesiaとのネイティブ連携により、500ms未満の低遅延でリアルタイム音声エージェントの実装を可能にする。

Together AI Blog·3月12日

Together AI、開発者向けにNVIDIA Nemotron 3を即日提供

Together AIは、NVIDIAの「Nemotron 3 Super」モデルを専用推論サービスで提供開始した。このモデルは100万トークンのコンテキストウィンドウとマルチエージェント推論機能を備え、管理インフラ上で本番環境レベルのデプロイを可能にする。

Together AI Blog·3月11日

Together GPUクラスターの新機能：自動スケーリング、可観測性、自己修復

Together GPU Clustersは、自動スケーリング、RBAC、フルスタック可観測性、ノード自己修復機能を搭載し、効率的なスケーリングと堅牢性を提供。これにより、チームは共有エンタープライズワークロードに対応する本番環境対応のGPUインフラを構築できる。

Together AI Blog·3月10日

AIネイティブカンファレンスにおける主要な研究と製品発表

Together AIはAI Native Confで、FlashAttention-4やThunderAgentなどの新技術を発表し、カーネル、強化学習、推論最適化における突破を示した。これらは実用化された研究であり、AI Native Cloudの基盤を形成している。

Together AI Blog·3月5日

FlashAttention-4：非対称ハードウェア拡張のためのアルゴリズムとカーネルパイプラインの協調設計

FlashAttention-4は、GPUスループットとメモリ帯域の乖離に対応するため、最大重なりを実現するパイプライン、共有メモリトラフィックを削減する2-CTA MMAモード、およびソフトマックス指数演算のハードウェア・ソフトウェアハイブリッド方式を採用した。

Together AI Blog·3月5日

最大40%高速化を実現するキャッシュ対応プリフィル・デコード分離（CPD）

Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。

Together AI Blog·3月4日