Building the foundation for running extra-large language models｜超大規模言語モデル実行の基盤構築 | AIニュース最前線

2025年のバースデーウィーク中にお伝えした通り、Cloudflareには機械学習モデルを高速化する独自の推論エンジン「Infire」があります。InfireはRustで記述された推論エンジンで、当社の分散型グローバルネットワークにおける推論の特有の課題に対応するよう設計されています。今回、実行を計画している新たなクラスの大規模言語モデルに対してInfireのサポートを拡張しましたが、これはすべてを機能させるためにいくつかの新機能を構築する必要があったことを意味します。 マルチGPUサポート Kimi K2.5のような大規模言語モデルは1兆以上のパラメータを持ち、これは約560GBのモデル重みに相当します。典型的なH100は約80GBのVRAMを搭載しており、モデルを実行するにはその重みをGPUメモリにロードする必要があります。つまり、Kimi K2.5のようなモデルをメモリにロードして実行するには、少なくとも8台のH100が必要です。これは、コンテキストウィンドウを含むKVキャッシュに必要な追加のVRAMはまだ考慮していません。 Infireを最初にローンチして以来、マルチGPUのサポートを追加する必要がありました。これにより、推論エンジンはパイプライン並列またはテンソル並列モードで複数のGPUにまたがって実行できるようになり、エキスパート並列性もサポートされています。 パイプライン並列性については、Infireはパイプラインの全段階のロードバランスを適切に調整し、ある段階のGPUが他の段階の実行中にリソース不足にならないようにします。一方、テンソル並列性については、InfireはGPU間通信の削減を最適化し、可能な限り高速化します。ほとんどのモデルでは、パイプライン並列性とテンソル並列性を併用することで、スループットとレイテンシの最適なバランスが得られます。 より低いメモリオーバーヘッド vLLMよりもはるかに低いGPUメモリオーバーヘッドを既に実現していますが、Infireをさらに最適化し、活性化のような内部状態に必要なメモリを削減しました。現在、Infireはわずか2台のH200 GPUでLlama 4 Scoutを実行可能で、KVキャッシュ用に56 GiB以上が残り、120万トークン以上に十分です。Infireはまた、8台のH100 GPU（そうです、H100です）でKimi K2.5を実行可能で、KVキャッシュ用に30 GiB以上がまだ利用可能です。どちらの場合でも、vLLMではそもそも起動することさえ困難でしょう。 より高速なコールドスタート マルチGPUサポートを追加する過程で、起動時間を改善する追加の機会を特定しました。Kimi K2.5のような最大規模のモデルであっても、Infireは20秒未満でリクエストの処理を開始できます。ロード時間はドライブ速度によってのみ制限されます。 ハードウェアを最大限活用してスループットを高速化 独自の推論エンジンに投資することで、制約のないシステムではトークン毎秒スループットを最大20%向上させることができます。また、以前は完全に実行不可能だった最新モデルをローエンドハードウェアで実行できるようにすることで、当社のハードウェアを最大限に活用できます。 旅は終わらない 機械学習コミュニティでは、新技術、研究、モデルが毎週のように登場しています。当社は、GPUを効率的に運用しながら、お客様に高品質で高性能な推論を提供するために、技術スタックを継続的に最適化しています。これらがあなたにとって興味深い課題に聞こえるなら、当社は採用中です！

超大規模言語モデル実行の基盤構築

背景や根拠まで確認しますか？

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

ニュースの次に確認する

調べる

選ぶ

サイト