Grok-1.5の発表
推論能力が向上し、128,000トークンのコンテキスト長を持つGrok-1.5が、まもなく𝕏で利用可能になります。
キーポイント
Grok-1.5は128,000トークンの長文脈処理能力を実装し、従来比16倍のメモリ容量を実現
数学・コーディングベンチマークで大幅な性能向上(MATH:50.6%、GSM8K:90%、HumanEval:74.1%)
JAX/Rust/Kubernetesベースの分散トレーニング基盤で信頼性の高い大規模学習を実現
Xプラットフォームで早期テスター向けに近日中にリリース予定
影響分析・編集コメントを表示
影響分析
xAIが公開したGrok-1.5は、長文脈処理能力と数学・コーディング性能の大幅向上により、競合LLMとの差別化を図っている。特に128Kトークンの文脈長は実用的な長文ドキュメント処理への応用可能性を示し、企業向けAI市場での競争力を強化する戦略的リリースと言える。
編集コメント
オープンソース化したGrok-1からわずか2週間での性能向上版発表は、xAIの開発スピードの速さを印象付ける戦略的リリース。ベンチマーク結果の詳細開示は透明性をアピールする意図が見える。
xAI、新モデル「Grok-1.5」を発表:高度な推論能力と長文脈処理を実現
xAIは2024年3月28日、新たな大規模言語モデル「Grok-1.5」の発表を行った。この最新モデルは、高度な推論能力と長文脈理解を特徴とし、近日中に𝕏(旧Twitter)プラットフォーム上の既存Grokユーザー及び早期テスターに提供を開始する予定である。
Grok-1.5の主な向上点は以下の通りである。
第一に、推論能力、特に数学とコーディングタスクにおける性能が大幅に向上している。ベンチマークテストでは、小中学校から高校の競技問題まで幅広くカバーする数学テスト「MATH」で50.6%、同様の算数問題集「GSM8K」では90%のスコアを達成した。また、コード生成と問題解決能力を評価する「HumanEval」では74.1%のスコアを記録している。
第二に、文脈長(コンテキスト長)が128,000トークンに拡大した。これは前モデルと比較して最大16倍の情報量を扱えることを意味し、はるかに長い文書から情報を利用できるようになった。この長文脈処理能力は、「Needle In A Haystack(NIAH)」評価において、12万8千トークンの長い文脈中に埋め込まれたテキストを完璧に検索・回収する能力として実証されている。さらに、文脈ウィンドウが拡大しても、複雑で長いプロンプトを処理しつつ、指示に従う能力を維持している。
第三に、この高性能モデルを支える堅牢で柔軟なインフラストラクチャーが構築されている。Grok-1.5は、JAX、Rust、Kubernetesを基盤としたカスタム分散トレーニングフレームワーク上で構築された。このトレーニングスタックにより、大規模GPUクラスター上での効率的な研究開発とトレーニングが可能となっている。特に、大規模計算クラスターでのLLMトレーニングにおける重大な課題である信頼性と稼働時間の最大化のために、問題のあるノードを自動検出・排除するオーケストレーターや、チェックポイント、データローディング、再起動を最適化し、ダウンタイムを最小化する仕組みが導入されている。
xAIは約2週間前に前モデル「Grok-1」のモデルウェイトとネットワークアーキテクチャを公開し、昨年11月までの進歩を示していた。Grok-1.5はその後の開発の成果であり、早期テスターからのフィードバックを受けながら改良を重ね、より広いユーザー層への段階的展開と、今後数日間での新機能の追加を計画している。
原文を表示
Announcing Grok-1.5 | xAIMarch 28, 2024Announcing Grok-1.5
Grok-1.5 comes with improved reasoning capabilities and a context length of 128,000 tokens. Available on 𝕏 soon.
Introducing Grok-1.5, our latest model capable of long context understanding and advanced reasoning. Grok-1.5 will be available to our early testers and existing Grok users on the 𝕏 platform in the coming days.
By releasing the model weights and network architecture of Grok-1 two weeks ago, we presented a glimpse into the progress xAI had made up until last November. Since then, we have improved reasoning and problem-solving capabilities in our latest model, Grok-1.5.
One of the most notable improvements in Grok-1.5 is its performance in coding and math-related tasks. In our tests, Grok-1.5 achieved a 50.6% score on the MATH benchmark and a 90% score on the GSM8K benchmark, two math benchmarks covering a wide range of grade school to high school competition problems. Additionally, it scored 74.1% on the HumanEval benchmark, which evaluates code generation and problem-solving abilities.
A new feature in Grok-1.5 is the capability to process long contexts of up to 128K tokens within its context window. This allows Grok to have an increased memory capacity of up to 16 times the previous context length, enabling it to utilize information from substantially longer documents.
Furthermore, the model can handle longer and more complex prompts, while still maintaining its instruction-following capability as its context window expands. In the Needle In A Haystack (NIAH) evaluation, Grok-1.5 demonstrated powerful retrieval capabilities for embedded text within contexts of up to 128K tokens in length, achieving perfect retrieval results.
Cutting-edge Large Language Model (LLMs) research that runs on massive GPU clusters demands robust and flexible infrastructure. Grok-1.5 is built on a custom distributed training framework based on JAX, Rust, and Kubernetes. This training stack enables our team to prototype ideas and train new architectures at scale with minimal effort. A major challenge of training LLMs on large compute clusters is maximizing reliability and uptime of the training job. Our custom training orchestrator ensures that problematic nodes are automatically detected and ejected from the training job. We also optimized checkpointing, data loading, and training job restarts to minimize downtime in the event of a failure. If working on our training stack sounds interesting to you, apply to join the team.
Grok-1.5 will soon be available to early testers, and we look forward to receiving your feedback to help us improve Grok. As we gradually roll out Grok-1.5 to a wider audience, we are excited to introduce several new features over the coming days.
Note that the GPT-4 scores are taken from the March 2023 release. For MATH and GSM8K, we present maj@1 results. For HumanEval, we report pass@1 benchmark scores.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み