Grok-1のオープンリリース
3140億パラメータのMixture-of-ExpertsモデルGrok-1の重みとアーキテクチャを公開しました。
キーポイント
xAIが3140億パラメータの大規模言語モデルGrok-1の重みとアーキテクチャを公開
Apache 2.0ライセンスでオープンソース化され、商用利用も可能
Mixture-of-Expertsモデルで、トークンごとに25%の重みのみ活性化
2023年10月に事前学習を完了したベースモデルで、特定タスク向けのファインチューニングは未実施
JAXとRustを基盤としたカスタムトレーニングスタックでゼロから学習
影響分析・編集コメントを表示
影響分析
大規模言語モデルのオープンソース化が進む中、3140億パラメータという超大規模モデルの公開は、研究コミュニティや企業によるAI開発の民主化を加速させる重要な一歩です。特にApache 2.0ライセンスでの公開は商用利用を可能にし、競争環境に新たな変数をもたらす可能性があります。
編集コメント
超大規模モデルのオープンソース公開は業界の競争構造を変える可能性があり、特に商用利用可能なライセンスでの公開は実用化への道筋を明確にしています。
オープンソース大規模言語モデル「Grok-1」の公開に関する要約
2024年3月17日、イーロン・マスク氏が創業した人工知能企業xAIは、自社開発した大規模言語モデル「Grok-1」の基盤モデルの重み(パラメータ)とアーキテクチャを一般公開した。このリリースは、高度なAI技術の透明性とオープンな発展を促進することを目的としている。
公開されたGrok-1の主要な技術的特徴は以下の通りである。
第一に、その規模の大きさで、パラメータ数は3140億に達する。第二に、モデル構造として「Mixture-of-Experts(専門家の混合)」方式を採用している。この方式では、入力されるトークン(単語片)ごとに、全パラメータのうち25%のみが活性化して処理を行う。これにより、膨大な規模のモデルでありながら、推論時の計算効率をある程度維持している。
第三に、このモデルは2023年10月にxAIが独自のトレーニングスタック(JAXとRustを基盤としたカスタム技術)を用いて、一から訓練を完了させた「基盤モデル」である点が強調されている。これは、会話や質問応答などの特定のタスクに最適化するための「ファインチューニング」が施されていない、生の状態のモデルであることを意味する。
公開の条件として、モデルの重みとアーキテクチャは「Apache 2.0」ライセンスの下で提供される。これは商用利用も含めた比較的寛容なオープンソースライセンスであり、研究者や開発者がモデルを自由に使用、改変、配布できることを示している。実際にモデルを使用するための具体的な手順は、GitHubリポジトリ(github.com/xai-org/grok)で公開されている。
このリリースの意義は、従来の大規模言語モデル開発が巨大企業の内部に閉じていた状況に対し、極めて大規模なモデルの設計詳細をオープンソースとして公開した点にある。これにより、学術界や独立した開発者コミュニティが、最先端レベルの大規模モデルの内部構造を検証し、安全性の研究やさらなる改良を加える道が開かれた。xAIは、責任あるAIの発展には透明性が不可欠であるとの立場から、このオープンリリースに踏み切ったとみられる。
原文を表示
Open Release of Grok-1 | xAIMarch 17, 2024Open Release of Grok-1
We are releasing the weights and architecture of our 314 billion parameter Mixture-of-Experts model Grok-1.
We are releasing the base model weights and network architecture of Grok-1, our large language model. Grok-1 is a 314 billion parameter Mixture-of-Experts model trained from scratch by xAI.
This is the raw base model checkpoint from the Grok-1 pre-training phase, which concluded in October 2023. This means that the model is not fine-tuned for any specific application, such as dialogue.
We are releasing the weights and the architecture under the Apache 2.0 license.
To get started with using the model, follow the instructions at github.com/xai-org/grok.
Base model trained on a large amount of text data, not fine-tuned for any particular task.
314B parameter Mixture-of-Experts model with 25% of the weights active on a given token.
Trained from scratch by xAI using a custom training stack on top of JAX and Rust in October 2023.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み