Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms｜オープンウェイト「Kimi K2.6」がエージェント群でGPT-5.4とClaude Opus 4.6に挑戦 | AIニュース最前線

Moonshot AIはKimi K2.6をオープンウェイトモデル（open-weight model）としてリリースした。コーディングベンチマーク（coding benchmarks）においてGPT-5.4やClaude Opus 4.6と互角の性能を発揮するように設計されており、最大300のエージェントを並列実行可能だ。 Moonshot AIによると、K2.6は複数のベンチマークで最高スコアを記録し、GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proと同等の水準に達している。具体的な数値としては、HLE with Toolsで54.0、SWE-Bench Proで58.6、BrowseCompで83.2をマークしている。このモデルはRust、Go、Pythonなどの言語において、4,000回以上のツール呼び出し（tool calls）をチェーンで実行し、12時間以上連続稼働することも可能だ。 コーディングやエージェントベンチマーク（agent benchmarks）ではOpenAI、Anthropic、Googleのトップモデルと肩を並べるKimi K2.6だが、純粋な推論やビジョン（画像認識）の分野ではやや劣る。| 画像提供: Kimi 並列動作する300のエージェント 目玉機能はAgent Swarm（エージェントスウォーム）で、最大300のサブエージェント（sub-agents）を同時に実行でき、各エージェントは4,000ステップの処理を行う。システムはタスクを自動的にサブタスクに分割し、専門的なエージェントへ引き渡す。Moonshot AIによると、これらのエージェントはウェブ調査（web research）、ドキュメント分析（document analysis）、文章作成などのスキルを組み合わせ、単一のランで文書、ウェブサイト、スライド資料（slide decks）、スプレッドシートなどの完成品を生成することを意図している。以下に例を示す： 「claw groups」と呼ばれるプレビュー機能により、複数のエージェントと人間がチームとして連携して作業できる。K2.6は調整役を務め、各エージェントの得意分野に基づいてタスクを割り当て、エラーが発生したり処理が停滞したりした際には介入して対応する。 また、K2.6はテキストプロンプト（text prompts）から直接、アニメーションやデータベース接続を備えた完全なウェブサイトも構築可能だ。視覚的な一貫性を保つため、画像生成や動画生成のツールも組み込む。Moonshot AIは、このモデルがフロントエンド作業（front-end work）にとどまらず、ユーザー登録、データベース操作、セッション管理（session management）などの基本的なフルスタックタスク（full-stack tasks）も処理できると説明している。 K2.6は、ほぼ無制限の自由な利用を認める修正MITライセンス（modified MIT license）の下で提供されるが、条件が一つある。月間アクティブユーザー（monthly active users）数が1億人以上、または月間収益が2,000万ドルを超える商用製品でこのモデルを展開する場合は、ユーザーインターフェース上で「Kimi K2.6」を明記したクレジット表示が義務付けられる。 このモデルは、kimi.com上でチャットモードおよびエージェントモードで利用可能であり、Kimi Codeを通じてコーディングツールとしても提供され、API経由でのアクセスやHugging Faceでのオープンソースダウンロード（open source download）にも対応している。 過大評価を排したAIニュース – 人間が厳選 THE DECODERへの購読で、広告なしの閲覧、週刊AIニュースレター、年6回の限定「AI Radar」フロンティアレポート、アーカイブ全件へのアクセス、コメント欄への参加が可能になる。 今すぐ購読する

オープンウェイト「Kimi K2.6」がエージェント群でGPT-5.4とClaude Opus 4.6に挑戦

背景や根拠まで確認しますか？

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

ニュースの次に確認する

調べる

選ぶ

サイト