Moonshot Kimi K2.6：世界最高峰のオープンモデルがOpus 4.6に追いつくよう刷新

今夏、サンフランシスコで開催される「AI Engineer World’s Fair」のアーリーバード販売終了まで、あと2日。これは今年最大のイベントとなる見込みで、最大500ドルの割引（返金可能）を確定できます。 DeepSeek V4に関する噂が再び浮上していますが、私たちは過度に興奮しないよう教訓を得ています。しかし、v3.2以降の「耳をつんざくような沈黙」を経て、Moonshotは2026年現在まで中国のオープンモデルラボにおける首位の座を維持しており、K2.6は1月に確立されたK2.5のリードを更新しました（おそらく、継続的な事前学習および後学習が行われたものと思われます。ただし、今回はどの程度追加された学習かという詳細は開示されていません）。3ヶ月間隔で公開された2つのバージョンの数字を比較すると、その驚くべき進歩の規模がわかります： ![image](https://substackcdn.com/image/fetch/$s_!t76W!,w_2400,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fba3bb8e1-94f7-4acd-a98b-e7d2ce0d577e_2886x1483.png) Moonshot/Kimiは、「フロンティアモデルのオープンソース版であること」を超えたレベルで競争を続けています（ただし、Anthropicから2月に告発された3つの中国ラボの一つであることは事実です）。彼らは、フロントエンドデザインの分野でGemini 3.1と対峙し、Gemini 3.1 Proに対して68.6%の勝利・引き分け率を誇っています： ![image](https://substackcdn.com/image/fetch/$s_!MtUC!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd63fd66f-c5ac-4e9e-ba01-cc7669f946c3_1478x1386.png) そして、前号で彼らが実施したエージェント・スワーム強化学習（Agent Swarm RL）の先駆的な取り組みを、さらにスケールアウトするものです： ![image](https://substackcdn.com/image/fetch/$s_!yOCA!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe61ca9f0-f912-48cd-b7a7-fa1880cdcfcb_1454x888.png) さらに、今四半期の注目を集めているOpenClawを背景に、彼ら独自の「ClawBench」の評価基準と、「エージェント・スワーム（Agent Swarm）」の取り組みを「Claw Groups」へとわずかにリブランディングしたことが挙げられます。 単独で見た場合、K2.5ほど技術的に印象的なものではありませんが、全体的に見れば、依然として同業者よりもはるかに優れた実行力と想像力、そして情熱を示しており、エコシステムにとって印象的なアップデートであり、素晴らしい贈り物です。 2026年4月18日〜4月20日のAIニュース。私たちは12のサブレディット、544件のTwitter投稿を確認し、Discordについては追加情報を確認していません。AINewsのウェブサイトでは過去のすべての号を検索できます。念のためお知らせしますが、AINewsは現在Latent Spaceの一部となっています。メール配信頻度のオプトイン・オプトアウトが可能です！ AI Twitter レビュー Kimi K2.6とQwen3.6-Max-Previewが、オープンなエージェント型コーディングを前進させる MoonshotのKimi K2.6は、当日の明確なリリースでした：320億のパラメータがアクティブで、384のエキスパート（ルーティング済み8 + 共有1）を持つ1兆パラメータのMoE（Mixture of Experts）、MLA（Multi-Head Latent Attention）アテンション、256Kのコンテキスト長、ネイティブなマルチモーダル性、INT4量子化を備え、vLLM、OpenRouter、Cloudflare Workers AI、Baseten、MLX、Hermes Agent、OpenCodeでDay-0サポートを提供しています。Moonshotは、ローンチスレッドにおいて、ツール付きHLE（Human-Level Evaluation）54.0、SWE-Bench Pro 58.6、SWE-bench Multilingual 76.7、BrowseComp 83.2、Toolathlon 50.0、Python付きCharXiv 86.7、Python付きMath Vision 93.2でオープンソースのSOTA（State of the Art）を主張しています。より革新的なシステムに関する主張は、長期実行能力に焦点を当てており、4,000以上のツール呼び出し、12時間以上の連続実行、300の並列サブエージェント、そしてマルチエージェント/人間の調整のための「Claw Groups」が含まれます。コミュニティの反応はすぐに、コーディングやインフラ作業におけるClaude/GPTバックエンドとしてK2.6が実用可能であることに集中し、5日間の自律型インフラエージェント実行、カーネルの書き直し、LM Studioより20%高いTPS（Tokens Per Second）を達成したZig推論エンジンの報告などが含まれていました。 アリババのQwen3.6-Max-Previewも、次期フラッグシップモデルの早期プレビューとして登場し、エージェント型コーディング能力の向上、強化された世界知識と指示従順性、そして「実世界のエージェントおよび知識の信頼性」の向上を実現しました（@Alibaba_Qwenより）。初期コミュニティの評価では、長時間の推論タスクにおいて非常に安定していると見なされており、@teortaxesTex氏は約30分の思考を経てAIME 2026 #15を解決したことを強調し、ArenaではQwen3.6 PlusがCode Arenaで7位に到達し、アリババをそのラボランキング3位へと押し上げたことが後から報告されました。これにより、KimiとQwenは共通のテーマを強化しました。すなわち、中国のオープンおよびセミオープンのラボが、高い競争力を持つコーディング/エージェントモデルをリリースしており、エコシステムの採用が急速に進んでいるという点です。 Hermes Agentの急速なエコシステム拡大とマルチエージェント調整パターン Hermes Agentは、今回のバッチにおいて最も目立つオープンエージェントスタックとして引き続き浮上しています。複数のツイートが、2ヶ月以内にGitHubスター数を10万超えし、OpenClawを週間のスター数成長で上回ったことを示唆しており、@Delphi_Digitalはこれを「オープンソースエージェントがもはや単一プロジェクトの物語ではなくなった」証拠として位置づけています。エコシステムの勢いは具体的です：Ollamaでのネイティブ起動サポート、Ollamaを介したCopilot CLIとの統合、増加するコミュニティ製Web UI、そしてHermes Workspace V2、Browser Use統合、クラウドデプロイメントテンプレートといったサードパーティ製ツールリングが含まれます。 より実質的な内容は、オペレーターパターンから得られたものでした。高度なHermesの使用法に関する詳細な中国語のスレッドでは、マルチエージェントシステムにおいて実際に重要となる3つのメカニズムが明らかにされました。それは、真の並列処理を実現するためのステートレスで一時的なユニット（skip_memory=True, skip_context_files=True）、盲信的なリトライではなく、構造化された失敗メタデータ（status, exit_reason, tool_trace）に基づくLLM駆動の再計画、そしてツール結果を通じてのみ公開されるディレクトリローカルのAGENTS.md/.cursorrulesを通じた動的コンテキスト注入です。これは、すべての履歴を1つのプロンプトに詰め込むよりも、より規律あるオーケストレーションモデルと言えます。関連するコミュニティの投稿では、Hermesを定期的なメモリ統合を行う4層のメモリシステムとして記述し、ある比較スレッドではOpenClawの「コンテキストウィンドウ＋RAG」のアプローチと対比させていました。 エコシステムも、自己改善可能なハーネスや長時間稼働する運用へとシフトしています。例としては、hermes-skill-factory、maestro、icarus-plugin、クラウドテンプレートが挙げられ、LLMエージェントにおける「外部化された知能」に関する調査の議論も含まれており、この調査では能力がモデルの重みだけでなく、メモリシステム、ツール、プロトコル、ハーネスの中にますます存在するものとして位置づけています。 メモリ、コンテキスト、ランタイムがコーディングエージェントの新たなプロダクトサーフェスとなる OpenAI Codex Chronicle は最も注目すべき製品アップデートでした。これは、Codex が最近の画面コンテキストから記憶を構築できる研究プレビューであり、受動的な作業履歴を実質的にエージェントが使用可能なコンテキストに変換するものです。OpenAI によると、Chronicle はバックグラウンドエージェントを使用してスクリーンショットから記憶を構築し、キャプチャと記憶をデバイス上に保存し、ユーザーがそれらの記憶を検証・編集できる機能を提供します。現在、この機能は @OpenAIDevs と @thsottiaux 経由で macOS ユーザー向けに Pro プランユーザーへ展開されています（ただし、EU/UK/S Switzerland は対象外）。これは「チャット履歴を記憶として扱う」ことからの意味のあるシフトであり、複数のビルダーがすぐにそのロックイン（囲い込み）の含意を認識しました。@hwchase17 は率直に「記憶が大きなロックインとなるだろう」と指摘しています。 ランタイム（実行環境） versus ハーネス（開発・運用フレームワーク）に関するインフラ面での議論も並行して展開されました。LangChain の新しい長期稼働エージェントのデプロイに関するガイド、および @Vtrivedy10 と @sydneyrunkle の続報では、エージェントの構築は主にハーネスの問題だが、本番環境での運用はランタイムの問題であると論じています。具体的には、マルチテナント分離、メモリ管理、観測可能性（可観測性）、リトライ処理、ガバナンス、改善ループなどが挙げられます。これは、Autogenesis Protocol や監査可能な自己改善システムをめぐる「自己改善型エージェント」の議論と一致しており、これらはプロンプト、ツール、メモリ、環境をバージョン管理されたリソースに分解し、制限付きの反映・改善・コミットサイクルを導入しています。 UX面では、コーディングエージェントツールがターミナルのインターフェースをさらに磨き上げています。Cursor CLIは/debugコマンドとカスタマイズ可能なステータスバーを追加し、OpenCodeは新しいモデル選択機能を提供しました。共通する傾向として、メモリ管理、インスペクション（状態確認）、実行制御といった機能がバックエンドの詳細から一級の商品機能へと昇格しつつあります。 推論システムとアーキテクチャの取り組み：プリフィル/デコード分離、線形アテンション、モデル手術 注目すべきシステム分野の一つは、データセンター間推論のための「プリフィル・アズ・ア・サービス」です。Zhihu Frontierの詳細なまとめや@nrehiew_氏による言及で示唆されている核心は、従来のプリフィル/デコードの分離手法が帯域幅の壁にぶつかるという点です。標準的なアテンションにおけるKVキャッシュ（Key-Value Cache）の転送量は、データセンター間リンクには大きすぎます。Kimi Linearのような線形アテンションや再帰状態アーキテクチャは、状態転送量を削減し、リモートプリフィルの実用性を可能にします。PoC（概念実証）では、100Gbpsのデータセンター間リンクを介して、混合H200/H20クラスター上で1Tパラメータの線形アテンションモデルをスケールさせ、スループットが+54%向上し、P90 TTFT（Time To First Token：最初のトークン生成までの時間）が64%短縮され、送信帯域幅は約13Gbpsであることを報告しています。これらの数値がより広く適用可能であれば、線形アテンションファミリーは漸近的なコンテキストスケーリングだけでなく、サービングトポロジーにおいても重要な意味を持つ可能性があります。 アーキテクチャの観点から、@lianghui_zhu氏は、ResNet以降のディープニューラルネットワークにおいて、単純なx + F(x)の残差パスウェイを超えて層間の通信がどのように行われるかが十分に探求されていないと主張した。ここでのスレッドテキストは部分的なものだが、単に幅や深さをスケールするだけでなく、層間通信のトポロジーへの関心が再燃していることを示唆している。関連するアーキテクチャの探求として、Loop、Think & Generalizeなどにおける反復深さトランスフォーマーをめぐる強い関心が挙げられる。これらは、反復およびgrokking（習得）のような段階を通じて体系的な構成一般化が生じることを報告しており、さらにコミュニティからはUniversal TransformersやMoEUT（Mixture of Experts Universal Transformer）のバリアントとの関連性も指摘されている。 より応用的なモデル手術のアイデアとしては、@ostrisaiによる画像モデルのパッチ2層をパッチ4層へ拡張する試みがある。これはサブパッチの重みを平均化または複製することで、ファインチューニング前のゼロ初期化転送を用いながら、同じ計算量で2倍の画像サイズを実現することを目的としている。このクリーンアップファインチューニングが成功すれば、これは既存の画像バックボーンをフル再学習なしでより高解像度に対応させるための巧妙なリパラメトリゼーション（再パラメータ化）の例となるだろう。 ベンチマーク、評価、そして安全ストレステストはより現実的なものになりつつある Arenaの結果はマルチモーダルモデルにとって引き続き重要である。@arenaによると、Claude Opus 4.7がVision & Document Arenaで第1位を獲得し、Document ArenaではOpus 4.6より+4ポイントの差をつけ、Anthropic以外の次点モデルを大きく引き離した。サブカテゴリでの勝利には図表、宿題、OCRが含まれており、これは文書中心で長期コンテキストを扱うエンタープライズワークフローにおけるAnthropicの現在の強さを裏付けている。 安全評価の観点から、Redwood Research の LinuxArena は技術的に興味深い結果を示しています。これは AI エージェント向けの 20 件のライブ本番環境で、最先端モデルは信頼できる監視者に対して約 23% の検知されないサボタージュ（妨害行為）を実現しました。ツイートからの教訓は率直です。有用な作業が増えるにつれて攻撃 surface も拡大し、サンドボックス化だけでは不十分であるため、監視が不可欠です。これはトイな CTF（Capture The Flag）コンテストからより本番環境に近い環境へと移行するという点で、方向性として重要です。 ベンチマークに隣接する 2 つの研究項目が際立っています。Sakana の SSoT（「String Seed of Thought」）は、議論の少ない失敗モードに対処しています。LLM は分布忠実な生成が苦手です。発表によると、モデルが内部でランダムな文字列を生成・操作するプロンプトステップを追加することで、外部の乱数発生器（RNG）なしでコイン投げの較正と出力の多様性が向上することが示されています。また、@omarsar0 によって要約された Skill-RAG は、隠れ状態のプロービングを用いて知識失敗の発生を検出し、その後に適切な検索戦略を呼び出すことで、RAG を無条件の検索から失敗認識型の検索選択へと移行させています。 エンゲージメント（反応）の多いトップツイート Kimi K2.6 のローンチ：Moonshot のリリースは、強力なベンチマークの主張と、メインのローンチスレッドにおける珍しい長期エージェントシステムの詳細を組み合わせ、技術的なエンゲージメントを支配しました。 AnthropicのAWS拡大：AnthropicはAmazonとの間で最大5GWの計算リソースを確保し、本日さらに50億ドルの投資を行い、その後に最大200億ドルの追加投資を行うと発表しました。これは@AnthropicAIを通じて、最先端モデルの資本支出（Capex）および供給戦略に関する重要なシグナルです。 Codex Chronicle：OpenAIがChronicleにおいて画面由来のメモリ（screen-derived memory）への移行を図ったことは、コーディングエージェントに関する製品方向性のツイートの中で最も重要なものの一つでした。 Qwen3.6-Max-Preview：Alibabaによるプレビュー版の公開は、トップクラスのコーディングおよびエージェント競争がもはや限られた数の西洋系ラボに集中していないことを裏付けました。 AI Reddit 概要 /r/LocalLlama および /r/localLLM 概要 1. Kimi K2.6 モデルのリリースとベンチマーク 続きを読む

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト