[AINews] Tasteful Tokenmaxxing｜【AIニュース】上品なトークン最大化 | AIニュース最前線

本日開催されているCloud Nextにおいて、Google TPUv8（トレーニングおよび推論イテレーション）が予想通り発表されました。その数値は目を疑うほど巨大ですが、それらは主に、過去10年間の投資によってGDM（Google DeepMind）とそのトレーニング・サービングするモデルが享受している圧倒的なハードウェア上の優位性を裏付けるものとなっています。 AIE Miamiが終了し（次はシンガポール！）この2日間、AIのリーダーシップ層（CTO、VP、創業者など）から私たちが聞いてきた主要な議論はすべて、「Tokenmaxxing（トークン最大化）」という概念、そしてチームにより多くのAIを活用させつつ、友人がAIEの基調講演で指摘したような恐ろしい無駄を助長するインセンティブを生み出さない方法についてのものでした。 「コンテキストエンジニアリング」および「ダムゾーン（The Dumb Zone）」の造語者であるDex Horthy氏は、6ヶ月前に非常に「バイブコーディング依存」的な主張を公に撤回し、「コードを読んでください」と呼びかけました。その理由として、AIE Europeで示されたZ/L連続体（Z/L continuum）を引用しています： ![image](https://substackcdn.com/image/fetch/$s_!4_2l!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fcb2b6f77-150d-4fb4-a74a-259318cba0dd_1698x1172.png) timestamp 非公式な意見として、私が話す多くのシニアリーダーは、Z/Lスペクトルにおいてロポロロ派というよりゼッヒナー派に近い立場にあります。これは、すべての人があらゆる状況で片方の立場に当てはまるという意味ではありませんし、モデルの進歩が進むにつれてこの状況が続くとも限りません！最も明白な点を指摘すれば、エンジニアやエンジニアリングリーダーは、安価なコード生成とコードレビューによって解決できる可能性のある、軽微なアーキテクチャ品質の問題を過大評価する立場にある人々です。 今日のLatent Spaceゲスト、ShopifyのCTOであるミハイル・パラヒンは、「質の高いトークン最大化（tasteful tokenmaxxing）」について別の見解を示しました。広さ（例えば、LLMのルーレットを5回、10回、50回、500回並列実行して問題を解決する）を求めるのではなく、深さ（例えば、より多くのシリアル自動調査ループを実行する）を追求すべきだということです。熟考する価値があります。 2026年4月21日〜4月22日のAIニュース。私たちは12のサブレディット、544件のTwitter投稿、および追加のDiscordサーバーを確認しました。AINewsのウェブサイトでは過去のすべての号を検索できます。 reminderとして、AINewsは現在Latent Spaceの一部です。メール配信頻度のオプトイン/オプトアウトが可能です！ AI Twitter recap オープンモデル：Qwen3.6-27B、OpenAIのプライバシーフィルター、Xiaomi MiMo-V2.5 Qwen3.6-27Bが、本格的なローカル/オープンソースのコーディングモデルとして登場しました。@Alibaba_Qwenは、思考モードと非思考モードを備え、統一されたマルチモーダルチェックポイントを持つ密度の高いApache 2.0ライセンスのモデル「Qwen3.6-27B」をリリースしました。Alibabaは、主要なコーディング評価において、はるかに大規模なQwen3.5-397B-A17Bを上回ると主張しています。具体的には、SWE-bench Verifiedで77.2対76.2、SWE-bench Proで53.5対50.9、Terminal-Bench 2.0で59.3対52.5、SkillsBenchで48.2対30.0という結果です。また、画像や動画に対するネイティブなビジョン・ランゲージ推論もサポートしています。エコシステムは直ちに動き始め、vLLMが当日対応を提供し、Unslothが18GB RAMで動作するローカルGGUF版を公開し、ggmlがllama.cppでの使用を追加し、Ollomaもパッケージ版リリースを行いました。@KyleHessling1氏と@simonw氏からの初期ユーザー報告では、ローカルフロントエンド/デザインおよび画像タスクにおいて非常に強力な結果が得られています。 OpenAIは、実用的なプライバシーモデルを静かにオープンソース化しました。複数の観察者が、PII（個人識別情報）の検出とマスキングのための軽量なApache 2.0オープンモデル「Privacy Filter」の存在を指摘しました。@altryne氏、@eliebakouch氏、@mervenoyann氏によると、これは128kのコンテキストウィンドウを持つ、総パラメータ数1.5B／アクティブパラメータ数50MのMoE（Mixture of Experts）トークン分類モデルで、非常に大規模なコーパスやログに対して低コストな赤字処理（情報隠蔽）を行うことを目的としています。これは単なる「小規模なオープンモデル」よりも運用面での興味深いリリースです。デバイス内や低コストの前処理が重要となる、エンタープライズやエージェントパイプラインにおける具体的なインフラ問題に焦点を当てています。 Xiaomiはエージェント型オープンモデルの進化を加速：@XiaomiMiMoがMiMo-V2.5-ProおよびMiMo-V2.5を発表。Xiaomiは、SWE-bench Proで57.2、Claw-Evalで63.8、τ3-Benchで72.9というスコアを記録し、1,000回以上の自律的なツール呼び出しを実現したと主張するV2.5-Proを、ソフトウェアエンジニアリングおよび長期ホライゾンエージェントにおける大きな飛躍として位置づけている。非Pro版モデルは、ネイティブなオムニモーダル性と100万トークンのコンテキストウィンドウを追加した。 ArenaはすぐにText/Vision/Code評価でMiMo-V2.5をリストし、@Teknium経由でHermes/Nousの統合が続いた。 Google Cloud Next：TPU v8、Gemini Enterprise Agent Platform、Workspace Intelligence Googleのインフラに関する発表は表面的なものではなく、実質的なものであった。@Googleおよび@sundarpichaiは、トレーニング用TPU 8tと推論用TPU 8iに分割された設計の第8世代TPUを紹介した。Googleによると、8tはIronwoodと比較してポッドあたりの計算能力が約3倍向上し、8iは低レイテンシの推論および高スループットのマルチエージェントワークロードに対応するため、ポッドあたり1,152個のTPUを接続する。@scaling01からのコメントでは、追加の主張として、GoogleはTPU8tを用いて単一クラスターで100万個のTPUにスケールできると指摘された。ハードウェアの数値そのものと同様に、製品化のシグナルも重要である：Googleはチップ、モデル、エージェントツール、エンタープライズ制御プレーンを1つの縦割り統合型オファリングに明確に統合している。 エンタープライズエージェントがGoogleの主要なプロダクト surface（製品面）へと成長しました。@GoogleDeepMind と @Google は、Vertex AI の進化版として、大規模なエージェントの構築・ガバナンス・最適化を可能にするプラットフォームである「Gemini Enterprise Agent Platform」を発表しました。これには、Agent Studio、Model Garden を通じた 200以上のモデルへのアクセス、そして Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4 を含む Google の現在のスタックのサポートが含まれます。関連する発表としては、ドキュメント/シート/会議/メールに対するセマンティックレイヤー（意味論的層）として Workspace Intelligence の一般提供、Gemini Enterprise のインボックス/キャンバス/再利用可能なスキル、Agentic Data Cloud（自律型データクラウド）、Wiz 統合を備えたセキュリティエージェント、そしてテキスト、画像、動画、音声、文書にわたる統一埋め込みモデルである Gemini Embedding 2 の一般提供があります。 エージェント、ハルネス、トレース、チームワークフロー ベンダー間で「エージェント ハルネス」の抽象化が強化されています。OpenAI は ChatGPT にワークスペースエージェントを導入し、ドキュメント、メール、チャット、コード、外部システム（Slack ベースのワークフローやスケジュール/バックグラウンドタスクを含む）を跨いで動作するチーム向けの Codex 搭載エージェントを共有しました。Google も Gemini Enterprise Agent Platform を通じて並行するエンタープライズ向け施策を行いました。また、Cursor はタスクの開始とストリーミング更新のために Slack での呼び出し機能を追加しました。このパターンは収束しつつあります：クラウドホスト型エージェント、共有チームコンテキスト、承認プロセス、そして単一ユーザーのチャットではなく長時間実行されるタスクへと焦点が移っています。 ハarness/モデル非依存性の開発者向け使い勝手が改善：VS Code/Copilotが、Anthropic、Gemini、OpenAI、OpenRouter、Azure、Ollama、ローカルバックエンドなどのプロバイダーを対象に、プランやビジネス/エンタープライズ向けに「持ち込みキー/モデル」サポートを展開しました。これは戦略的に重要です。@omarsar0氏が指摘したように、ほとんどのモデルはまだ独自のエージェントハarnessに過剰適合しているように見えるからです。Cognitionのラッセル・カプラン氏は、補完的なビジネス上の主張を行いました。エンタープライズ顧客は、単一のラボへの依存ではなく、モデルの柔軟性とSDLC全体をカバーするインフラストラクチャを求めています。 トレース/評価/自己改善は、中核的なエージェントデータプリミティブになりつつあります。ここでの最も強力な議論はLangChain関連の議論からのものでした。@Vtrivedy10氏は、トレースがエージェントのエラーと非効率性を捉えるものであり、計算資源はより良い評価、スキル、環境を生成するためにトレースを理解することに注ぐべきだと主張しました。その後の詳細な投稿では、この考えがトレースマイニング、スキル、コンテキストエンジニアリング、サブエージェント、オンライン評価を含む具体的なループへと展開されました。@ClementDelangue氏は、オープンなトレースをオープンエージェントトレーニングのための欠落していたデータ基盤として推進し、@gneubig氏はADP（Agent Data Protocol：エージェントデータプロトコル）の標準化を提唱しました。LangChainもまた、@hwchase17を通じて、より強力なテスト/評価製品の方向性を示唆しました。 ポストトレーニング、強化学習（RL）、推論システム Perplexity 及其他机构分享了更多训练后处理的策略：@perplexity_ai 发布了关于搜索增强型 SFT（Supervised Fine-Tuning、教師あり微調整）＋RL（Reinforcement Learning、強化学習）パイプラインの詳細。この手法は事実の正確性、引用の品質、指示への従順さ、そして効率性を向上させるものであり、Qwen ベースのシステムは低コストで GPT ファミリーモデルと同等かそれ以上の事実正確性を達成できると同氏は述べています。@AravSrinivas によれば、Perplexity は現在、ツールルーティングと要約を統一した Qwen 派生モデルの訓練後処理版を生産環境で運用しており、すでにかなりの割合のトラフィックを処理しています。研究面では、@michaelyli__ がニューラルガーベッジコレクション（Neural Garbage Collection）を紹介しました。これは、プロキシ目的関数を用いず、強化学習によって推論と KV キャッシュの保持・破棄を同時に学習する手法です。また、@sirbayes は ForecastBench において人間のスーパーフォアキャスターに匹敵するベイズ言語信念予測エージェントを報告しました。 コーディングモデルにおける「最小限の編集」問題には、有用なベンチマークによる検討がなされました。@nrehiew_ は Over-Editing（過剰編集）に関する研究を発表しました。これはコーディングモデルがバグを修正する際に、必要以上に多くのコードを書き換えてしまう現象です。同研究は最小限の改変が施された問題セットを構築し、パッチ距離と追加された認知複雑度（Cognitive Complexity）を用いて過剰な編集量を測定しました。その結果、GPT-5.4 が最も過剰に編集し、Opus 4.6 が最も少ない過剰編集を示すことが明らかになりました。また、大域的な忘却（catastrophic forgetting）を引き起こさずに汎用性の高い最小限の編集スタイルを学習するには、強化学習（RL）が教師あり微調整（SFT）、DPO（Direct Preference Optimization、直接選好最適化）、拒否サンプリングよりも優れていることが示されました。これは、エンジニアが生産環境でのコードレビューで実際に不満を漏らしている失敗モードを対象としているため、本セットの中でより実用的な訓練後処理・評価への貢献の一つと言えます。 推論効率化の取り組みは依然として非常に活発でした。@cohere は vLLM に本番環境向けの W4A8 推論を統合し、Hopper において W4A16 と比較して TTFT が最大 58%、TPOT が 45%高速化されたことを報告しました。その詳細には、チャネルごとの FP8 スケール量子化と CUTLASS LUT（ルックアップテーブル）による脱量子化が含まれます。@WentaoGuo7 は Blackwell における SonicMoE のスループット向上について報告し、DeepGEMM ベースラインと比較して順伝播/逆伝播の TFLOPS がそれぞれ 54%、35%高い一方で、アクティブなパラメータ数が同等であるため密なモデルに相当する活性化メモリを維持しているとしました。@baseten は、再ランク付けにおける共有プレフィックスの除去を実現する RadixMLP を導入し、現実的な速度向上として 1.4〜1.6倍の高速化を実現しました。 トップツイート（エンゲージメント数順） OpenAI ワークスペースエージェント：@OpenAI は、Business/Enterprise/Edu/Teachers 向けに Codex を搭載した共有ワークスペースエージェントをリリースしました。 Qwen3.6-27B リリース：@Alibaba_Qwen は、強力なコーディング性能を謳う新しいオープンソースの 27B 密モデルと、Apache 2.0 ライセンスを公開しました。 Google TPU v8：@sundarpichai は、トレーニング/推論の専門化を備えた TPU 8t / 8i をプレビューしました。 Flipbook / モデルストリーミング UI：@zan2434 は、従来の UI スタックではなくモデルから直接ピクセルとして画面がレンダリングされるプロトタイプを示しました。 OpenAI プライバシーフィルター：@scaling01 他は、Hugging Face で公開された OpenAI の新しいオープンソース PII（個人識別情報）検出/削除モデルを強調しました。 AI Reddit 概要 /r/LocalLlama + /r/localLLM 概要 1. Qwen 3.6 モデルのリリースとベンチマーク Qwen 3.6 27B がリリースされました（アクティビティ: 2576）：Hugging Face にて、新しい言語モデルである Qwen 3.6 27B が公開されました。このモデルは 270 億のパラメータを有し、以前のバージョンよりも強化されたパフォーマンスベンチマークで改善を図っています。また、限られた計算リソースを持つ環境でのより効率的なデプロイメントを可能にする量子化版 Qwen3.6-27B-FP8 も利用可能です。今回のリリースには、各種タスクにおけるその能力を示す詳細なベンチマーク結果が含まれており、コミュニティからはリリースへの興奮の声が上がっています。一部のユーザーは、モデルのパフォーマンス向上の重要性と、より広いアクセシビリティを実現する量子化版の利用可能性を強調しています。 Namra_7 は Qwen 3.6 27B のベンチマーク画像を共有しました。これには推論速度、精度、またはその他の関連統計数値などのパフォーマンス指標が含まれていると考えられます。ただし、コメント自体にはベンチマークの具体的な詳細は記述されていません。 challis88ocarina は、Hugging Face で利用可能な Qwen 3.6 27B の量子化版、特に FP8 フォーマットについて言及しました。量子化はモデルサイズを大幅に削減し、推論速度を向上させるため、精度の大幅な低下なしにより効率的にデプロイすることが可能になります。提供されたリンクは、さらに探索するための Hugging Face のモデルリポジトリへ繋がっています。 Eyelbee 氏が別の画像リンクを投稿しました。これには Qwen 3.6 27B に関連する追加の視覚データやパフォーマンス指標が含まれている可能性があります。ただし、このコメントには画像の内容に関する具体的な洞察や詳細は提供されていません。 Qwen3.6-27B がリリースされました！（アクティビティ：895）：Qwen3.6-27B は、コーディングタスクで優れたパフォーマンスを発揮する、新たにリリースされた密な（dense）オープンソースモデルです。主要なコーディングベンチマークにおいて、その前身である Qwen3.5-397B-A17B を上回る性能を示しています。このモデルは、テキストおよびマルチモーダル（multimodal）タスクの両方で強力な推論能力を備えており、「思考（thinking）」モードと「非思考（non-thinking）」モードの両方に対応する柔軟性を提供します。モデルは Apache 2.0 ライセンスの下でリリースされており、完全にオープンソース化され、コミュニティによる利用が可能です。詳細は公式ブログ、GitHub、および Hugging Face で確認できます。コメント欄からは Qwen チームへの称賛と感謝の声が寄せられており、ユーザーたちは自らのハードウェアでこのモデルを利用することへの熱意を示し、チームの貢献は記念碑的な価値があると感じているようです。 ResearchCrafty1804 氏は、パラメータ数がわずか 270 億個にもかかわらず、Qwen3.6-27B が複数のコーディングベンチマークでより大規模な Qwen3.5-397B-A17B モデルを上回る印象的なパフォーマンスを達成している点を強調しています。具体的には、SWE-bench Verified で 77.2、SWE-bench Pro で 53.5、Terminal-Bench 2.0 で 59.3、SkillsBench で 48.2 のスコアを記録しており、各ケースにおいて大規模モデルを大幅に上回る結果となっています。 bwjxjelsbd 氏は競争環境についてコメントし、META の認識された後退の後に Alibaba が Qwen モデルを推進していることに満足感を示しています。同氏は継続的な競争と透明性を望み、健全な競争環境を維持するために META が Muse ファミリーモデルのオープンソース化を行うべきだと提案しています。 Qwen3.6-35B、適切なエージェントと組み合わせればクラウドモデルと互角に（アクティビティ：848）：この投稿では、Qwen3.6-35B モデルが little-coder エージェントと組み合わせられた場合、ベンチマークパフォーマンスが大幅に向上し、Polyglot ベンチマークで 78.7% の成功率を達成してトップ 10 入りを果たしたことが議論されています。この改善は、適切なスキャフォールド（足場/基盤構造）の使用がもたらす影響を浮き彫りにしており、ローカルモデルはハッチング（モデル実行環境）の不一致によりパフォーマンスが低下する可能性があることを示唆しています。著者は、研究能力について Terminal Bench および GAIA でのさらなるテストを計画しています。詳細およびベンチマーク結果は GitHub および Substack で公開されています。コメント欄では、スキャフォールドの変更によるパフォーマンス向上に驚きの声が上がっており、こうした要因を制御していないベンチマークの有効性に疑問が呈されています。また、モデルのハッチングにおける拡張性の高さから pi.dev の利用にも関心が寄せられています。 DependentBat5432 氏は、スキャフォールドの変更により Qwen3.6-35B のパフォーマンスが大幅に向上し、19% から 78% に跳ね上がったことを指摘しています。これは、こうした変数を制御していないベンチマーク比較の有効性について懸念を呼び起こすものであり、スキャフォールドの選択がモデルパフォーマンスに劇的な影響を与え得ることを示唆しています。 Willing-Toe1942氏によると、Qwen3.6はpi-coding agents（πコーディングエージェント）と組み合わせて使用した場合、opencodeよりもほぼ2倍の性能を発揮する。この比較にはHTMLコードの修正や、ドキュメントのためにオンラインリソースを検索するタスクが含まれており、エージェントの選択が実用的なコーディングシナリオにおけるモデルの有効性を大幅に向上させる可能性があることを示している。 kaeptnphlop氏は、Qwen-Coder-NextがVS Code内のGitHub Copilotと組み合わせた際の優れたパフォーマンスに言及しており、little-coderのような他のツールとの組み合わせについてもさらなる探求の可能性を示唆している。これは、Qwenモデルを人気のコーディング環境と統合することで、その強みを効果的に活用できることを意味している。 続きを読む

【AIニュース】上品なトークン最大化

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト