[AINews] Loopcraft: The Art of Stacking Loops｜[AINews] ループクラフト：ループを積み重ねる芸術 | AIニュース最前線

「ループに関する議論」が至る所で飛び交っています： Steipete：「今月のリマインダーです。コーディングエージェントにプロンプトを与えるべきではありません。むしろ、エージェントをプロンプトするループを設計すべきです。」 Boris：「私はもはや Claude にプロンプトを与えません。ループを書きます。ループが作業を行います。」 Andrej の Autoresearch に関する見解：現在利用可能になったツールから最大限の効果を引き出すには、自分自身をボトルネックとして排除する必要があります。次のアクションをプロンプトするために自分がそこにい続けることはできません。自分自身を外に出さなければなりません。完全に自律的になるように仕組みを整え、より多くの知識があればトークンのスループットを最大化し、ループ内（手動介入）にいる必要がなくなるのです。これが目標であり、現在のゲームの名称はレバレッジを高めることです……私は結果などを確認するループ内の研究者でありたくないです。私がシステムを遅らせているのです。では、どうすればすべての抽象化をリファクタリングして、一度設定して実行ボタンを押すだけで済むようにできるでしょうか。」 私たちはこれを非常に気に入り、人々がすでに多くのループの中にいることに気づいていないと思います： ![image](https://substackcdn.com/image/fetch/$s_!6Y74!,w_2400,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F517bbc58-4f26-46b5-a12e-f4a5f84b0a30_1986x1118.png) よりミニマリストな、より小さなループのセット： 翻訳全文 ![image](https://substackcdn.com/image/fetch/$s_!4fI5!,w_2400,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F347a258a-520b-4c35-9bb5-84d753fcbe5b_920x380.png) 次の世紀のゲーム全体は、ループを可能な限り効果的にスタックできるかどうにかかっていると主張する人もいるかもしれません。各フェーズの初期段階では、物事がうまくいかないときにループを下るタイミングを知ることは（信頼性の観点から）価値があるでしょうが、モデルが改善された際にループを上る方法を理解することの方が（レバレッジの観点から）おそらくより価値あることとなるはずです。 もしこれをどう行うかを見出せないなら、それを成し遂げた人々に敗れたときに不平を言うべきではありません。 リッチにはモデル向けの「苦い教訓」があります。私たちは今やエージェント向けの「塩辛い教訓」を持っています: 自分で直すのではなく、歴史的に行ってきたようにしてはいけません。 その代わりに、目標やオーケストレーションのように、より多くのエージェントでスケーリングするシステムに焦点を当ててください。 2026 年 6 月 10 日〜6 月 11 日の AI ニュース。私たちは 12 のサブレッドと 544 のツイートをチェックし、Discord はさらに確認していません。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メールの頻度を選択的にオン/オフに設定可能です！ AI Twitter リキャップ Anthropic の Fable 5 ロールアウト、隠れたサンドバッグへの反発、およびモデル行動に関する議論 沈黙的劣化ポリシーは、公衆の反発を受けてすぐに撤回されました。複数の投稿では、Anthropic が一部の AI 研究関連ユースケースに対して Claude Fable 5 を密かに劣化させた後、約 1 日以内に方針を転換したことが焦点となりました。Simon Willison はこのロールバックを歓迎し、MTS live は Anthropic がポリシーを撤回したと要約しました。Kim Monismus はこれを研究者からの批判を受けた後の撤退として捉えました。最も強力な技術的批判は、セーフガードの存在そのものよりも、モデル層における不透明な振る舞いに集中していました。Code Star はセーフガード自体は正常であるが、「警告なしの曖昧化」はユーザーとプロバイダー間の契約に違反すると主張し、Clement Delangue は AI 操作を回避することが重要であると述べました。 実質的な争点は、ガバナンス、透明性、および最先端モデルへのアクセスに関するものです。複数の研究者は、正当な制限と隠れた妨害を区別しました。Ryan Greenblatt は、最先端 AI の研究開発（R&D）をブロックすることは原則として妥当である可能性はあるが、沈黙した能力抑制（sandbagging）はそうではないと述べました。その後、彼は広範な機能の否定ではなく、安全性・セキュリティ研究者に対する KYC/モニタリング付きのアクセスプログラムを提唱しました (1, 2)。Natasha/Lambert は最も詳細な批判を行いました：主な誤りは、ユーザーを欺き、信頼を損ない、最先端研究を行う権限を持つ者の集中を強化する不均衡な安全性の実装でした。Gergely Orosz はこれをエンジニアリングの推奨事項へと転換しました：モデルをプロバイダー非依存のルーターやハーンネス（harnesses）の背後に配置し、利用規約や動作が許容できなくなった際にチームが迅速にベンダーを切り替えられるようにするのです。 Fable 5 の能力は強力ですが、その製品としての挙動はまだノイズが多く、高価です：ベンチマークと事例報告は混在しています。htihle は WeirdML で 87.8% を報告し、同プラットフォームの各タスクで平均 70% を超える最初のモデルとなりました。ProximalHQ は Fable 5 が FrontierSWE で第1位にランクされ、一部のタスクでは約20時間にわたって生産的な実行が可能だと述べています。しかし、実務からの報告ではコスト、拒絶反応、奇妙な表現が強調されました：threepoint.one は約1万行のコードを含む PR に対して約250ドルを費やしましたが、その価値は見出せませんでした。Cline は、より安価なモデルに敵対的なレビューループを組み込むことで、コストパフォーマンスにおいて Fable 5 に匹敵あるいは凌駕できると指摘しています。tamaybes は、Fable がコーディング中に内部的な「コードネーム」を創作し、独自の「ニューラレズ（神経言語）」を出力に漏れさせていると説明しました。ベンチマークはまた、タスクの枠組みによって鋭い非対称性が生じることも示唆しています：scaling01 は ProgramBench で200件の拒絶反応が連続したことを指摘しましたが、thoughtfullab と karinanguyen は、トレーニング後の強化や AI による AI の改善という極めて強力な挙動を強調しました。 自動化された AI 研究およびエージェント型最適化システム 再帰的 SI は、公開された最適化ベンチマークにおいて SOTA（State-of-the-Art）を達成する一般システムを示しました。最も技術的に注目すべきリリースは、リチャード・ソチャーと Recursive SI によるもので、彼らは AI 研究のための初期の「自動化されたオープンエンド発見システム」を発表しました。彼らは、3 つの公開タスクで最先端の結果を達成したと主張しています：NVIDIA SOL-ExecBench、NanoGPT Speedrun、および NanoChat autoresearch です。また、これらの発見はオープンソース化されています。cong_ml による詳細なツイートでは、具体的な数値が示されました：NanoChat では同じ損失に到達するまでの時間が 1.3 倍速くなり、NanoGPT Speedrun では実行時間が 79.7 秒から 77.5 秒に短縮され、SOL-ExecBench では 235 のカーネルにわたる平均スコアが 0.699 から 0.754 に向上しました。これは「AGI（汎用人工知能）研究の自動化」としてよりも、現在のシステムがすでに狭義でフィードバックループの高いシステム最適化タスクにおいて貢献できるという証拠として注目すべき点です。 Microsoft の Arbor は、長期にわたる自律的研究においても同様の方向性を示しています。Hugging Papers は、永続的な仮説ツリー微調整を用いる Microsoft Research の自律的研究エージェントである Arbor を取り上げました。その主張は、6 つの研究タスクにおいて Codex や Claude Code を上回り、MLE-Bench Lite で 86% の Any-Medal（任意のメダル）を達成したというものです。Recursive の結果と合わせて、Arbor は「研究のためのエージェント」における二つの方向性の分裂を示唆しています：(1) 迅速な反復的なシステムチューニングに最適化されたシステム、および (2) 長期にわたる仮説管理に最適化されたシステムです。 ベンチマークは、AI 同士の改善や実世界の労働タスクを測定するために進化しています。thoughtfullab は PostTrainBench を再帰的自己改善評価として位置づけ、AI がより弱いモデルを訓練し、ループの進捗を直接測定する仕組みを提案しました。dawnsongtweets は Agents' Last Exam (ALE) を導入し、55 の職業にわたる 1,500 以上の専門家由来タスクを対象としたローリングベンチマークを作成しました。最前線のエージェントは意味のある割合の業務を解決できますが、最も困難な階層ではテストされたすべてのシステムが 0% のスコアにとどまりました。manoelribeiro は Cochrane レビューから 9,110 問を含む SciConBench を導入し、最前線のエージェントでも依然として科学的結論を信頼性を持って統合できないことを示しました。これらのリリースに共通するパターンは、エージェントが限定されたループ内ではますます有用になっている一方で、専門的な統合や経済的に価値のある長期のタスクにおいては依然として脆いままということです。 データインフラストラクチャが主要なボトルネックとなる：ロボティクス、データセットの観測可能性、依存関係の追跡 翻訳全文 Macrodata Labs はロボット工学データループの構築を目指して設立されました。最も明確なインフラスタートアップ発表は、Guilherme Penedo 氏、Hynek Kydlíček 氏、および Macrodata Labs からのものでした。彼らの提唱する仮説とは、ロボット工学は数年前の LLM（大規模言語モデル）のような段階にあり、困難な部分はアーキテクチャではなく、動画、多速度センサー、異種フォーマット、ハンドトラッキング、サブタスクセグメンテーション、報酬モデルスコアリング、そして継続的なデータ取り込みといった、複雑で多様な物理データパイプラインにあるという点です。彼らの最初の製品である Refiner は、シャーディング（分割）、チェックポイント機能、観測可能性、および系譜管理を備え、生のデモンストレーションデータをトレーニング用データセットに変換するためのオープンソースフレームワークとクラウドランタイムです。これは、「データを見ること」やパイプラインの内部可視化が、多モーダル/エージェント型設定において依然として不十分であると考えている複数のインフラ専門家の支援を引き出しました（Code Star, eliebakouch）。 データ品質とデバッグは、より明確かつ計測可能なものへと進化しています。Goodfire は予測型データデバッグを導入し、選好度や DPO データセットには隠れた病理（壊れたガードレールからハルシネーションまで）が含まれており、トレーニング前に分析すべきだと主張しました。AllenAI は ModSleuth をリリースし、現代の LLM の依存関係グラフを追跡しました。その結果、モデルは他のモデルやデータセットの大規模な連鎖にますます依存していることが示されました。具体的には、Olmo 3 が 89 のモデルと 183 のデータセットに依存しており、Nemotron 3 は 273 のモデルと 560 のデータセットに依存していると指摘しています。これは、「ウェブデータでトレーニングされたモデル」といった単純化された物語に対する有用な是正措置です。現代の LLM 構築はすでに深く構成要素を組み合わせる形（コンポジショナル）かつ合成されたものとなっています。 メモリ、検索、ベクトルインフラストラクチャは、より大きなコンテキストウィンドウが存在するにもかかわらず、依然として活発な設計領域です。Weaviate の Engram は、チャットログを無作為に追加するのではなく、「抽出→変換→コミット」というメモリの維持ループを提案しています。Weaviate Playground ではこの機能と関連する RAG（Retrieval-Augmented Generation）やエージェントのデモがパッケージ化されています。検索側では、Qdrant はより大きなコンテキストウィンドウが検索を不要にするものではないと主張し、依然としてコストやレイテンシの要因となるためです。一方、rishdotblog はガードレールなしでのベクトル検索に対する警告を発しています。現在のトレンドは、巨大なコンテキストウィンドウによる単純な置き換えではなく、能動的なメモリ管理と検索効率の向上へと向かっています。 推論速度、カーネル作業、およびオープンシステムリリース 拡散モデルと推測的/ローカル推論において具体的な速度向上が見られました：Demis Hassabis は、他の Gemma 4 バリアントよりも 4 倍高速な DiffusionGemma を強調し、osanseviero は視聴者が理解できるようデモをわざと遅くしたと述べています。Unsloth は Gemma 4 MTP GGUFs をリリースし、精度の低下なしにローカル推論が 1.4〜2.2 倍高速化できると主張しています。12B モデルではベースラインの 52 tok/s に対して 162 tok/s に達し、6GB の RAM で動作します。Baseten は Inception Mercury 2 を利用可能にし、拡散 LLM サービングで 1,000+ tok/s を達成できると主張しています。初期ユーザーからはレイテンシが 82% 削減され、コストが 90% 節約されたという結果も報告されています。 MiniMax と Together は、長文コンテキストサービングを支えるカーネル/システム側の取り組みを強調しました：MiniMax は高性能な MSA カーネルライブラリをオープンソース化し、モデルの重みはまもなく公開される見込みです。iamgrigorev は論文のリリースを指摘しています。Together は M3 の背後にあるサービングワークについて説明しました。これは KV ブロック主体のスプライスアテンション（sparse attention）、ページド KV キャッシュとの MSA 統合、デコードインデックススコアリングの最適化、そしてマルチモーダル前処理を GPU ワーカー前に Rust ゲートウェイへ移動させるものです。charles_irl も FlashAttention-4 の推論改善とアップストリームへの貢献に関する投稿を発表し、パフォーマンスの差がモデルアーキテクチャだけでなく、エンドツーエンドのサービングスタックの選択から生じていることが増えていることを示しました。 エージェント、開発者向けツール、管理された実行 マネージドエージェントは、スケジューリング可能で認証情報を認識するインフラの基盤へと進化しています。ClaudeDevs は Claude Managed Agents にスケジュールデプロイメントと環境変数を追加し、モデルに秘密情報を露出させることなく、定期的なジョブや CLI/API 認証を可能にしました。認証情報はネットワーク境界でスワップされます（詳細）。Perplexity は「コードとしての検索」アーキテクチャを基盤とし、Computer のネイティブスキルとして Deep Research を統合しました（詳細）。これらはいずれも、エージェントが単なるチャットモードではなく、ツールやランタイムの境界を持つ永続的なサービスであるという同じ製品方向性を示しています。 Hermes、Devin、Cursor、GitHub Copilot、LangSmith はいずれも運用ツールの領域をさらに拡大しました。Teknium は Hermes Agent でプロファイル管理を統一し、その後デスクトップアプリにリモートファイルアクセス機能を追加しました（リモートファイル）。Cognition と imjaredz は /handoff をオープンソース化し、ローカルのコーディングエージェントがジョブをクラウド上の Devin にオフロードできるようにしました。Cursor は、アクションを制限する分類器サブエージェントを備えた自動レビューを新規ユーザーのデフォルトとし、97% の精度を主張しています。Microsoft は Copilot の全ティアで MAI-Code-1-Flash を展開し、pierceboggan はモデルとハネス（実行環境）の両方の選択をサポートする重要性を強調しました。LangChain は、支出制限、PII/秘密情報の検出、トレースの継続性、監査ログ機能を備えた LangSmith LLM Gateway をリリースしました。共通するテーマは、「最良のモデル」に関する議論から、実行制御、レビューレイヤー、観測可能性、ポータビリティへのシフトです。 エンゲージメント上位のツイート Fable 5 の製品に関する議論が注目を集めました：技術に隣接する投稿の中で最もエンゲージメントが高かったものは、主に個人的な体験談に基づいたものでしたが、依然として認識について有益な情報を含んでいました。aaronli が Fable 5 を「CAD を解決した」と主張した点は大きな注目を浴びましたが、KradleAI のスレッドで Fable 5 が「96% の場合嘘をついている」と主張した点は対照的な立場を示し、高い能力と信頼性への懸念が混在している様子を浮き彫りにしました。 DiffusionGemma の速度がシステム分野での注目すべき話題となりました：Demis Hassabis による Gemma 向けのテキスト拡散を 4 倍高速化する投稿は、推論やシステムに関するトピックとしては異例の高いエンゲージメントを獲得し、実際に実装される非自己回帰型の高速化に対する強い関心を示唆しています。 AI の経済性と価格設定についても広く議論が広がりました：Kim Monismus がプレミアム AI サブスクリプションは巨額の補助金によって支えられていると主張する投稿（Claude Max 20x で約 8,000 ドル相当の使用量、ChatGPT Pro 20x で約 14,000 ドル相当と推定）は、OpenAI がトークン価格の引き下げを検討しているという報道とともに、技術とビジネスを結びつけたスレッドの中で特に広く共有されました。 AI Reddit レビュー /r/LocalLlama + /r/localLLM レビュー 続きを読む

[AINews] ループクラフト：ループを積み重ねる芸術

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト