[AINews] The Two Sides of OpenClaw｜【AIニュース】OpenClawの二面性 | AIニュース最前線

大規模な3つの主要カンファレンスが重なるという好機に、ピーター・スタインバーガーによるTEDトークとAIE（Artificial Intelligence Engineering）の講演が本日公開されました。一般向けには、OpenClawの鼓舞される物語が舞台上で魅力的に語られ、そのすべての高揚感が振り返られました： ![image](https://substackcdn.com/image/fetch/$s_!w4xU!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd938eb29-488f-4a91-9b9d-7ba5dabf55af_1416x1022.png) エンジニアリングの聴衆向けには、より慎重なトーンで、歴史上最も急速に成長しているオープンソース・プロジェクトの維持に関わる未曾有のレベルのセキュリティインシデント（curlと比較してレポート数が60倍、スキル寄与のうち少なくとも20%が悪意あるもの）やスケーリングの問題について語られました： 最後に、私によるモデレーションのAMA（Ask Me Anything）を掲載しています。 両者を対比させ、ご意見をお聞かせください。 2026年4月16日〜4月17日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、およびそれ以上のDiscordサーバーを確認しました。AINewsのウェブサイトでは過去の全号を検索できます。お知らせですが、AINewsは現在Latent Spaceの一部となっています。メール配信頻度のカスタマイズ（購読・解除）が可能です！ AI Twitter recap AnthropicのClaude Opus 4.7およびClaude Designのロールアウト Anthropicは、Claude Designを最初のデザイン/プロトタイピングツールとして発表しました。@claudeaiは、Claude Opus 4.7を基盤とした自然言語の指示からプロトタイプ、スライド、ワンページャーを生成する研究プレビューツール「Claude Design」を発表しました。この発表により、Anthropicがチャットやコーディングの領域を超えてデザインツール分野に進出していることが明確に示され、@Yuchenj_UW氏、@kimmonismus氏、@skirano氏など複数の関係者が、これはFigmaやLovable、Bolt、v0に対する直接的な挑戦であると指摘しました。市場の反応自体が物語の一部となり、@Yuchenj_UW氏らは発表後のFigma株価の急落を指摘しました。@TheRundownAI氏を通じて製品の詳細が明らかになりました。これには、インラインでの修正機能、スライダーによる調整、Canva/PPTX/PDF/HTMLへのエクスポート機能が含まれ、実装についてはClaude Codeへの引き継ぎが可能となっています。 Opus 4.7 は全体的により強力に見えるものの、その展開は混乱を伴いました：サードパーティのベンチマーク投稿は概ね好意的なものでした。@arena は Code Arena で Opus 4.7 を #1 に位置付け、Opus 4.6 より +37 の差をつけ、同プラットフォームにおける Anthropic 以外の競合モデルを凌駕しました。同じアカウントはまた、Text Arena でも総合 #1 を記録し、ここではコーディングや科学分野に偏ったカテゴリで勝利を収めました。@ArtificialAnlys は、そのインテリジェンス・インデックスのトップでほぼ三つ巴の争いがあったと報告しました——Opus 4.7 が 57.3、Gemini 3.1 Pro が 57.2、GPT-5.4 が 56.8——さらに、彼らのエージェント型ベンチマークである GDPval-AA でも Opus 4.7 を首位に位置付けました。また、Opus 4.6 よりも高いスコアを達成しつつ出力トークンが約 35% 減少した点、タスク予算の導入、そして拡張思考（extended thinking）を完全に排除して適応的推論（adaptive reasoning）に切り替えた点も指摘しました。しかし、最初の 24 時間におけるユーザー体験は賛否両論でした：@VictorTaelin は後退やコンテキストの失敗を報告し、@emollick は Anthropic が翌日には適応的思考の動作を改善済みだと述べ、@alexalbert__ は初期バグの多くが修正されたことを確認しました。また、@theo からはプロダクト自体の安定性に関する苦情が、同じアカウントからはアカウントレベルのセキュリティ問題に関する指摘も寄せられました。 コストと効率性の議論は、純粋な品質ほど重要視されるようになりました。@scaling01 は、一部の機械学習タスクにおいて、以前のハイエンドモデルと比較して約 10 分の 1 のトークン数で同等のパフォーマンスを維持できると主張し、@ArtificialAnlys は Opus 4.7 をテキストとコードの両方で価格対性能のパレート最適 frontier（パレートフロンティア）上に位置づけました。すべてのベンチマークが絶対的な優位性を示したわけではありません（例：@scaling01 は、LiveBench において Gemini 3.1 Pro や GPT-5.4 にまだ劣ると指摘）。しかし、これらの投稿からのコンセンサスは、Anthropic がモデルのエージェント機能と効率性を大幅に改善したという点で一致しています。 コンピュータ操作、コーディングエージェント、およびハース設計 コンピュータ操作 UX は主要な製品カテゴリーになりつつあります。OpenAI の Codex デスクトップ/コンピュータ操作に関する更新は、実務者の間で非常に強い反応を呼びました。@reach_vb は、サブエージェントとコンピュータ操作の組み合わせが「実用的な感覚において AGI（人工汎用知能）にかなり近い」と呼びました。@kr0der、@HamelHusain、@mattrickard、@matvelloso の全員は、Codex Computer Use が派手なだけでなく高速であり、Slack やブラウザのフロー、さらには任意のデスクトップアプリを操作できる能力を持っており、エンタープライズ内のレガシーソフトウェアに対して真に使用可能なコンピュータ操作プラットフォームとなる可能性があると強調しました。@gdb は、Codex が完全なエージェント型 IDE（統合開発環境）へと進化していることを明確に位置づけました。 業界の焦点は「シンプルなハーネス、強力な評価、モデル非依存の基盤」に収束しつつある。複数の高信号の投稿は、信頼性の向上が現在、非常に大規模なモデルを追跡することよりもハーネスから得られると主張した。@AsfiShaheen は、ルーター／レーン／アナリストという3段階の金融アナリストパイプラインを説明し、各段階に厳格なコンテキスト境界とゴールドセットを設定した。その結果、多くのバグは実際には指示やインターフェースに関するものだったと指摘した。@AymericRoucher は、リークされた Claude Code のハーネスから同じ教訓を引き出した。シンプルな計画制約とクリーンな表現層が、「凝った AI 基盤」を上回るとした。@raw_works はさらに顕著な例を示した。dspy.RLM を使用した場合、Qwen3-8B は LongCoT-Mini で 507件中 33点を得たのに対し、バニラ版は 0点だった。この結果から、ファインチューニングではなく基盤自体が「作業の 100% を担っている」と結論づけた。LangChain はこれらのパターンを製品にさらに組み込んだ。@sydneyrunkle は deepagents deploy にサブエージェントのサポートを追加し、@whoiskatrin は Agents SDK にメモリプリミティブを発表した。 オープンソースのエージェントスタックは引き続き増加している。Hermes Agent が焦点の一つであり続けた。@GitTrend0x によるコミュニティエコシステムの概要では、Hermes Atlas、Hermes-Wiki、HUDs（ヘッドアップディスプレイ）、制御ダッシュボードなどの派生プロジェクトが強調された。その後、@ollama は ollama launch hermes 経由でネイティブな Hermes サポートを提供し、@NousResearch がこれを広めた。Nous と Kimi はまた、$25,000 の Hermes Agent Creative Hackathon を @NousResearch で開催し、コーディングや生産性からクリエイティブなエージェントワークフローへの展開を示唆した。 エージェント研究：自己改善、監視、Webスキル、および評価 エージェントの堅牢性と継続的改善を推進する一連の研究論文が発表されました。@omarsar0氏は「Cognitive Companion」をまとめ、LLM判事または隠れ状態プローブを用いて推論の劣化を監視する手法を紹介しました。主要な結果は注目すべきもので、層28の隠れ状態に対するロジスティック回帰プローブは、測定された推論オーバーヘッドがゼロの状態でAUROC 0.840で劣化を検出可能であり、LLM監視版は約11%のオーバーヘッドで反復を52〜62%削減します。@dair_ai氏によるWebエージェントの別件の研究では、「WebXSkill」が紹介され、エージェントが軌跡から再利用可能なスキルを抽出し、グラウンドドモードでWebArenaにおいて最大+9.8ポイント、WebVoyagerで86.1%の向上をもたらすことが示されました。また、@omarsar0氏は「Autogenesis」も強調しました。これはエージェントが能力のギャップを特定し、改善策を提案し、それらを検証し、再学習なしで動作する変更を組み込むためのプロトコルです。 オープンワールド評価が深刻なテーマとなりつつある：複数の投稿で、現在のベンチマークは狭すぎると指摘された。@CUdudec は、長期・開放的な設定におけるオープンワールド評価を支持し、@ghadfield はこれを規制や「エージェントの経済」に関する問題と結びつけ、@PKirgis は CRUX について議論した。これは、雑多な現実環境における AI エージェントの定期的なオープンワールド評価を目的としたプロジェクトである。測定に関する側面では、@NandoDF が、2500 のトピックカテゴリにわたるトレーニング領域外の書籍や記事に対して広範な NLL（対数尤度）/パープレキシティベースの評価スイートを提案したが、これにより @eliebakouch や @teortaxesTex などの参加者から、RLHF（強化学習による人間のフィードバック）やポストトレーニング後のパープレキシティが依然として有用な指標かどうかを巡る議論が巻き起こった。 ドキュメント/OCR および検索評価も、よりエージェント中心の視点が強まった。@llama_index は ParseBench について詳細を述べた。これは、省略、幻覚、読書順序の違反にわたる 167,000 以上のルールベーステストを備え、コンテンツの忠実性に焦点を当てた OCR ベンチマークである。このベンチマークは、評価基準を「人間が読みやすい」ものから「エージェントが行動を起こせるのに十分な信頼性がある」ものへと明示的に再定義している。検索分野では、@Julian_a42f9a が、後期相互作用による検索表現が RAG における生のドキュメントテキストに代わり得ることを示す新しい研究を指摘し、一部の RAG パイプラインは完全なテキスト再構築を回避できる可能性があることを示唆した。 オープンモデル、ローカル推論、および推論システム Qwen3.6のローカル/量子化ワークフローは実用的な明るい話題でした。@victormustar氏は、Qwen3.6-35B-A3Bをローカルエージェントスタックとして使用する具体的なllama.cpp + Piのセットアップを共有し、現在ローカルエージェントシステムがどれほど実現可能かという点を強調しました。Red Hatはすぐに、@RedHat_AIによるNVFP4量子化済みのQwen3.6-35B-A3Bチェックポイントを発表し、GSM8Kプラチナで100.69%の回復率という初期結果を報告しました。また、@danielhanchen氏は動的量子化のベンチマークを行い、多くのUnsloth量子化がKLD対ディスク容量のパレートフロンティアに乗っていると主張しました。 コンシューマーハードウェアでの推論性能は継続的に向上しています。@RisingSayak氏は、PyTorch/TorchAOを使用した作業を発表し、FP8およびNVFP4量子化によるオフロードを主要なレイテンシペナルティなしで可能にし、メモリ制約のあるコンシューマーGPUユーザーを明確にターゲットにしています。Apple側のローカル推論でも、@googlegemmaがGemma 4をiPhone上で完全にオフラインで実行するデモを行い、注目を集めました。 注目すべき推論インフラのアップデートがあります。@vllm_projectは、AMD/EmbeddedLLMとのMORI-IO KVコネクタを強調し、PD分離型コネクタにより単一ノードで2.5倍の高いグッドプットを実現すると主張しています。Cloudflareは、isitagentready.com @Cloudflareによるエージェント/AIプラットフォームへの取り組みを継続し、Flagship機能フラグ @fayazaraを紹介しました。また、圧縮辞書によりペイロードが劇的に削減される例（1つのケースで92KBから159バイトへ）を共有しました @ackriv。 科学、医療、インフラのためのAI 科学的研究の発見とパーソナライズドヘルス（個別化医療）が、注目された応用テーマとして浮上しました。@JoyHeYueya氏と@Anikait_Singh_氏は、モデルが「親」論文から派生する後続論文のコアな貢献を生成するという「洞察の先読み」について投稿しました。後者の研究では、GIANTS-4Bという強化学習（RL）で訓練されたモデルが紹介され、このタスクにおいて最先端のモデルを上回る性能を記録していると報告されています。健康分野では、@SRSchmidgall氏がウェアラブルデバイスからのデータを用いたバイオマーカー発見システムを共有しました。その最初の知見は、「深夜の doomscrolling（不安なニュースなどを延々とスクロールすること）」がうつ病の重症度をρ=0.177、p<0.001、n=7,497という統計的有意性で予測できるというものでした。この結果が注目されるのは、モデル自体がこの特徴（変数）を特定し命名した点にあります。別の記事で、@patrickc氏は現在のコーディングエージェントがパーソナライズドゲノム解釈においてすでに非常に有用であると主張し、約30倍の黒色腫（メラノーマ）発症リスクを示唆する結果と、それに続く介入策を浮き彫りにした100ドル未満の分析実行例を説明しました。 大規模な計算資源（コンピュート）の構築は、中核的なメタストーリーであり続けています。@EpochAIResearch氏は全7つの米国のStargateサイトに関する調査を行い、2029年までに9ギガワット（GW）以上の規模に達する見通しであり、これはニューヨーク市のピーク需要に匹敵すると結論付けました。@gdb氏はStargateを「計算資源駆動型経済」のためのインフラと位置づけ、@kimmonismus氏は今日の世界的なデータセンターの年間資本支出（capex）を、物価変動調整後の換算で年間マンハッタン計画の約5〜7倍に相当すると見積もりました。 トップツイート（エンゲージメント数順） Claude Design / Anthropic製品の拡大：@claudeai氏がClaude Designをリリースしました。これは、当日の純粋なAI製品発表の中で断トツに大きなシグナルとなりました。 モデルベンチマーク／ランキング：@ArtificialAnlys によると、Opus 4.7 が総合で 1 位タイとなり、GDPval-AA でも首位を維持しています。 コーディングエージェント／コンピュータ操作：@cursor_ai は新しいエージェントウィンドウで Composer 2 の制限を倍増させ、@HamelHusain は Codex Computer Use について解説しています。 オープンソースエージェント：@ollama がネイティブの Hermes Agent サポートを提供しました。 医療分野での応用 AI：@patrickc は、ゲノム解析と個別化予防のためのコーディングエージェントについて述べています。 インフラ／スケーリング：@EpochAIResearch は、Stargate の 9GW 超の成長軌道について分析しています。 AI Reddit レビュー /r/LocalLlama + /r/localLLM レビュー 1. Qwen3.6 モデルの発売と特徴 続きを読む

【AIニュース】OpenClawの二面性

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト