【AIニュース】人類の最後の息吹
AIの進歩にもかかわらず現場の負担が増大する「ターキー問題」を提起し、Google ChromeのSkills機能やTencentのHYWorld 2.0といった最新動向を整理した。
キーポイント
AI導入に伴うパラドックスと労働負荷の増大
AIエージェントが作業を代行しているにもかかわらず、エンジニアや知識労働者の業務負荷が増加しており、これは「ターキー問題」に例えられる状況にある。
モデル性能の向上と評価指標の限界
SWE-BenchやGPT-5.4の評価で人間专家に匹敵する性能が示されているものの、ハードウェア制約やAGIへの道筋においてまだ解決すべき課題が残っている。
ブラウザ内エージェント化の具体例:Google Chrome Skills
GoogleがChromeに「Skills」機能を導入し、Geminiプロンプトをワンクリックで実行可能なワークフローとして保存・再利用できる機能をリリースした。
他の主要AIニュースの概観
TencentのHYWorld 2.0や、NotionによるARC-AGI-3への取り組みなど、業界全体の動向が紹介されている。
HYWorld 2.0の3Dシーン生成能力
TencentのHYWorld 2.0は、単一画像から編集可能な3Dシーンを生成するオープンソースのエンジン対応モデルとして位置づけられている。
Hermes Agentの安定性と機能強化
Hermes Agentはv0.9.0とv0.2.0のアップデートにより、長期実行の信頼性、メモリ管理、および多様なプラットフォーム統合を実現し、運用安定性を重視するユーザーに支持されている。
LangChainの「Deep Agents」における運用基盤へのシフト
LangChainのdeepagents 0.5は、マルチテナント対応、非同期サブエージェント、ユーザーごとのスコープ付きメモリなど、運用可能なプラットフォーム機能へ焦点を移している。
影響分析・編集コメントを表示
影響分析
この記事は、AI技術の進歩が直ちに労働生産性の向上や業務負荷の軽減につながらないという現実的なパラドックスを指摘しており、開発者や企業経営者にとって重要な示唆を与える。また、Google ChromeのSkills機能のようなユーザーフレンドリーなエージェントインターフェースの普及は、AIツールの日常への浸透を加速させる可能性があり、業界全体のUX標準を変化させると予想される。
編集コメント
AI導入による業務効率化の期待と、現場の実際の疲労感とのギャップを「ターキー問題」として可視化した点は鋭い洞察である。Google ChromeのSkills機能は、プロンプトエンジニアリングをより抽象化・自動化する次の段階として注目すべきアップデートだ。
Latent SpaceとAI Engineerの両方で繰り返し話題になっているトピックの一つは、皆がより多くの努力をしているように見える度合いです:
(番組の友人である)Aaron Levie氏は、「現在、AIによって誰かの作業量が減っているわけではなく、シリコンバレーの人々と同様に、彼らのチームが過去で最も忙しいと感じている」と報告しています。
Tyler Cowen氏は経済学的な立場から、AIがあなたの価値を下げると信じていようとも上げると信じていようとも、今すぐはるかに多くの努力をするべきだと主張しています。
NotionのSimon Last氏は、今日のポッドキャストで、MLモデルのトレーニングをあきらめて以来初めてではないものの、睡眠不足と24時間365日の仕事に戻ったとコメントしており、今回はエージェント層のトークン不安が原因です。
「エージェントがより多くの作業を行っている」と同時に、「誰もがより多くの努力をしている」ことがどのように両立し得るのでしょうか?Claude Mythosが内部で2ヶ月間使用されているにもかかわらず、なぜClaudeの価値は下落し続けるのでしょうか?モデルラボとエージェントラボが過去最高に生産性が高いにもかかわらず、なぜ買収や企業買収が過去最多になっているのでしょうか?
私たちが以前に行った簡単な思考実験は「七面鳥問題」です。これは、実際の証拠と豊富な歴史的データに基づき、七面鳥は人生が素晴らしいものであり、人類は自分が経験した限りにおいて肥えた七面鳥を作るために設定されていると結論付けるべきものです。七面鳥の悲観論者は、過剰な警告をする狂人として扱われ、無視されます。感謝祭の日まで。

このシナリオにおいて、エンジニア、あるいはより一般的にはすべての知識労働者は「七面鳥」なのでしょうか?私たちの仕事の「弾力性(elasticity)」や価値は、ある境界点に達するまで、私たちが「馬」になるまでにますます正の値を示すべきでしょうか?SWE-Benchが飽和状態に達し(SWE-Bench Proもまもなく)、Mythosが78%の達成率を示す中、GDPvalはGPT 5.4を経済の大部分において人間の専門家と同等以上(83%の確率)と評価しています。では、残っているものは何でしょうか?
Notionは「Notionの最終試験」に取り組んでいます。GregとFrancoisはARC-AGI-3を設定しました。私はコーディング評価の次のフロンティアに取り組んでいます。しかし、ハードウェアが運命であり、AGI(人工一般知能)が予測可能として20GWのスーパークラスターに過ぎない場合、それらはすべて無意味なものに見えるかもしれません…
…あるいは、より価値のある問題は残っているのでしょうか?
2026年4月3日〜4月4日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、およびさらにいくつかのDiscordサーバーを確認しました。AINewsのウェブサイトでは過去のすべての号を検索できます。 reminderとして、AINewsは現在Latent Spaceの一部です。メール配信頻度のオプトイン/オプトアウトが可能です!
AI Twitter レビュー
トップツイート(エンゲージメント基準)
GoogleのChrome「Skills」はプロンプトを再利用可能なブラウザワークフローに変換する:GoogleはChromeにSkillsを導入し、ユーザーがGeminiのプロンプトをワンクリックアクションとして保存できるようにした。これにより、現在のページや選択されたタブに対してアクションを実行できる。Googleはまた、既製のSkillsライブラリも提供しており、これは単なるプロンプトの履歴以上のものとなっている。これは実質的にブラウザ内での軽量なエンドユーザーエージェント化を意味する。
TencentのHYWorld 2.0は、世界モデルを動画モデルではなく編集可能な3Dシーンジェネレーターとして位置づけている:リリースに先立ち、@DylanTFWang氏はHYWorld 2.0を、単一の画像から編集可能な3Dシーンを生成するオープンソースかつエンジン対応の3D世界モデルとして予告した。
Google DeepMindはGemini Robotics-ER 1.6をリリースした:@GoogleDeepMindによって発表されたこの新モデルは、ロボティクスにおける視覚・空間推論を改善し、より安全な物理的推論を追加した。Gemini APIおよびAI Studioで利用可能である。続報では、計器の読み取り成功率が93%に達し、液体や重たい物体といった物理的制約への対応も向上していることが強調されている。
OpenAIはGPT-5.4-Cyberを用いてCyber分野のTrusted Accessを拡大した:OpenAIによると、GPT-5.4-CyberはGPT-5.4を防御的なセキュリティワークフロー向けにファインチューニングしたバージョンであり、Trusted Accessプログラムを通じて認証された上級レベルの防御担当者向けに提供されている。
Hugging FaceはHubに「Kernels」をリリースした:@ClementDelangue氏は、GPUカーネル用の新しいリポジトリタイプを発表した。これは、特定のGPU/PyTorch/OSの組み合わせに一致する事前コンパイル済みアーティファクトを含み、PyTorchのベースラインと比較して1.7倍から2.5倍の高速化を実現していると主張している。
CursorはNVIDIAとの共同開発によるマルチエージェントCUDA最適化システムを説明した。@cursor_aiによると、このマルチエージェント・ソフトウェアエンジニアリング・システムは3週間で235のCUDA問題に対して幾何平均で38%の高速化を実現しており、これはエージェントがアプリケーションの骨組み作成ではなくシステム最適化に応用される具体的な例である。
エージェント・インフラストラクチャ:Hermes、Deep Agents、そして本番環境向けハーネス
Hermes Agentは、信頼性とメモリ管理を差別化要素とする、本格的なオープンローカルエージェントスタックへと成長している。複数の投稿で共通のテーマが指摘された:ユーザーは、長時間実行タスクに対する耐久性の高さから、他の代替案からHermes Agentへと移行している。このプロジェクトは@AntoineRSXによって、Web UI、モデル切替、iMessage/WeChat統合、バックアップ/リカバリ機能、そしてtmux経由のAndroidサポートを含む大規模なv0.9.0アップデートを提供した。また、Tencentはメッセージング統合を備えた常時稼働型クラウドホスティングのためのワンクリックLighthouseデプロイメントを強調した。メモリ管理の面では、@SteveSchoettlerによるhermes-lcm v0.2.0が、永続的なメッセージストレージ、DAG(有向非循環グラフ)サマリー、圧縮されたコンテキストを展開するツールなどを備えた損失なしのコンテキスト管理を追加した。@Teknium、@aiqiang888、およびその他のコミュニティ投稿は、Hermesの主要な利点は純粋なモデルの知能(IQ)よりも、運用上の安定性、拡張性、そしてデプロイ可能性にあることを裏付けている。
LangChainは、「ディープエージェント」を実運用可能なマルチテナント、非同期システムへと推進しています。deepagents 0.5リリースでは、非同期サブエージェント、マルチモーダルファイルのサポート、プロンプトキャッシングの改善が追加されました。関連する投稿では、deepagents deployが管理されたエージェントホスティングに対するオープンな代替手段であることを強調し、@LangChainと@sydneyrunkleによる、ユーザー/エージェント/組織にスコープを限定したメモリや、@LangChainと@sydneyrunkleによるカスタム認証およびユーザーごとのスレッド分離に関する今後の作業について言及しています。ここで興味深いパターンは、「エージェントのデモ」からプラットフォームに関する懸念事項、すなわちテナンシー、分離、長期タスク、SalesforceやAgent Protocolをサポートするサーバーなどの統合インターフェースへのシフトです。
ハarness設計が第一級のエンジニアリング課題となりつつあります。複数の投稿で、エージェントのパフォーマンスはモデルだけでなく、スケルトン(ハarness)にも少なくとも同等に依存すると主張されました。@Vtrivedy10は、イデオロギー(「薄型 vs 厚型」)よりもタスク固有のオープンハarnessを明確に支持し、@kmeanskaranは最先端モデルの追跡よりも、ワークフロー設計、メモリ切り替え、ツール出力制御を強調しました。これは、オープンウェイトモデルが多様化するにつれてますます必要となる、@ClementDelangueによるモデルから最適なコーディング/エージェントハarnessへのキュレーションされたマッピングの要請と一致しています。
ロボティクス、ワールドモデル、3D生成
Google の Gemini Robotics-ER 1.6 は、具現化された推論(embodied reasoning)における重要な製品化のステップです。@GoogleDeepMind からのリリースは、視覚・空間的理解、ツール使用、物理的制約の推論能力の向上を強調しています。後続の注記では、人間の傷害リスク検出が 10% 向上したこと、複雑なアナログ計器の読み取りに対応したことが明記され、API での利用が可能になりました。@_philschmid は、計器読み取りタスクにおいて 93% の成功率を強調しました。これはロボット工学の基盤モデル論文の発表というよりは、開発者向けの具現化された推論 API の提供のように感じられます。
ワールドモデルは、映画のようなデモから編集可能な空間的アーティファクトへと移行しています。Tencent の HYWorld 2.0 のティーザーは、出力を編集可能でエンジン準備が整った実際の 3D シーンとして位置づけることで、ビデオ生成システムとは明確に差別化されました。Web 側では、@sparkjsdev の Spark 2.0 が、モバイル、Web、VR にわたる WebGL2 で 1 億以上のスプラット(3D ガウス splats)の世界を対象としたストリーミング可能な LOD システムを提供しました。これらは、「AI 生成 3D」のスタックが、コンテンツ生成からインタラクティブなレンダリングや下流用途へと成熟しつつあることを示唆しています。
3D生成のオープン化は、トポロジー(topology)、UV展開(UVs)、リギング(rigging)、アニメーション対応の準備において進展しています。@DeemosTechは、トポロジーとUV生成のための自己回帰モデルであるSATOを導入し、@yanpei_caoは1枚の画像から3D形状、スケルトン(骨格)、スキニングウェイトを生成するAniGenを発表しました。これらが重要なのは、制作現場の3Dパイプラインにおけるボトルネックは「メッシュを生成できるか」ではなく、アセットがアニメーション化、テクスチャリング、編集のために十分な構造を持っているかどうかにあるからです。
モデル、ベンチマーク、および専門システム
続きを読む
原文を表示
One topic that has come up again and again across Latent Space and AI Engineer is how much harder everyone seems to be working:
(friend of the show) Aaron Levie reports that “AI is not causing anyone to do less work right now, and similar to Silicon Valley people feel their teams are the busiest they’ve ever been.”
Tyler Cowen argues from an economics standpoint that you should work much harder RIGHT NOW whether you believe AI will lower your value OR increase your value.
Simon Last of Notion commented on today’s pod that he’s back to sleepless nights and 24/7 work for the first time since giving up on ML model training, but this time because of agent layer token anxiety.
How can it both be true that “Agents are doing more work and yet Everyone is working harder”? How can it be true that Claude Mythos has been used internally for 2 months, and yet Claude keeps going down? How can it be true that Model and Agent Labs are more productive than ever and yet acquihiring and acquiring more than ever?
A simple thought exercise we’ve made before is the “Turkey problem”, where, based on real evidence and an abundance of historical data, Turkeys should conclude that life is fantastic and all of humanity is set up to make turkeys well fed as far as they’ve ever experienced. Turkey doomsayers would be alarmist, crackpots, and then ignored. Until Thanksgiving.

Are engineers, or all knowledge workers in general, turkeys, in this scenario? Should our “elasticity” and value of work be increasingly positive, right up to some crossover point we become horses? Now that SWE-Bench is saturated (with SWE-Bench Pro soon to be, Mythos is at 78%) and GDPval rates GPT 5.4 as better than/equal to human experts 83% of the time in most swathes of the economy, what’s left?
Notion is working on Notion’s Last Exam. Greg and Francois are have set out ARC-AGI-3. I’m working on the next frontier of coding evals. But it all seems somewhat moot if hardware is destiny and AGI is predictably a 20GW supercluster away…
…or are there more valuable problems left?
AI News for 4/3/2026-4/4/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Top Tweets (by engagement)
Google’s Chrome “Skills” turns prompts into reusable browser workflows: Google introduced Skills in Chrome, letting users save Gemini prompts as one-click actions that run against the current page and selected tabs. Google also shipped a library of ready-made Skills, which makes this more than prompt history: it’s effectively lightweight end-user agentization inside the browser.
Tencent’s HYWorld 2.0 positions world models as editable 3D scene generators, not video models: Ahead of release, @DylanTFWang teased HYWorld 2.0 as an open-source, engine-ready 3D world model that generates editable 3D scenes from a single image.
Google DeepMind shipped Gemini Robotics-ER 1.6: The new model, announced by @GoogleDeepMind, improves visual/spatial reasoning for robotics, adds safer physical reasoning, and is available in Gemini API / AI Studio. Follow-up posts highlight 93% instrument-reading success and better handling of physical constraints like liquids and heavy objects.
OpenAI expanded Trusted Access for Cyber with GPT-5.4-Cyber: OpenAI says GPT-5.4-Cyber is a fine-tuned version of GPT-5.4 for defensive security workflows, available to higher-tier authenticated defenders under its Trusted Access program.
Hugging Face launched “Kernels” on the Hub: @ClementDelangue announced a new repo type for GPU kernels, with precompiled artifacts matched to exact GPU/PyTorch/OS combinations and claimed 1.7x–2.5x speedups over PyTorch baselines.
Cursor described a multi-agent CUDA optimization system built with NVIDIA: @cursor_ai says its multi-agent software engineering system delivered a 38% geomean speedup across 235 CUDA problems in 3 weeks, a concrete example of agents being applied to systems optimization rather than app scaffolding.
Agent Infrastructure: Hermes, Deep Agents, and Production Harnesses
Hermes Agent is becoming a serious open local-agent stack, with reliability and memory as the differentiators: Several posts converged on the same theme: users are migrating from alternatives to Hermes Agent because it is more durable for long-running work. The project shipped a substantial v0.9.0 update with web UI, model switching, iMessage/WeChat integration, backup/restore, and Android-via-tmux support via @AntoineRSX, while Tencent highlighted a one-click Lighthouse deployment for always-on cloud hosting with messaging integrations. On the memory side, hermes-lcm v0.2.0 from @SteveSchoettler adds lossless context management with persistent message storage, DAG summaries, and tools to expand compacted context. Community posts from @Teknium, @aiqiang888, and others reinforce that Hermes’ key advantage is less raw model IQ than operational stability, extensibility, and deployability.
LangChain is pushing “deep agents” toward deployable, multi-tenant, async systems: The deepagents 0.5 release adds async subagents, multimodal file support, and prompt-caching improvements. Related posts emphasize that deepagents deploy is an open alternative to managed agent hosting, with upcoming work around memory scoped to user/agent/org and custom auth / per-user thread isolation via @LangChain and @sydneyrunkle. The interesting pattern here is a shift from “agent demos” to platform concerns: tenancy, isolation, long-lived tasks, and integration surfaces like Salesforce and Agent Protocol-backed servers.
Harness design is becoming a first-class engineering topic: Multiple posts argued that agent performance depends at least as much on the scaffold as the model. @Vtrivedy10 made the clearest case for task-specific open harnesses over ideology (“thin vs thick”), while @kmeanskaran stressed workflow design, memory switching, and tool output control over frontier-model chasing. This aligns with @ClementDelangue asking for a curated mapping from models to their best coding/agent harnesses, which is increasingly necessary as open-weight models diversify.
Robotics, World Models, and 3D Generation
Google’s Gemini Robotics-ER 1.6 is a notable productization step for embodied reasoning: The release from @GoogleDeepMind emphasizes better visual/spatial understanding, tool use, and physical constraint reasoning. Follow-ups note 10% better human injury-risk detection, support for reading complex analog gauges, and availability in the API; @_philschmid highlighted 93% success on instrument-reading tasks. This feels less like a robotics foundation-model paper drop and more like a developer-facing embodied-reasoning API.
World models are shifting from cinematic demos to editable spatial artifacts: Tencent’s HYWorld 2.0 teaser explicitly contrasted itself with video-generation systems by framing the output as a real 3D scene that is editable and engine-ready. On the web side, Spark 2.0 from @sparkjsdev shipped a streamable LoD system for 3D Gaussian splats, targeting 100M+ splat worlds on WebGL2 across mobile, web, and VR. Together these suggest the stack for “AI-generated 3D” is maturing from content generation into interactive rendering and downstream use.
Open 3D generation is advancing on topology, UVs, rigging, and animation readiness: @DeemosTech introduced SATO, an autoregressive model for topology and UV generation, while @yanpei_cao released AniGen, which generates 3D shape, skeleton, and skinning weights from one image. These are meaningful because the bottleneck in production 3D pipelines is rarely “can you generate a mesh?”; it’s whether the asset is structured enough to animate, texture, and edit.
Models, Benchmarks, and Specialized Systems
Read more
関連記事
Visa と ChatGPT の統合により AI エージェントが小売購入を可能に
Visa が決済インフラを ChatGPT に連携させ、AI エージェントが商品推薦から決済実行まで人間を介さず自動処理する機能を導入した。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
Anthropic のダリオ・アモダイ氏に直属の部下はたった一人だけ
AI 企業 Anthropic の CEO ダリオ・アモダイ氏が、組織運営において直属の部下を一人しか置かないという独自の管理方針を採用していることが明らかになった。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み