AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Latent Space·2026年4月16日 15:41·約13分で読める

【AIニュース】プルリクエストの終焉(2005-2026)

#GitHub#Pull Request#OpenAI Agents SDK#Autonomous Agents#Software Engineering
TL;DR

GitHubがオープンソースリポジトリでPull Requestの無効化を可能にしたことを契機に、生成AIによるコード生成の普及に伴い、GitベースのワークフローやPull Requestという概念そのものがエージェント時代において obsolete(陳腐化)する可能性について議論が展開されている。

AI深層分析2026年4月27日 01:22
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
3
革新性10%
5

キーポイント

1

Pull Requestの機能制限とGitの存続危機

GitHubがオープンソースリポジトリでPull Requestを無効化できる機能を導入したことを背景に、コードレビューやPRという概念の終焉、ひいてはGit自体の存続意義が問われている。

2

生成AIによる開発パラダイムのシフト

生成AIの台頭により、従来の「コードレビュー」から「プロンプトレビュー」へ移行する動きがあり、マージコンフリクトの回避やセキュリティリスクの低減など、PRに代わる新しい協働モデルが模索されている。

3

エージェント向けソフトウェア設計への転換

OpenAIのAgents SDKの拡張や、Cloudflare、Modalなどのサンドボックス連携により、人間中心ではなくエージェントが利用しやすい「状態管理」と「安全な実行環境」を備えたソフトウェア基盤へのシフトが進んでいる。

4

主要エコシステムの統合とパターン確立

Cloudflare Dev、Modal、Vercel などの主要プラットフォームが公式サンドボックス統合を発表し、「無状態のオーケストレーション+有状態の孤立ワークスペース」という実用的なパターンが収束しつつある。

5

Cloudflareの次世代エージェント基盤

Project Think SDK、Agent Lee、音声パイプライン、ブラウザ自動化ツールを統合し、永続的なランタイムとUI・ブラウザ・音声機能を組み合わせた本格的な生産環境エージェント基盤を構築している。

6

Hermes Agentの自律的スキル形成

単なるツール使用を超え、完了したワークフローを再利用可能な「スキル」として自動保存する自律的な学習機能を持ち、個人用アシスタントではなくプロフェッショナルな作業環境としての位置づけを確立している。

7

Hermesコミュニティと自律型エージェントの成功事例

@elder_pliniusによるGemma 4のNaN不安定性を自律的に診断・修正し、Hugging Faceにアップロードする実例が注目され、@0xme66や@Tekniumによるブラウザ制御やAWS Bedrockサポートなどの具体的な製品追加も行われている。

影響分析・編集コメントを表示

影響分析

このニュースは、ソフトウェア開発の基盤であるGitとGitHubの役割が、生成AIおよび自律型エージェントの普及によって再定義されつつあることを示唆しています。単なるツールの機能追加ではなく、「人間中心のバージョン管理」から「エージェント中心の実行環境」へのパラダイムシフトが進行中であることを示しており、開発者や企業は今後のツールチェーンの再構築を迫られる可能性があります。

編集コメント

GitHubがPR機能を無効化できるという事実は、技術的なオプション以上の意味を持ちます。これは「コードのレビュー」から「プロンプトやエージェントの実行結果の評価」へ、開発者の関心が移行している証拠であり、今後はGitの存在意義そのものが問われる時代が来るでしょう。

コードレビューの死に続くように、プルリクエストも次の対象となるかもしれない。

過去15年でコーディングを学んだ人々にとって、Git、GitHub、そしてプルリクエストのない世界を想像することは難しいが、それ以前の世界が存在したことは事実であり、もしかするとその後の時代も訪れるかもしれない。

プルリクエストは2005年に発明されたと評価されており、GitHubによって広く普及した。そしてわずか21年後、GitHubは歴史上初めて、オープンソースリポジトリにおいてプルリクエストを無効にすることを許可した(以前はイシューのみを無効にできた)。

image
image

コードにおける生成AIの台頭は、長らくプルリクエストの存続危機を意味してきた。すでにPete Steinberger氏(Theo氏とともに)は、複数の理由(1) マージコンフリクトが発生しない、2) 管理者がコードを確認するよりもプロンプトに修正や追加を加える方が容易である、3) 無害に見えるプルリクエストの中に悪意のあるまたは脆弱なコードが紛れ込む可能性が低い)から、プルリクエストではなくプロンプトリクエストのみを望んでいることで知られている。また、Mitchell Hashimoto氏やAmp Codeのような他の人々は、信頼できないコードの貢献を処理するための「レピュテーション(評判)」ベースのシステムを作成している。

「数兆のエージェントのための構築」において、アロン・レヴィは「今後の道筋は、エージェントが望むソフトウェアを作ることだ」と指摘しました。ヒトは人間同士の協働のためにGitを発明しました。コードの流れから人間のボトルネックを排除した際、Gitベースのワークフローがもはや適切ではない可能性が高まっていることは明白です。

そして、コードレビューが死に、プルレビューも死んだなら……Gitそのものが死んでしまうのはいつのことでしょうか?

2026年4月14日〜4月15日のAIニュース。私たちは12のサブレディット、544件のTwitter投稿、および追加のDiscordコミュニティを確認しました。AINewsのウェブサイトでは過去の全号を検索できます。念のためお知らせしますが、AINewsは現在Latent Spaceの一部です。メール配信頻度のオプトイン・オプトアウトが可能です!

AI Twitter recap

OpenAI Agents SDKの拡張と新しいサンドボックス指向エージェントスタック

OpenAIはエージェントハーネスを計算・ストレージから分離し、ファイルやコンピュータの使用、スキル、メモリ、コンパクション(圧縮)のためのプリミティブを用いた、長時間実行かつ耐久性のあるエージェント指向のAgents SDKへと進化させました。ハーネスは現在オープンソース化されカスタマイズ可能であり、@OpenAIDevsのフォローアップおよび@snsfによると、実行はOpenAIインフラと密結合するのではなく、パートナーのサンドボックスに委譲できます。これにより、「Codexスタイル」のエージェントが第三者によってより再現可能になり、差別化要因はオーケストレーション、状態管理、安全な実行へとシフトしました。

そのリリースをきっかけとして、すぐに注目すべきエコシステムが形成されました。@CloudflareDev、@modal、@daytonaio、@e2b、そして @vercel_dev が公式のサンドボックス統合を発表しています。実用的なパターンは、ステートレスなオーケストレーションとステートフルな隔離されたワークスペースの組み合わせに収束しつつあります。すでにいくつかのビルド例が登場しており、@akshat_b による GPU サンドボックス、サブエージェント、永続メモリ、およびフォーク/再開スナップショットを備えた Modal 搭載の ML 研究エージェントや、@whoiskatrin による Python エージェント向け Cloudflare ガイド(サンドボックス内でタスクを実行し、出力をローカルにコピーする)などが挙げられます。

Cloudflare の Project Think、Agent Lee、および Voice Agents

Cloudflare は最も活発なエージェントインフラのリリースサイクルの一つを有していました。@whoiskatrin と @aninibread は、Project Think を紹介しました。これは耐久性のある実行(durable execution)、サブエージェント、永続セッション、サンドボックス化されたコード実行、組み込みのワークスペースファイルシステム、およびランタイムでのツール作成を中核とする次世代 Agents SDK です。並行して、@Cloudflare は Agent Lee をリリースしました。これはダッシュボード内のエージェントであり、サンドボックス化された TypeScript を使用して、Cloudflare の UI を手動のタブナビゲーションからプロンプト駆動型の操作へと移行させます。@BraydenWilmoth によって、インフラタスクの発行や UI 支援結果の生成を行う様子が示されました。

音声およびブラウザのツールチェーンもコアスタックに統合されました。@Cloudflare は、WebSockets を介した継続的な STT/TTS 用の実験的なリアルタイム音声パイプラインを提供し、@korinne_dev は、音声を同じエージェント接続上の単なる別の入力チャネルとして位置づけました。ブラウザ自動化については、@kathyyliao がリブランドされた Browser Run スタックを要約しました。これには Live View、人間による介入(human-in-the-loop)、セッション録画、CDP エンドポイント、WebMCP サポート、およびより高い制限値が含まれます。これらを総合すると、Cloudflare は、本格的なエージェントプラットフォームは、耐久性のあるランタイム+UI によるグラウンディング(grounding)+ブラウザ+音声+サンドボックスの組み合わせであることを強く示唆しています。

Hermes Agent の自己改善ワークフローと競合ポジショニング

Hermes Agent の特徴的なアイデアは、ツール使用だけでなく、永続的なスキル形成にあります。@joshesye による中国語の比較では、OpenClaw を GUI 優先で即座に使用できるパーソナルアシスタントとして、Hermes を「プロフェッショナル」なエージェントとして対比させています。Hermes は、完了したワークフローが再利用可能かどうかを判断し、それを自動的に Skill(スキル)に変換します。この「完了したタスクから学習する」という枠組みは繰り返し登場しました:@chooseliberty は、Hermes が追跡データを自動補完し、cron ジョブを更新し、その後ワークフローを再利用可能なスキルとして保存する自律的な例を示しました;@NeoAIForecast は、セッションの健全性(session hygiene)とスレッドの分岐・検索を強調し、これらが Hermes を使い捨てのチャットボックスではなく、本格的な作業環境へと転換するために重要であると指摘しました。

コミュニティの感情は、HermesをOpenClawに対して明確に位置づけており、その表現はしばしば率直なものでした。例えば、@vrloom、@theCTO、@Tekniumらは、Hermesが実際のワークフローで果たした役割を強調しました。その一例として、@elder_pliniusによる現在バイラル(拡散)しているGemma 4の「abliteration」事例が挙げられます。このエージェントは保存されたスキルを読み込み、Gemma 4のNaN(Not a Number)不安定性を診断し、基盤ライブラリにパッチを当て、複数のメソッドを再試行し、結果をベンチマークし、モデルカードを生成し、アーティファクトをHugging Faceにアップロードしました。これに加え、具体的な製品機能の追加もありました。@0xme66による/browser接続を通じたブラウザ制御、@TekniumによるQQBotおよびAWS Bedrockのサポート、@nesquenaによるネイティブSwiftデスクトップアプリのアルファ版、そしてartifact-previewやhermes-lcm v0.3.0などのエコシステムツールリングの継続的な開発です。

モデル、アーキテクチャ、トレーニングのリリース:スパース拡散、ループトランスフォーマー、効率的な長文脈MoE

複数の技術的に意味のあるオープンリリースが、各モーダリティ(データ形式)にわたって行われました。@withnucleusaiは、Nucleus-Imageを発表しました。これは最初のスパースMoE(Mixture of Experts:専門家混合)拡散モデルとして位置づけられており、17Bパラメータ、2Bアクティブパラメータ、Apache 2.0ライセンスで、重み、トレーニングコード、データセットレシピを提供し、diffusersにおけるDay-0サポートも実現しています。NVIDIAはLyra 2.0を発表しました。これは永続的で探索可能な3Dワールドを生成するためのフレームワークで、@NVIDIAAIDevによると、フレームごとの3D幾何学を維持し、自己_augmentedトレーニング(データ拡張)を用いて時間的なドリフト(ずれ)を削減します。マルチモーダル検索については、@thewebAIがwebAI-ColVec1をオープンソース化し、OCRや前処理なしでドキュメント検索においてViDoRe V3のトップパフォーマンスを達成していると主張しています。

計算効率に関するアーキテクチャ研究は特に活発でした。@hayden_prairie、@realDanFu、そして @togethercompute は Parcae を発表しました。これは安定したレイプループ処理型トランスフォーマーの定式化です。その主張は、固定されたパラメータ予算において、ブロックをループ処理することで約2倍の規模を持つモデルと同等の品質を回復でき、FLOPs(浮動小数点演算数)がパラメータやデータだけでなくループ処理を通じてスケールする、新たなスケーリング軸をもたらすというものです。NVIDIA も Nemotron 3 Super を発表しました。@dair_ai による要約によると、これはオープンな120Bのハイブリッド Mamba-Attention MoE(Mixture of Experts:専門家の混合)モデルで、アクティブパラメータは12B、コンテキスト長は1M、25Tトークンで学習されています。GPT-OSS-120B 比で最大2.2倍、Qwen3.5-122B 比で7.5倍のスループットを実現しています。これらのリリースは総じて、メモリ帯域幅とロングコンテキストのスループットが、ますます主要なアーキテクチャ上の目標となっていることを示しています。

Google/Gemini の製品急増:Mac アプリ、パーソナルインテリジェンス、TTS(Text-to-Speech:音声合成)、そしてオープンなマルチモーダルモデル

Google は1つのサイクルで複数のリリースを重ねました。最も目立ったのは、@GeminiApp、@joshwoodward、そして @sundarpichai によって発表された Mac 用のネイティブ Gemini アプリです。Option + Space での起動、画面共有、ローカルファイルのコンテキスト利用、Swift によるネイティブ実装、そして幅広い macOS での利用可能性が特徴です。並行して、パーソナルインテリジェンスが Gemini および Chrome でグローバルに展開され、Gmail や Photos などの製品からのシグナルをユーザーが接続できるようになりました。これは @Google と @GeminiApp によって、透明性とユーザー制御型のアプリ接続を軸に位置づけられています。

技術的に興味深いモデル発表として、Gemini 3.1 Flash TTS が挙げられます。@GoogleDeepMind、@OfficialLoganK、@demishassabis はこれを、Audio Tags(音声タグ)、70以上の言語、インラインの非言語的シグナル、マルチスピーカー対応、SynthID 透かし(透かし技術)を備えた、高度に制御可能な TTS(Text-to-Speech:音声合成)モデルとして位置づけました。@ArtificialAnlys による独立した評価では、Speech Arena(スピーチアリーナ)においてトップモデルからわずか4 Elo差の2位にランクインしました。また、Google は @osanseviero 経由で Apache 2.0 ライセンスの下、新しい事前トレーニングレシピを備えた基礎的なテキスト画像エンコーダーである TIPS v2 をオープンソース化しました。コミュニティからは、Google AI の製品リリース速度として非常に密度が高い日付であるとの指摘がありました。

研究シグナル:AI 支援数学、長期ホライゾンエージェント、評価のシフト、オープンデータ

最も示唆に富む研究議論は、AI 支援数学に関するものでした。@jdlichtman は、GPT-5.4 Pro が Erdős 問題 #1196 の証明を生成したと報告しました。これは、長年仮定されていた証明のトリックを拒否し、von Mangoldt 関数(フォン・マンゴルグ関数)を用いた技術的に直感に反する解析的経路を活用することで、専門家たちを驚かせました。@jdlichtman、@thomasfbloom、@gdb などの後続の議論は、これが数学者の広く認めるところとなる初の AI 生成「Book Proof」(ブックプルーフ:簡潔で完全な証明)になる可能性を示唆するものでした。これは単発の結果としてよりも、成熟した研究領域においてモデルが、非審美的ではあるがコンパクトな攻撃経路を occasionally(ときおり)見つけ出すことができるという証拠として重要です。

長期ホライゾンのエージェント研究も、状態管理とハーネス設計の収束を続けています。@omarsar0 は AiScientist をまとめました。これは、スリムなオーケストレーターが File-as-Bus パターンを通じて専用エージェントを調整するもので、このバス(通信経路)を削除すると PaperBench や MLE-Bench Lite の評価結果に重大な悪影響が生じます。@dair_ai は、継続的な小規模モデルの改善ループのための Pioneer Agent を強調し、@yoonholeee は Meta-Harness をオープンソース化しました。これは新しいドメインで堅牢なハーネスを実装するユーザーを支援することを目的としたリポジトリです。評価(evals)については、@METR_Evals が Gemini 3.1 Pro (high thinking) をソフトウェアタスクにおいて約6.4時間の50%タイムホライゾンで推定し、@arena は Document Arena のトップランクが Claude Opus 4.6 Thinking で1位となり、Kimi-K2.5 Thinking がベストなオープンモデルであることを示しました。一方、@TeraflopAI は SEC EDGAR データの43Bトークンを公開し、その日のより広範なオープンデータセットおよびオープンインフラストラクチャへの推進を強化しました。

エンゲージメント(反応)の多いトップツイート

Mac 版 Gemini: @sundarpichai と @GeminiApp が、ネイティブデスクトップアプリに関する最大のローンチエンゲージメントを牽引しました。

Gemini 3.1 Flash TTS: @OfficialLoganK と @GoogleDeepMind が、大幅に制御可能な TTS スタックを強調しました。

AI 支援数学証明: @jdlichtman と @gdb が、当日の最も強力な研究議論を引き起こしました。

OpenAI Agents SDK の更新: @OpenAIDevs が、オープンハーネスおよびパートナーサンドボックスへの意味のあるプラットフォームシフトを示しました。

Nature誌に掲載されたAnthropicの潜在学习に関する論文:@AnthropicAIは、トレーニングデータを通じた隠れた特性の伝達について大きな注目を集めました。

AI Reddit recap

/r/LocalLlama および /r/localLLM の recap

続きを読む

原文を表示

Hot on the heels of the Death of the Code Review, the Pull Request may be next.

For anyone that learned to code in the last 15 years it is hard to imagine a life without Git, GitHub, and Pull Requests, but there was a time before them, and it well may come to pass that there is life after.

Pull Requests were arguably invented in 2005, successfully popularized by GitHub, and only 21 years later, GitHub is for the first time in history allowing people to disable pull requests on their open source repos (you could only disable issues before).

image
image

The rise of Generative AI in code has spelled the pending death of the Pull Request for a while now — Pete Steinberger is by now well known (along with Theo) for only wanting Prompt Requests rather than Pull Requests (for multiple reasons, eg 1) no merge conflicts, 2) it’s easier for the maintainer to fix/add to the prompt than to look at code, 3) less likely to have malicious/insecure code slipped into an innocent looking PR), and other folks like Mitchell Hashimoto and Amp Code have created “reputation”-based systems for handling untrusted code contributions.

In Building for Trillions of Agents, Aaron Levie noted that “the path forward is to make software that agents want.” Humans invented git for human collaboration reasons. It’s increasingly clear that Git-based workflows may not be suitable once we remove the human bottleneck from the flow of code.

And if Code Reviews are dead, and Pull Reviews are dead… how long until Git itself is dead?

AI News for 4/14/2026-4/15/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

AI Twitter Recap

OpenAI Agents SDK Expansion and the New Sandbox-Oriented Agent Stack

OpenAI split the agent harness from compute/storage and pushed its Agents SDK toward long-running, durable agents with primitives for file/computer use, skills, memory, and compaction. The harness is now open-source and customizable, while execution can be delegated to partner sandboxes instead of being tightly coupled to OpenAI infra, per @OpenAIDevs, follow-up, and @snsf. This effectively makes “Codex-style” agents more reproducible by third parties and shifts differentiation toward orchestration, state management, and secure execution.

A notable ecosystem formed around that launch immediately: @CloudflareDev, @modal, @daytonaio, @e2b, and @vercel_dev all announced official sandbox integrations. The practical pattern is converging on stateless orchestration + stateful isolated workspaces. Example builds already appeared, including a Modal-backed ML research agent with GPU sandboxes, subagents, persistent memory, and fork/resume snapshots from @akshat_b, and Cloudflare guides for Python agents that execute tasks in a sandbox and copy outputs locally from @whoiskatrin.

Cloudflare’s Project Think, Agent Lee, and Voice Agents

Cloudflare had one of the busiest agent-infra release cycles. @whoiskatrin and @aninibread introduced Project Think, a next-gen Agents SDK centered on durable execution, sub-agents, persistent sessions, sandboxed code execution, a built-in workspace filesystem, and runtime tool creation. In parallel, @Cloudflare launched Agent Lee, an in-dashboard agent using sandboxed TypeScript to shift Cloudflare’s UI from manual tab navigation to prompt-driven operations; @BraydenWilmoth showed it issuing infra tasks and generating UI-backed results.

Voice and browser tooling also moved into the core stack. @Cloudflare shipped an experimental real-time voice pipeline over WebSockets for continuous STT/TTS, while @korinne_dev described voice as just another input channel over the same agent connection. On browser automation, @kathyyliao summarized the rebranded Browser Run stack: Live View, human-in-the-loop intervention, session recordings, CDP endpoints, WebMCP support, and higher limits. Taken together, Cloudflare is making a strong case that the production agent platform is really a composition of durable runtime + UI grounding + browser + voice + sandbox.

Hermes Agent’s Self-Improving Workflow and Competitive Positioning

Hermes Agent’s distinctive idea is not just tool use but persistent skill formation. A Chinese-language comparison from @joshesye contrasts OpenClaw as a more GUI-first, ready-to-use personal assistant with Hermes as a “professional” agent that decides whether a completed workflow is reusable and automatically turns it into a Skill. This “learn from completed tasks” framing appeared repeatedly: @chooseliberty showed Hermes autonomously backfilling tracking data, updating a cron job, then saving the workflow as a reusable skill; @NeoAIForecast emphasized session hygiene and thread branching/search as critical to turning Hermes into a real work environment rather than a disposable chat box.

Community sentiment strongly positioned Hermes against OpenClaw, often bluntly. Examples include @vrloom, @theCTO, and @Teknium highlighting Hermes’ role in real workflows, including the now-viral autonomous Gemma 4 “abliteration” story from @elder_plinius: the agent loaded a stored skill, diagnosed NaN instability in Gemma 4, patched the underlying library, retried multiple methods, benchmarked the result, generated a model card, and uploaded artifacts to Hugging Face. There were also concrete product additions: browser control via /browser connect from @0xme66, QQBot + AWS Bedrock support from @Teknium, a native Swift desktop app alpha from @nesquena, and ongoing ecosystem tooling like artifact-preview and hermes-lcm v0.3.0.

Model, Architecture, and Training Releases: Sparse Diffusion, Looped Transformers, and Efficient Long-Context MoEs

Several technically meaningful open releases landed across modalities. @withnucleusai announced Nucleus-Image, positioned as the first sparse MoE diffusion model: 17B parameters, 2B active, Apache 2.0, with weights, training code, and dataset recipe, and day-0 support in diffusers. NVIDIA followed with Lyra 2.0, a framework for generating persistent, explorable 3D worlds that maintains per-frame 3D geometry and uses self-augmented training to reduce temporal drift, per @NVIDIAAIDev. On multimodal retrieval, @thewebAI open-sourced webAI-ColVec1, claiming top ViDoRe V3 performance for document retrieval without OCR or preprocessing.

Architecture research around compute efficiency was especially strong. @hayden_prairie, @realDanFu, and @togethercompute introduced Parcae, a stabilized layer-looping Transformer formulation. The claim: for fixed parameter budgets, looping blocks can recover the quality of a model roughly 2x the size, yielding a new scaling axis where FLOPs scale via looping, not just parameters/data. NVIDIA also surfaced Nemotron 3 Super, summarized by @dair_ai: an open 120B hybrid Mamba-Attention MoE with 12B active parameters, 1M context, trained on 25T tokens, with up to 2.2x throughput vs GPT-OSS-120B and 7.5x vs Qwen3.5-122B. These releases collectively point to a theme: memory bandwidth and long-context throughput are increasingly first-class architectural objectives.

Google/Gemini’s Product Surge: Mac App, Personal Intelligence, TTS, and Open Multimodal Models

Google stacked multiple launches in one cycle. The most visible was the native Gemini app for Mac, announced by @GeminiApp, @joshwoodward, and @sundarpichai: Option + Space activation, screen sharing, local file context, native Swift implementation, and broad macOS availability. In parallel, Personal Intelligence expanded globally in Gemini and into Chrome, allowing users to connect signals from products like Gmail and Photos, framed around transparency and user-controlled app connections by @Google and @GeminiApp.

The more technically interesting model launch was Gemini 3.1 Flash TTS. @GoogleDeepMind, @OfficialLoganK, and @demishassabis positioned it as a highly controllable TTS model with Audio Tags, 70+ languages, inline nonverbal cues, multi-speaker support, and SynthID watermarking. Independent evaluation from @ArtificialAnlys put it at #2 on its Speech Arena, just 4 Elo behind the top model. Google also open-sourced TIPS v2, a foundational text-image encoder under Apache 2.0 with new pretraining recipes, via @osanseviero, and the community flagged the day as unusually dense for Google AI product velocity.

Research Signals: AI-Assisted Math, Long-Horizon Agents, Eval Shifts, and Open Data

The highest-signal research discourse was around AI-assisted mathematics. @jdlichtman reported that GPT-5.4 Pro produced a proof for Erdős problem #1196, surprising experts by rejecting a long-assumed proof gambit and instead exploiting a technically counterintuitive analytic path using the von Mangoldt function. Follow-ups from @jdlichtman, @thomasfbloom, @gdb, and others framed it as potentially the first AI-generated “Book Proof” broadly respected by mathematicians. That matters less as a one-off result than as evidence that models may now occasionally find non-aesthetic but compact lines of attack in mature research spaces.

Long-horizon agent research also kept converging on state management and harness design. @omarsar0 summarized AiScientist, where a thin orchestrator coordinates specialized agents through durable workspace artifacts in a File-as-Bus pattern; removing that bus hurts PaperBench and MLE-Bench Lite materially. @dair_ai highlighted Pioneer Agent for continual small-model improvement loops, while @yoonholeee open-sourced Meta-Harness, a repo meant to help users implement robust harnesses in new domains. On evals, @METR_Evals estimated Gemini 3.1 Pro (high thinking) at a 50% time horizon of ~6.4 hours on software tasks, and @arena showed Document Arena top ranks shifting with Claude Opus 4.6 Thinking at #1 and Kimi-K2.5 Thinking as the best open model. Meanwhile, @TeraflopAI released 43B tokens of SEC EDGAR data, reinforcing the day’s broader push toward more open datasets and open infrastructure.

Top tweets (by engagement)

Gemini on Mac: @sundarpichai and @GeminiApp drove the biggest launch engagement around the native desktop app.

Gemini 3.1 Flash TTS: @OfficialLoganK and @GoogleDeepMind highlighted a materially more controllable TTS stack.

AI-assisted math proof: @jdlichtman and @gdb sparked the strongest research discussion of the day.

OpenAI Agents SDK update: @OpenAIDevs marked a meaningful platform shift toward open harnesses and partner sandboxes.

Anthropic’s subliminal learning paper in Nature: @AnthropicAI drew major attention to hidden-trait transmission through training data.

AI Reddit Recap

/r/LocalLlama + /r/localLLM Recap

Read more

この記事をシェア

関連記事

GitHub Blog★42026年4月28日 19:01

GitHubの利用状況に関する最新情報

GitHubは、最近の2件のインシデントを受け、サービスの信頼性向上と障害時のフェイルオーバー能力を大幅に改善するため、2025年10月から容量を10倍にする計画を実行中であると発表した。

GitHub Changelog★32026年4月24日 04:10

グローバルプルリクエストダッシュボードがオプトアウト公開プレビューへ移行

GitHubが、全ユーザー向けにプルリクエスト管理ダッシュボードをデフォルト有効化するオプトアウト公開プレビューを開始した。ユーザーは初期表示設定を変更可能。

TLDR AI★42026年6月9日 09:00

OpenAI のデータベース変更分析(28 分読)

OpenAI は SchemaFlow を公開し、構造化されたリクエストの解析から影響分析、SQL 生成、ガードレール、評価までを支援する AI 活用ワークフローを示した。小売業の例だが、企業全体のデータ処理に適用可能である。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む