#agent のAIニュース

35件の記事

Vercel でエージェントに製品デザインを教える

Vercel は、コーディングエージェントが既存のスタイルやパターンを模倣する能力は高いものの、その背景にある設計思想や文脈を理解できない課題を指摘し、コードベース外の知識をどう学習させるかについて議論している。

エージェント性は十分か？独自ツールを用いたオープンモデルのベンチマーク調査

Hugging Face が、独自に構築したツール環境において、オープンソースモデルがどれほど「エージェント性」を発揮できるかを評価するベンチマーク手法を発表しました。

エージェント駆動型デプロイメントを特徴とする「Cloudflare One」スタックの発表

クラウドフレアは、ゼロトラストネットワークアーキテクチャへの移行や採用が抱える課題に対し、セキュリティポリシーやルーティングの意図を解読する手作業を軽減するため、「エージェント駆動型デプロイメント」機能を備えた「Cloudflare One」スタックを発表した。

Cloudflare Blog·6月17日·★★★★

ループエンジニアリングの芸術

LangChain は、信頼性の高いエージェントを実現するには優れたモデルだけでなく、特定のタスク向けに設計された慎重なハネスが必要だと説明し、コア・エージェント・ループやスタッキング手法について解説している。

LangChain Blog·6月17日·★★★★

2026 年に LLM エンジニアになるためのロードマップ

KDnuggets が、2026 年までに大規模言語モデルエンジニアとして活躍するための学習経路と必要なスキルを提示した。

KDnuggets·6月16日·★★★★

庭が枯れかけているので、私はそのためのアプリを作りました

The Verge の記事によると、著者は Gemini に詳細な指示を出して数分後に動作するアプリとバグ報告を受け取り、自動修復ボタンで対応した事例を紹介しています。

The Verge AI·6月13日

エージェントとアプリケーションの間の欠落したリンク

LangChain が、自律的な AI エージェントを実用的なアプリケーションに統合するための重要な仕組みや手法について解説している。

LangChain Blog·6月11日·★★★★

ペルソナ・アトラス：著名な思考者の思考マップを可視化

Hugging Face が「Persona Atlas」を発表し、著名な人物の思考パターンや認知特性をマッピングする手法を公開した。これは AI の推論能力向上や人間理解の深化に寄与する研究である。

Hugging Face Blog·6月6日

大規模な継続的トレースインテリジェンスの実現方法について（8 分読了）

Braintrust の創設者アンクル・ゴヤルは、標準的な NLP ツールが処理できない数百万トークンの生産用エージェントトレースを分析する知能層「Topics」を発表した。このパイプラインは、LLM サマリーを活用してコンテキストウィンドウの制限を超え、大規模なトレース解析を可能にする。

TLDR AI·6月5日·★★★★

Amazon SageMaker AI で SFT と DPO を活用し、エージェントのツール呼び出し精度を向上させる方法

AWS は、Amazon SageMaker AI を使用して教師あり学習（SFT）と直接最適化（DPO）を適用することで、AI エージェントが適切なツールを選択する精度を高め、エラー率やサポートコストを削減できると発表した。

AWS Machine Learning Blog·6月4日·★★★★

マイクロソフトの「Project Solara」はアプリではなくエージェント向けに設計された Android OS

マイクロソフトが Build 2026 で発表した「Project Solara」は、従来のアプリ実行を前提とせず、AI エージェントの実行に特化した新しい Android ベースのオペレーティングシステムである。

Ars Technica AI·6月3日

OpenAI、ホワイトカラー業務向け新 Codex ツールを発売

OpenAI は企業ユーザー獲得に注力し、職場での知識労働活用を拡大する目的で、エージェント型ツール「Codex」の新機能セットと利用状況に関する内部報告書を公開した。

TechCrunch AI·6月3日·★★★★

Cursor がチーム利用制限を拡大

開発支援 AI ツール「Cursor」が、企業向けプランにおけるチームメンバーの利用上限を引き上げました。これにより、大規模な開発チームでもより多くのメンバーがツールを活用できるようになります。

TLDR AI·6月2日·★★★★

今日は何も大きな出来事はありませんでした

Smol AI News は、5 月 28 日から 29 日にかけての期間に、12 のサブレッドや 544 件のツイートを調査しましたが、特に注目すべき AI テクノロジー関連のニュースは発生しませんでした。

Smol AI News·5月29日·★★★★

[AI ニュース] すべてのモデルラボが今やエージェントラボへと変貌している

Greg は、来週の OpenAI の IPO 申請を前に、従来の「ビッグチーム」の立場から大きく転換し、モデル開発企業が製品としてエージェント構築に注力している現状を指摘した。

Latent Space·5月23日·★★★★★

トークンストリームからエージェントストリームへ

LangChain と LangGraph が、Deep Agents の最新ストリーミング機能を活用し、型安全なイベントやマルチモーダル出力を実現するプロダクション対応のエージェントアプリケーション構築を可能にした。

LangChain Blog·5月22日·★★★★

重要な更新：Gemini CLI を「Antigravity CLI」へ移行

Google は、コミュニティ向けの Gemini CLI を、複雑なマルチエージェントワークフロー向けに設計された新しいエージェントファーストプラットフォームである Antigravity CLI へ移行すると発表した。

Google Developers AI·5月19日·★★★★

汎用アクセシビリティエージェントの構築と、その過程で得た教訓

GitHub は、エンジニアが GitHub Copilot CLI や VS Code 統合内でアクセシビリティに関する質問に即座に回答を得られるよう、実験的な汎用アクセシビリティエージェントをパイロット運用している。

GitHub Blog·5月16日·★★★★

Claude Code の製品責任者が利用制限や透明性、そして「リーン・ハネス」について語る

Anthropic の Claude Code 製品責任者 Cat Wu は、同社に長期ロードマップがない理由を説明し、モデル能力の向上と開発者のフィードバックが計画を不要にする可能性があると語った。

Ars Technica AI·5月15日

OpenAI のコード生成ツール「Codex」が ChatGPT モバイルアプリに搭載

OpenAI は、デスクトップ向け AI ツール「Codex」の機能を ChatGPT モバイルアプリにも導入した。これは競合他社の Claude Code 人気への対抗策として急ピッチで開発されたものである。

The Verge AI·5月15日·★★★★

SocialReasoning-Bench：AI エージェントがユーザーの利益のために行動できるかを測定するベンチマーク

マイクロソフト研究所は、AI エージェントがユーザーの代わりに交渉や対話を行う際に必要な社会的推論能力を評価する「SocialReasoning-Bench」を発表した。このベンチマークは、2 つの実用的なシナリオにおいて、エージェントがユーザーの最善の利益のために行動できるかをテストするものである。

Microsoft Research·5月12日·★★★★

GPT-Realtime-2、-Translate、-Whisper：新SOTAリアルタイム音声APIの登場

AIニュース発信元が、OpenAI が発表した新しい SOTA（最新技術）リアルタイム音声 API「GPT-Realtime-2」「-Translate」「-Whisper」について報じた。これらは音声処理の速度と精度を大幅に向上させる新機能である。

Smol AI News·5月7日·★★★★★

本日は特に目立った出来事なし

AIニュースの週報が、12 のサブレディットと 544 のツイートを調査したが、特筆すべき進展や発表は確認されなかった。

Smol AI News·5月6日·★★★★

Windsurf IDE バージョン2.2.17の更新内容：Devin機能追加とWindows不具合修正

Windsurf IDEはバージョン2.2.17をリリースし、既存サブスクリプションユーザーがDevin ReviewやQuick Reviewを利用可能になった。また、エージェントコマンドセンターの表示改善やWindows版のアップデート不具合を修正した。

Windsurf Changelog·5月6日

リインフォースド・エージェント：ツール呼び出し型エージェントへの推論時フィードバック

ACL 2026 ワークショップで採択された研究が、LLM の軌道評価が事後処理に留まる課題を指摘し、実行ループ内でリアルタイムに修正可能な「リインフォースド・エージェント」の手法を提案した。

Apple Machine Learning·5月1日·★★★★

エージェント改善ループはトレースから始まる

トレーシングはエージェントの理解と改善の基盤となる。自動化された評価者、人間のレビュー、オフライン評価、回帰テストを通じてAIデータフライホイールを駆動する方法を示す。

LangChain Blog·4月23日·★★★★

Better Harness：評価を用いたハルクライミングによる最適化レシピ

本研究は、評価（evals）を学習信号として用い、エージェントのハルクライミングにより「Better Harness」を反復的に構築・改善するシステムを紹介する。この手法は、エージェントの過学習を防ぎ、一般化能力を高める設計決定を含む。

LangChain Blog·4月22日

frontier AI 能力を測定するオープンワールド評価

研究者らは、主要ベンチマークが飽和した現在、AI が実製品開発や科学実験など現実世界でどのように機能するかを評価する「オープンワールド評価」を導入した。この論文は、その定義と手法について詳述している。

AI Snake Oil·4月17日·★★★★

【AIニュース】人類の最後の息吹

Aaron Levie氏によると、AI導入により業務負荷が軽減されるどころか、シリコンバレーのチームは過去最高に繁忙化している。Tyler Cowen氏も、AIが価値を下げようとも上げようとも、今こそ努力すべきだと経済学的に主張している。

Latent Space·4月15日·★★★★

階躍星辰コアチームがReddit r/LocalLLaMAに登場：Step 3.5 Flashのエンジニアリングトレードオフと次のステップ

階躍星辰のコア研究開発チームが、Redditのr/LocalLLaMAコミュニティで、Step 3.5 Flashモデルの設計思想（知能密度・推論速度・エージェント能力）と技術的トレードオフについて開発者と直接対話した。

阶跃星辰·2月27日·★★★★

monday Service + LangSmith: 初日からコードファーストの評価戦略を構築

monday Serviceが、顧客対応サービスエージェント向けに評価主導の開発フレームワークを構築した方法を紹介。

LangChain Blog·2月18日·★★★★

Interrupt: The Agent Conferenceにご参加ください

LangChain主催のInterruptは、実運用で有効なエージェント技術を学ぶ開発者向けカンファレンス。今年は1000人以上が集い、次世代エージェントの展望を共有します。

LangChain Blog·2月13日

AnthropicがCoworkを発表、ファイル内で動作するClaude Desktopエージェントでコーディング不要

AnthropicがCoworkをリリース。Claude Codeの機能を非技術ユーザー向けに拡張し、ファイル内でAIエージェントが動作するデスクトップツール。

VentureBeat AI·1月12日·★★★★

汎用エージェントモデルSeed1.8が正式リリース

バイトダンスが、検索、コード生成、GUI操作の機能を統合した汎用エージェントモデル「Seed1.8」を正式にリリースした。

字节跳动Seed·12月18日·★★★★

Spec-FirstとテストファーストでAI開発の品質を向上させる

Claude Codeを用いてSpec-Firstとテストファーストを実践し、AI生成コードの品質向上に取り組んだ事例を紹介。

Mirai Translate Tech Blog·12月18日·★★★★