#aiエージェント のAIニュース

324件の記事

Deep Agents改善でTop5達成

LangChainのコーディングエージェントがTop30からTop5へ向上

X: LangChain·2月22日·★★★★

OpenAI Codex製品責任者:コードは人間が書かなくなるが、より多くの構築者が生まれる

OpenAI Codex責任者がAIコーディングの現状を語る。社内ではIDEを使わずCodex利用が20倍増。真の課題はモデルではなく人間の適応。オープン標準やエージェント市場の未来も議論。

宝玉的分享·2月22日·★★★★

ClaudeのPR自動修正機能

PR監視とCI自動修正機能を発表。開発効率向上の新機能。

X: Claude·2月21日·★★★★

Amazon Quick AgentsがModel Context Protocol (MCP)で外部ツールを統合

Amazon QuickがModel Context Protocol (MCP)をサポートし、ユーザーが独自のMCPサーバーをホストしてアプリケーション機能をツールとして公開できる。Amazon QuickはMCPクライアントとして機能し、アクション実行、データアクセス、AIエージェント統合を可能にする。

AWS Machine Learning Blog·2月21日·★★★★

AnthropicのAIエージェント研究

Anthropicの新研究がAIエージェントの異常を発見

X: elvis·2月21日

コードモード:1,000トークンでエージェントにAPI全体を提供

Cloudflare APIの2,500以上のエンドポイントを、コードモードにより2つのツールと約1,000トークンに圧縮し、効率的なAIエージェント連携を実現。

Cloudflare Blog·2月20日·★★★★

スキルズナイト:69,000以上の方法でエージェントがより賢くなっている

shu DingがReactに関する知識を文書化したことが始まりで、現在は69,000以上のスキル、200万回のスキルCLIインストールを持つオープンスキルエコシステム「skills.sh」が急速に成長している。

Vercel Blog·2月20日·★★★★

新たなオープンウェイトリーダー、巨大AIの政治的影響力、病気の予測、高速推論

AIニュース:オープンウェイトAIの進展、巨大AI企業の政治的影響、病気予測技術、高速推論手法についての最新動向を紹介。

The Batch·2月20日

エージェントの記憶効果測定改善

AIエージェントの記憶効果測定方法の改善についての発表

X: elvis·2月20日

Cursorがエージェントサンドボックスを全OSで展開

CursorがmacOS、Linux、Windowsでエージェントサンドボックス機能を3ヶ月かけて展開

X: Cursor·2月20日

Notion CEO:エージェントが使えない製品に未来はない

Notion CEOは、エージェントによるメール管理の経験やAIモデル中立の「スイス戦略」への転換を語り、製品はAIエージェント対応が必須と主張。

宝玉的分享·2月19日·★★★★

Anthropic APIのエージェント利用動向

ソフトウェアエンジニアリングがAPI利用の約50%を占めるが、他分野でも利用拡大中

X: Anthropic·2月19日

AIエージェント自律性の実践的測定

数百万のインタラクションを分析したAnthropicの新研究

X: Anthropic·2月19日·★★★★

EVMbench新ベンチマーク発表

AIエージェントの脆弱性検知・修正能力を評価する新ベンチマーク

X: OpenAI·2月19日·★★★★

LangSmithがGoogle Cloudで利用可能に

LangSmithがGoogle Cloud Marketplaceで提供開始。Google Cloud顧客が利用可能に。

X: LangChain·2月19日·★★★★

IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断

IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。

Hugging Face Blog·2月19日·★★★★

EVMbenchの紹介

OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。

OpenAI News·2月18日·★★★★

2026年2月18日 社会的影響 実践におけるAIエージェントの自律性測定

2026年2月18日に、AIエージェントの自律性を実践的に測定する方法とその社会的影響について考察された。

Anthropic Research·2月18日·★★★★

Claude Sonnet 4.6の紹介

Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。

Anthropic News·2月17日·★★★★

アンソロピックとインフォシス、通信などの規制産業向けAIエージェント構築で協業

アンソロピックとインフォシスが、通信などの規制産業向けにAIエージェントを共同開発する協業を発表しました。

Anthropic News·2月17日·★★★★

DifyにTinyFish統合、Webナビゲーション機能強化

DifyワークフローにTinyFishを追加し、エージェントのWebナビゲーション能力をSOTAレベルに向上

X: Dify·2月16日

GitHub Agentic Workflowsでリポジトリタスクを自動化

GitHub Agentic Workflowsは技術プレビュー中で、GitHub Actions内のコーディングエージェントを使用して、トリアージ、ドキュメンテーション、コード品質などの自動化を構築できます。

GitHub Blog·2月13日·★★★★

CodexとClaudeによるすべてのためのカスタムカーネル

CodexとClaudeが提供するカスタムカーネルにより、あらゆるユーザーがAIモデルを自身のニーズに合わせて最適化できるようになります。

Hugging Face Blog·2月13日·★★★★

エージェント向けMarkdownの導入

オンラインコンテンツの発見方法が、従来の検索エンジンから構造化データを必要とするAIエージェントへ移行。人間だけでなくエージェントも第一級市民として扱い、HTMLを自動変換するMarkdown for Agentsを提案。

Cloudflare Blog·2月12日·★★★★

実践におけるOpenEnv:現実世界環境でのツール利用エージェントの評価

OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。

Hugging Face Blog·2月12日·★★★★

長期実行エージェントの研究プレビューを拡大

Cursorウェブアプリで、Ultra、Teams、Enterpriseユーザー向けに長期実行エージェントが利用可能になりました。

Cursor Blog·2月12日·★★★★

ハーネス・エンジニアリング:エージェントファーストの世界におけるCodexの活用

技術スタッフのRyan Lopopoloが、エージェントファーストの世界でCodexを活用するハーネス・エンジニアリングについて解説しています。

OpenAI News·2月11日·★★★★★

誰でもエージェントを構築できるが、実行にはプラットフォームが必要

AIモデルがコードとエージェント生成を一般化し、誰でも数分で高度なソフトウェアを構築できるようになった。しかし、プロトタイプ作成は民主化されたものの、本番環境へのデプロイは複雑でコストがかかる課題が残っている。

Vercel Blog·2月9日·★★★★

公開データの洞察を迅速に取得:Data Commons MCPがGoogle Cloudでホスト開始

Data CommonsがGoogle Cloud Platform上で無料のModel Context Protocolサービスを開始し、ユーザーはセットアップ不要で公開データの分析を迅速に行えるようになりました。

Google Developers AI·2月9日·★★★★

Software Design 連載「実録 AI ネイティブプロダクト開発」がスタートします!

LayerXによる新連載が開始。AIエージェントを実用化するための実践知を10回にわたり公開し、体験設計から運用監視まで網羅する。

LayerX Tech Blog·2月6日·★★★★

LWiAIポッドキャスト #233 - Moltbot、Genie 3、Qwen3-Max-Thinking

GoogleがChromeにGemini AI搭載の自動ブラウズ機能を追加、ユーザーが常時稼働AIのオープンソースMoltbotに殺到、Qwen3-Max-Thinkingが登場など、最新AI動向を紹介。

Last Week in AI·2月6日·★★★★

スキルの評価

Dagsterスキルの効果を定量的に測定する軽量評価フレームワークを構築し、その結果を報告する。

Dagster Blog·2月6日

実践的Continuous AI:エージェント型CIで開発者が今日から自動化できること

Continuous AIは、リポジトリ内で推論を必要とするタスクを実行するバックグラウンドエージェントとして機能し、開発プロセスの自動化を実現します。

GitHub Blog·2月6日·★★★★

自律型コードベースに向けて

マルチエージェント研究ハーネスの一部をプレビュー公開し、自律的なコード開発の実現を目指す取り組みを開始。

Cursor Blog·2月5日·★★★★

【2026年2月】AIエージェントのフレームワーク:いつ使う?どれを選ぶ?LangChain?Claude Agent SDK?

AIエージェント開発におけるフレームワーク(LangChain、Claude Agent SDK等)の選択基準と使用タイミングについて、アプリケーションの種類に応じた判断を解説。

Generative Agents·2月5日

AIエージェントキャッチアップ #66 - Agent Client Protocolを開催

エディターとコーディングエージェント間の通信を標準化する「Agent Client Protocol(ACP)」についての勉強会が開催されました。

Generative Agents·2月4日

DataOpsのループを閉じる:なぜ私たちがDagster+向けにCompassを構築したのか

検出はもはやボトルネックではなく、理解が課題です。CompassはDagster+の運用データを対話に変えることで、このループを閉じます。

Dagster Blog·2月3日·★★★★

構築、研究、共有学習を通じてAIコミュニティを活性化

AIの進歩には画期的なモデルだけでなく、実験や知識共有を行う構築者・研究者のコミュニティが不可欠であり、Amazonはこの考えに基づき開発者・研究者との関わりを深めている。

Amazon Science·2月3日

チャットボットを超えて:信頼できるAIのための青写真

Google開発者エキスパートチームがサンダーヒル・レースウェイパークで「信頼できるAIフレームワーク」をテストした。

Google Developers AI·1月29日·★★★★

Anthropicエージェントスキル新コース

Andrew Ng氏がAnthropicと共同開発したAIエージェントスキルコース発表

X: Andrew Ng·1月29日

フックでGemini CLIをあなたのワークフローに合わせる

Gemini CLI v0.26.0以降で導入されたフック機能により、エージェントループをカスタマイズできます。コンテキストの追加、ポリシーの適用、シークレットのブロックが可能になります。

Google Developers AI·1月28日·★★★★

AIエージェントキャッチアップ #65 - Open Responsesを開催

OpenAIのResponses APIをオープン仕様化した「Open Responses」についての勉強会を開催。GitHubリポジトリや公式ドキュメントを紹介。

Generative Agents·1月27日

Multimodal reinforcement learning with agentic verifier for AI agents

Microsoft Research·1月21日·★★★★

データ検索基盤チームの立ち上げ

LayerXがデータ検索基盤チームを新設。生成AI時代に差別化を図るため、非構造化データを活用し、汎用AIエージェントプラットフォームの構築を目指す。

LayerX Tech Blog·1月20日·★★★★

AIエージェントキャッチアップ #64 - Universal Commerce Protocol 開催

Googleが発表したエージェンティックコマースのプロトコル「Universal Commerce Protocol(UCP)」についての勉強会を開催しました。

Generative Agents·1月19日

Claudeとプロパティベーステストを用いたバグ発見

大規模ソフトウェアプロジェクトで、コードの一般特性を推論してバグを効率的に特定するエージェントを開発した。

Anthropic Red Team·1月14日·★★★★

強化学習によるマルチターンAIエージェントのカスタマイズ

既存の環境シミュレータと検証可能な真実に基づく報酬関数を活用することで、小規模モデルと訓練データでもタスク成功率を向上できる。

Amazon Science·1月14日·★★★★

AIエージェントキャッチアップ #63 - A2UIを開催

AIエージェントとユーザー間のインターフェース「A2UI」についての勉強会を開催し、その概要と関連リソースを紹介しました。

Generative Agents·1月13日

Windsurf 1.13.6

WindsurfがCascade向けにAgent Skillsをサポートし、バグ修正やパフォーマンス向上、安定性・信頼性の改善を行った。

Windsurf Changelog·1月12日

AIエージェントの評価を解明する

AIエージェントの有用性を評価する難しさと、複雑なシステムに対応するための評価戦略について説明しています。

Anthropic Engineering·1月9日·★★★★