#aiエージェント のAIニュース
324件の記事
Deep Agents改善でTop5達成
LangChainのコーディングエージェントがTop30からTop5へ向上
OpenAI Codex製品責任者:コードは人間が書かなくなるが、より多くの構築者が生まれる
OpenAI Codex責任者がAIコーディングの現状を語る。社内ではIDEを使わずCodex利用が20倍増。真の課題はモデルではなく人間の適応。オープン標準やエージェント市場の未来も議論。
ClaudeのPR自動修正機能
PR監視とCI自動修正機能を発表。開発効率向上の新機能。
Amazon Quick AgentsがModel Context Protocol (MCP)で外部ツールを統合
Amazon QuickがModel Context Protocol (MCP)をサポートし、ユーザーが独自のMCPサーバーをホストしてアプリケーション機能をツールとして公開できる。Amazon QuickはMCPクライアントとして機能し、アクション実行、データアクセス、AIエージェント統合を可能にする。
AnthropicのAIエージェント研究
Anthropicの新研究がAIエージェントの異常を発見
コードモード:1,000トークンでエージェントにAPI全体を提供
Cloudflare APIの2,500以上のエンドポイントを、コードモードにより2つのツールと約1,000トークンに圧縮し、効率的なAIエージェント連携を実現。
スキルズナイト:69,000以上の方法でエージェントがより賢くなっている
shu DingがReactに関する知識を文書化したことが始まりで、現在は69,000以上のスキル、200万回のスキルCLIインストールを持つオープンスキルエコシステム「skills.sh」が急速に成長している。
新たなオープンウェイトリーダー、巨大AIの政治的影響力、病気の予測、高速推論
AIニュース:オープンウェイトAIの進展、巨大AI企業の政治的影響、病気予測技術、高速推論手法についての最新動向を紹介。
エージェントの記憶効果測定改善
AIエージェントの記憶効果測定方法の改善についての発表
Cursorがエージェントサンドボックスを全OSで展開
CursorがmacOS、Linux、Windowsでエージェントサンドボックス機能を3ヶ月かけて展開
Notion CEO:エージェントが使えない製品に未来はない
Notion CEOは、エージェントによるメール管理の経験やAIモデル中立の「スイス戦略」への転換を語り、製品はAIエージェント対応が必須と主張。
Anthropic APIのエージェント利用動向
ソフトウェアエンジニアリングがAPI利用の約50%を占めるが、他分野でも利用拡大中
AIエージェント自律性の実践的測定
数百万のインタラクションを分析したAnthropicの新研究
EVMbench新ベンチマーク発表
AIエージェントの脆弱性検知・修正能力を評価する新ベンチマーク
LangSmithがGoogle Cloudで利用可能に
LangSmithがGoogle Cloud Marketplaceで提供開始。Google Cloud顧客が利用可能に。
IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断
IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。
EVMbenchの紹介
OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。
2026年2月18日 社会的影響 実践におけるAIエージェントの自律性測定
2026年2月18日に、AIエージェントの自律性を実践的に測定する方法とその社会的影響について考察された。
Claude Sonnet 4.6の紹介
Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。
アンソロピックとインフォシス、通信などの規制産業向けAIエージェント構築で協業
アンソロピックとインフォシスが、通信などの規制産業向けにAIエージェントを共同開発する協業を発表しました。
DifyにTinyFish統合、Webナビゲーション機能強化
DifyワークフローにTinyFishを追加し、エージェントのWebナビゲーション能力をSOTAレベルに向上
GitHub Agentic Workflowsでリポジトリタスクを自動化
GitHub Agentic Workflowsは技術プレビュー中で、GitHub Actions内のコーディングエージェントを使用して、トリアージ、ドキュメンテーション、コード品質などの自動化を構築できます。
CodexとClaudeによるすべてのためのカスタムカーネル
CodexとClaudeが提供するカスタムカーネルにより、あらゆるユーザーがAIモデルを自身のニーズに合わせて最適化できるようになります。
エージェント向けMarkdownの導入
オンラインコンテンツの発見方法が、従来の検索エンジンから構造化データを必要とするAIエージェントへ移行。人間だけでなくエージェントも第一級市民として扱い、HTMLを自動変換するMarkdown for Agentsを提案。
実践におけるOpenEnv:現実世界環境でのツール利用エージェントの評価
OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。
長期実行エージェントの研究プレビューを拡大
Cursorウェブアプリで、Ultra、Teams、Enterpriseユーザー向けに長期実行エージェントが利用可能になりました。
ハーネス・エンジニアリング:エージェントファーストの世界におけるCodexの活用
技術スタッフのRyan Lopopoloが、エージェントファーストの世界でCodexを活用するハーネス・エンジニアリングについて解説しています。
誰でもエージェントを構築できるが、実行にはプラットフォームが必要
AIモデルがコードとエージェント生成を一般化し、誰でも数分で高度なソフトウェアを構築できるようになった。しかし、プロトタイプ作成は民主化されたものの、本番環境へのデプロイは複雑でコストがかかる課題が残っている。
公開データの洞察を迅速に取得:Data Commons MCPがGoogle Cloudでホスト開始
Data CommonsがGoogle Cloud Platform上で無料のModel Context Protocolサービスを開始し、ユーザーはセットアップ不要で公開データの分析を迅速に行えるようになりました。
Software Design 連載「実録 AI ネイティブプロダクト開発」がスタートします!
LayerXによる新連載が開始。AIエージェントを実用化するための実践知を10回にわたり公開し、体験設計から運用監視まで網羅する。
LWiAIポッドキャスト #233 - Moltbot、Genie 3、Qwen3-Max-Thinking
GoogleがChromeにGemini AI搭載の自動ブラウズ機能を追加、ユーザーが常時稼働AIのオープンソースMoltbotに殺到、Qwen3-Max-Thinkingが登場など、最新AI動向を紹介。
スキルの評価
Dagsterスキルの効果を定量的に測定する軽量評価フレームワークを構築し、その結果を報告する。
実践的Continuous AI:エージェント型CIで開発者が今日から自動化できること
Continuous AIは、リポジトリ内で推論を必要とするタスクを実行するバックグラウンドエージェントとして機能し、開発プロセスの自動化を実現します。
自律型コードベースに向けて
マルチエージェント研究ハーネスの一部をプレビュー公開し、自律的なコード開発の実現を目指す取り組みを開始。
【2026年2月】AIエージェントのフレームワーク:いつ使う?どれを選ぶ?LangChain?Claude Agent SDK?
AIエージェント開発におけるフレームワーク(LangChain、Claude Agent SDK等)の選択基準と使用タイミングについて、アプリケーションの種類に応じた判断を解説。
AIエージェントキャッチアップ #66 - Agent Client Protocolを開催
エディターとコーディングエージェント間の通信を標準化する「Agent Client Protocol(ACP)」についての勉強会が開催されました。
DataOpsのループを閉じる:なぜ私たちがDagster+向けにCompassを構築したのか
検出はもはやボトルネックではなく、理解が課題です。CompassはDagster+の運用データを対話に変えることで、このループを閉じます。
構築、研究、共有学習を通じてAIコミュニティを活性化
AIの進歩には画期的なモデルだけでなく、実験や知識共有を行う構築者・研究者のコミュニティが不可欠であり、Amazonはこの考えに基づき開発者・研究者との関わりを深めている。
チャットボットを超えて:信頼できるAIのための青写真
Google開発者エキスパートチームがサンダーヒル・レースウェイパークで「信頼できるAIフレームワーク」をテストした。
Anthropicエージェントスキル新コース
Andrew Ng氏がAnthropicと共同開発したAIエージェントスキルコース発表
フックでGemini CLIをあなたのワークフローに合わせる
Gemini CLI v0.26.0以降で導入されたフック機能により、エージェントループをカスタマイズできます。コンテキストの追加、ポリシーの適用、シークレットのブロックが可能になります。
AIエージェントキャッチアップ #65 - Open Responsesを開催
OpenAIのResponses APIをオープン仕様化した「Open Responses」についての勉強会を開催。GitHubリポジトリや公式ドキュメントを紹介。
Multimodal reinforcement learning with agentic verifier for AI agents
データ検索基盤チームの立ち上げ
LayerXがデータ検索基盤チームを新設。生成AI時代に差別化を図るため、非構造化データを活用し、汎用AIエージェントプラットフォームの構築を目指す。
AIエージェントキャッチアップ #64 - Universal Commerce Protocol 開催
Googleが発表したエージェンティックコマースのプロトコル「Universal Commerce Protocol(UCP)」についての勉強会を開催しました。
Claudeとプロパティベーステストを用いたバグ発見
大規模ソフトウェアプロジェクトで、コードの一般特性を推論してバグを効率的に特定するエージェントを開発した。
強化学習によるマルチターンAIエージェントのカスタマイズ
既存の環境シミュレータと検証可能な真実に基づく報酬関数を活用することで、小規模モデルと訓練データでもタスク成功率を向上できる。
AIエージェントキャッチアップ #63 - A2UIを開催
AIエージェントとユーザー間のインターフェース「A2UI」についての勉強会を開催し、その概要と関連リソースを紹介しました。
Windsurf 1.13.6
WindsurfがCascade向けにAgent Skillsをサポートし、バグ修正やパフォーマンス向上、安定性・信頼性の改善を行った。
AIエージェントの評価を解明する
AIエージェントの有用性を評価する難しさと、複雑なシステムに対応するための評価戦略について説明しています。