#agentic ai のAIニュース

140件の記事

AIモデルは人間設計の構成要素なしではロボット制御に失敗するが、エージェント的足場がギャップを埋める

Nvidia、UCバークレー、スタンフォード大学の研究チームは、AIモデルがコードを通じてロボットを制御する能力を体系的にテストした。人間設計の抽象化がなければ最先端モデルでも失敗するが、テスト時計算スケーリングなどの手法がギャップを埋めることを発見した。

The Decoder·4月2日·★★★★

本日の動向：ArceeのTrinity-Large-ThinkingとZ.aiのGLM-5V-Turboなど

ArceeはApache 2.0ライセンスで400B/13BのTrinity-Large-Thinkingを公開し、PinchBenchで2位を獲得した。Z.aiはマルチモーダル融合のGLM-5V-Turboをリリースし、TIIもオープン語彙のFalcon Perceptionを提供した。

Smol AI News·4月1日·★★★★

AIの野望にガバナンスは追いつけるか？エージェント時代のAIリスクインテリジェンス

アマゾンが、従来のDevOpsと異なるAIシステムの予測不可能性と動的依存関係に対応するガバナンスフレームワークの必要性を指摘している。

AWS Machine Learning Blog·4月1日·★★★★

Amazon Bedrock AgentCoreとAmazon Nova Sonic 2.0を使用したエージェント型AI映画アシスタントで超パーソナライズされた視聴体験を提供

Amazonは、エージェント型AI映画アシスタントをAmazon Bedrock AgentCoreとAmazon Nova Sonic 2.0で開発し、時間帯や気分などの文脈に応じた超パーソナライズされた視聴体験を提供する。

AWS Machine Learning Blog·3月31日·★★★★

Import AI 451：政治的スーパーインテリジェンス、Googleの「心の社会」、そしてロボットドラマー

Jack Clarkは、AIを用いた「政治的スーパーインテリジェンス」の構築可能性と、その社会への利益実現には強い意図が必要だと指摘。また、Googleの「心の社会」に関する議論や、ロボットドラマーの事例を紹介し、AI研究の最新動向を伝えている。

Import AI·3月30日

アリババが企業向けエージェントツールを発表

アリババが企業向けAIエージェントツールを発表した。同ツールは業務自動化や顧客対応の効率化を目的としている。

AI Business·3月23日·★★★★

エージェント型RAGは本当に必要なのか？〜RAGの社内実験と最新研究から考察

著者が2026年に注目されるエージェント型RAGについて、社内実験の比較結果と最新研究を紹介し、エンタープライズ検索に近いタスクでの検証結果と研究動向を整理した。

HEROZ Tech Blog·3月23日

このスタートアップは、エンタープライズソフトウェアをプロンプトのように見せたいと考えている

同社は、エンタープライズ向けAIオペレーティングシステムを構築するために1200万ドルのシード資金を調達した。

TechCrunch AI·3月19日·★★★★

GPT 5.4はCodexにとって大きな一歩

筆者はGPT 5.4のレビューを遅延させた理由として、エージェント構築における重要軸の考察に時間を割いたことを明かす。従来のベンチマークが正解率という単一スコアに依存する限界を指摘し、より解釈可能な評価指標の必要性を示唆している。

Interconnects·3月18日·★★★★

ServiceNow Researchが「EnterpriseOps-Gym」を公開：現実的な企業環境におけるエージェント型計画評価の高忠実度ベンチマーク

ServiceNow Research、Mila、モントリオール大学は、大規模言語モデルの企業実装課題を解決するため、長期計画や状態変化を評価するベンチマーク「EnterpriseOps-Gym」を開発した。

MarkTechPost·3月18日·★★★★

エージェントAIが置き換え不可能なシステムを修復する方法

スタッフライターが、AIエージェントがレガシーシステムの蓄積された層の特性を学習することで、組織の知識を保存し、様々なサービスへの統一インターフェースを提供できると説明している。

Amazon Science·3月16日·★★★★

NTTデータとNVIDIA、企業向けAIファクトリーを生産規模で提供

NTTデータは、企業がAIを拡張するための再現可能で本番環境対応のモデルを提供するNVIDIA搭載プラットフォームの提供を発表した。このプラットフォームは、NVIDIAのGPU高速コンピューティングと高性能ネットワーキング、NVIDIA AI Enterpriseソフトウェアを統合し、クラウドおよびエッジ環境に展開可能なフルスタックのエージェントAIプラットフォームを構成する。

AI News·3月16日·★★★★

プレゼンテーション：AIネイティブ開発の4つのパターン

Patrick Debois氏が、AI時代のソフトウェアエンジニアリングの進化について議論し、プロデューサーからマネージャーへの移行、仕様駆動開発による実装より意図への焦点、配信から発見への移行、エージェント知識の管理という4つの主要パターンを共有した。

InfoQ·3月9日·★★★★

エージェント型手動テスト

サイモン・ウィリソン氏が、コードを実行して検証できるコーディングエージェントの利点を説明し、LLMが生成したコードは実行確認が必要と指摘している。

Simon Willison Blog·3月6日·★★★★

人間とエージェント的AIのチーム形成の展望：継続性、緊張、未来研究

研究者らは、自律行動・生成表現・進化目標を持つエージェント的AIシステムの台頭が、行動軌道・認識的基盤・論理の安定性に関する構造的不確実性を人間-AIチーム形成にもたらすと指摘する。

ArXiv cs.AI·3月6日·★★★★

自己帰属バイアス：AIモニターが自らを甘く評価する傾向

研究者らが、言語モデルが自身の行動を監視する際、ユーザーではなく自身が提示した行動を評価すると、自己帰属バイアスが生じ、甘い評価を下す傾向があることを示した。

ArXiv cs.AI·3月6日·★★★★

6000万件のCopilotコードレビューを達成

GitHubは、Copilotコードレビュー（CCR）の利用が昨年4月の開始から10倍に増加し、現在GitHub上のコードレビューの5件に1件以上を占めていると発表した。同社はコメント品質向上のための継続的な実験を実施し、リポジトリの文脈を取得するエージェント型アーキテクチャに移行した。

GitHub Blog·3月6日·★★★★

GPT 5.4がAI Gatewayで利用可能に

OpenAIがGPT-5.4とGPT-5.4 ProをAI Gatewayでリリースした。このモデルは、コーディングだけでなく報告書や分析などの知識作業でも複数ステップのワークフローを効率的に処理し、前世代より高速でトークン効率が向上している。

Vercel Blog·3月5日·★★★★

LioがAndreessen Horowitzなどから3000万ドルを調達し、企業調達の自動化を推進

AI調達スタートアップのLioが、Andreessen Horowitz主導で3000万ドルのシリーズA資金を調達した。

TechCrunch AI·3月5日·★★★★

パイロット段階を超えて：Dyna.Aiが8桁のシリーズAを調達し、金融サービス向けエージェントAIを実用化へ

シンガポールのDyna.Aiが、金融機関向けエージェントAIサービスを実用化するため、Lion X Ventures主導で8桁のシリーズA資金を調達した。

AI News·3月5日·★★★★

Copilot MemoryがPro/Pro+ユーザー向けにデフォルトで有効化（パブリックプレビュー）

GitHubが、Copilot ProとCopilot Pro+ユーザー向けに、リポジトリレベルのコード理解を保持するCopilot Memory機能をデフォルトで有効化した。

GitHub Changelog·3月4日

LendiがAmazon Bedrockを使用したエージェントAIで顧客の借り換えプロセスを16週間で刷新

Lendi Groupは、Amazon Bedrockを活用したエージェントAIを導入し、住宅ローンの借り換えプロセスを16週間で刷新した。同社は、金利変動や個人事情の変化に対応しにくいという顧客の課題を解決した。

AWS Machine Learning Blog·3月4日·★★★★

TinesがAmazon Quick Suiteでセキュリティ分析を強化する方法

TinesはAmazon Quick Suiteを活用し、複数アプリに分散するセキュリティデータを自動相関・対応することで、組織の異常ログイン検知と対応を迅速化する。

AWS Machine Learning Blog·3月4日

カレンダー招待状だけでPerplexityのCometブラウザを乗っ取り、1Passwordの認証情報を盗む手法が実証

セキュリティ研究者が、改ざんされたカレンダー招待状でPerplexityのエージェント型Cometブラウザを騙し、ローカルファイルを盗んで1Passwordアカウントを完全に乗っ取る手法を実証した。

The Decoder·3月3日·★★★★

サンタンデール銀行とマスターカードが欧州初のAI実行支払いパイロットを実施

サンタンデール銀行とマスターカードが、欧州で初めてAIエージェントが人間の最終コマンドなしに銀行ネットワーク内で支払いを完了する実証実験を実施した。

AI News·3月3日·★★★★

PlanetScale、Bugbotで本番環境の信頼性を保護

PlanetScaleはBugbotを導入し、本番環境の信頼性を保護した。Bugbotは2人のフルタイムエンジニアに相当するレビュー作業を削減した。

Cursor Blog·3月2日

金融サービスにおけるAI導入は不可逆的な段階に到達

Finastraの調査によると、金融機関の98%が何らかのAIを活用しており、導入は不可逆的段階に達した。CIOらは今後、AI活用の深化と機会・課題への対応が求められる。

AI News·3月2日·★★★★

アイデアからプルリクエストへ：GitHub Copilot CLIで構築する実践ガイド

GitHubが、開発者がターミナルでプロジェクトを初期化・テスト・デバッグする現実に合わせて、GitHub Copilot CLIが意図からレビュー可能な差分まで直接支援する実践的なワークフローを紹介している。

GitHub Blog·2月28日

金融ワークフロー向けエージェントAIの信頼性向上

企業が顧客対応や事務作業に自動エージェントを導入する中、金融機関は特に多段階シナリオでの一貫性・説明可能性の課題を解決し、エージェントAIへの信頼向上を優先している。

AI News·2月27日·★★★★

ゴールドマン・サックスとドイツ銀行が取引監視にエージェントAIをテスト

ゴールドマン・サックスとドイツ銀行は、キーワード検索や事前設定ルールを超え、リアルタイムでパターンを推論し人間の審査が必要な行動を検知する「エージェントAI」を取引監視にテストしている。

AI News·2月27日·★★★★

AWS上のHugging Face smolagentsを用いたマルチモデルフレームワークによるエージェント型AI

Hugging FaceのJeff Boudierらは、AWS上でsmolagentsを用いたマルチモデルフレームワークによるエージェント型AIシステムを発表した。このシステムは、複雑な推論・ツール使用・コード実行が可能な自律エージェントへと進化し、企業向けに管理エンドポイントや自動スケーリング機能を提供する。

AWS Machine Learning Blog·2月24日·★★★★