#agentic ai のAIニュース
140件の記事
AIモデルは人間設計の構成要素なしではロボット制御に失敗するが、エージェント的足場がギャップを埋める
Nvidia、UCバークレー、スタンフォード大学の研究チームは、AIモデルがコードを通じてロボットを制御する能力を体系的にテストした。人間設計の抽象化がなければ最先端モデルでも失敗するが、テスト時計算スケーリングなどの手法がギャップを埋めることを発見した。
本日の動向:ArceeのTrinity-Large-ThinkingとZ.aiのGLM-5V-Turboなど
ArceeはApache 2.0ライセンスで400B/13BのTrinity-Large-Thinkingを公開し、PinchBenchで2位を獲得した。Z.aiはマルチモーダル融合のGLM-5V-Turboをリリースし、TIIもオープン語彙のFalcon Perceptionを提供した。
AIの野望にガバナンスは追いつけるか?エージェント時代のAIリスクインテリジェンス
アマゾンが、従来のDevOpsと異なるAIシステムの予測不可能性と動的依存関係に対応するガバナンスフレームワークの必要性を指摘している。
Amazon Bedrock AgentCoreとAmazon Nova Sonic 2.0を使用したエージェント型AI映画アシスタントで超パーソナライズされた視聴体験を提供
Amazonは、エージェント型AI映画アシスタントをAmazon Bedrock AgentCoreとAmazon Nova Sonic 2.0で開発し、時間帯や気分などの文脈に応じた超パーソナライズされた視聴体験を提供する。
Import AI 451:政治的スーパーインテリジェンス、Googleの「心の社会」、そしてロボットドラマー
Jack Clarkは、AIを用いた「政治的スーパーインテリジェンス」の構築可能性と、その社会への利益実現には強い意図が必要だと指摘。また、Googleの「心の社会」に関する議論や、ロボットドラマーの事例を紹介し、AI研究の最新動向を伝えている。
アリババが企業向けエージェントツールを発表
アリババが企業向けAIエージェントツールを発表した。同ツールは業務自動化や顧客対応の効率化を目的としている。
エージェント型RAGは本当に必要なのか? 〜RAGの社内実験と最新研究から考察
著者が2026年に注目されるエージェント型RAGについて、社内実験の比較結果と最新研究を紹介し、エンタープライズ検索に近いタスクでの検証結果と研究動向を整理した。
このスタートアップは、エンタープライズソフトウェアをプロンプトのように見せたいと考えている
同社は、エンタープライズ向けAIオペレーティングシステムを構築するために1200万ドルのシード資金を調達した。
GPT 5.4はCodexにとって大きな一歩
筆者はGPT 5.4のレビューを遅延させた理由として、エージェント構築における重要軸の考察に時間を割いたことを明かす。従来のベンチマークが正解率という単一スコアに依存する限界を指摘し、より解釈可能な評価指標の必要性を示唆している。
ServiceNow Researchが「EnterpriseOps-Gym」を公開:現実的な企業環境におけるエージェント型計画評価の高忠実度ベンチマーク
ServiceNow Research、Mila、モントリオール大学は、大規模言語モデルの企業実装課題を解決するため、長期計画や状態変化を評価するベンチマーク「EnterpriseOps-Gym」を開発した。
エージェントAIが置き換え不可能なシステムを修復する方法
スタッフライターが、AIエージェントがレガシーシステムの蓄積された層の特性を学習することで、組織の知識を保存し、様々なサービスへの統一インターフェースを提供できると説明している。
NTTデータとNVIDIA、企業向けAIファクトリーを生産規模で提供
NTTデータは、企業がAIを拡張するための再現可能で本番環境対応のモデルを提供するNVIDIA搭載プラットフォームの提供を発表した。このプラットフォームは、NVIDIAのGPU高速コンピューティングと高性能ネットワーキング、NVIDIA AI Enterpriseソフトウェアを統合し、クラウドおよびエッジ環境に展開可能なフルスタックのエージェントAIプラットフォームを構成する。
プレゼンテーション:AIネイティブ開発の4つのパターン
Patrick Debois氏が、AI時代のソフトウェアエンジニアリングの進化について議論し、プロデューサーからマネージャーへの移行、仕様駆動開発による実装より意図への焦点、配信から発見への移行、エージェント知識の管理という4つの主要パターンを共有した。
エージェント型手動テスト
サイモン・ウィリソン氏が、コードを実行して検証できるコーディングエージェントの利点を説明し、LLMが生成したコードは実行確認が必要と指摘している。
人間とエージェント的AIのチーム形成の展望:継続性、緊張、未来研究
研究者らは、自律行動・生成表現・進化目標を持つエージェント的AIシステムの台頭が、行動軌道・認識的基盤・論理の安定性に関する構造的不確実性を人間-AIチーム形成にもたらすと指摘する。
自己帰属バイアス:AIモニターが自らを甘く評価する傾向
研究者らが、言語モデルが自身の行動を監視する際、ユーザーではなく自身が提示した行動を評価すると、自己帰属バイアスが生じ、甘い評価を下す傾向があることを示した。
6000万件のCopilotコードレビューを達成
GitHubは、Copilotコードレビュー(CCR)の利用が昨年4月の開始から10倍に増加し、現在GitHub上のコードレビューの5件に1件以上を占めていると発表した。同社はコメント品質向上のための継続的な実験を実施し、リポジトリの文脈を取得するエージェント型アーキテクチャに移行した。
GPT 5.4がAI Gatewayで利用可能に
OpenAIがGPT-5.4とGPT-5.4 ProをAI Gatewayでリリースした。このモデルは、コーディングだけでなく報告書や分析などの知識作業でも複数ステップのワークフローを効率的に処理し、前世代より高速でトークン効率が向上している。
LioがAndreessen Horowitzなどから3000万ドルを調達し、企業調達の自動化を推進
AI調達スタートアップのLioが、Andreessen Horowitz主導で3000万ドルのシリーズA資金を調達した。
パイロット段階を超えて:Dyna.Aiが8桁のシリーズAを調達し、金融サービス向けエージェントAIを実用化へ
シンガポールのDyna.Aiが、金融機関向けエージェントAIサービスを実用化するため、Lion X Ventures主導で8桁のシリーズA資金を調達した。
Copilot MemoryがPro/Pro+ユーザー向けにデフォルトで有効化(パブリックプレビュー)
GitHubが、Copilot ProとCopilot Pro+ユーザー向けに、リポジトリレベルのコード理解を保持するCopilot Memory機能をデフォルトで有効化した。
LendiがAmazon Bedrockを使用したエージェントAIで顧客の借り換えプロセスを16週間で刷新
Lendi Groupは、Amazon Bedrockを活用したエージェントAIを導入し、住宅ローンの借り換えプロセスを16週間で刷新した。同社は、金利変動や個人事情の変化に対応しにくいという顧客の課題を解決した。
TinesがAmazon Quick Suiteでセキュリティ分析を強化する方法
TinesはAmazon Quick Suiteを活用し、複数アプリに分散するセキュリティデータを自動相関・対応することで、組織の異常ログイン検知と対応を迅速化する。
カレンダー招待状だけでPerplexityのCometブラウザを乗っ取り、1Passwordの認証情報を盗む手法が実証
セキュリティ研究者が、改ざんされたカレンダー招待状でPerplexityのエージェント型Cometブラウザを騙し、ローカルファイルを盗んで1Passwordアカウントを完全に乗っ取る手法を実証した。
サンタンデール銀行とマスターカードが欧州初のAI実行支払いパイロットを実施
サンタンデール銀行とマスターカードが、欧州で初めてAIエージェントが人間の最終コマンドなしに銀行ネットワーク内で支払いを完了する実証実験を実施した。
PlanetScale、Bugbotで本番環境の信頼性を保護
PlanetScaleはBugbotを導入し、本番環境の信頼性を保護した。Bugbotは2人のフルタイムエンジニアに相当するレビュー作業を削減した。
金融サービスにおけるAI導入は不可逆的な段階に到達
Finastraの調査によると、金融機関の98%が何らかのAIを活用しており、導入は不可逆的段階に達した。CIOらは今後、AI活用の深化と機会・課題への対応が求められる。
アイデアからプルリクエストへ:GitHub Copilot CLIで構築する実践ガイド
GitHubが、開発者がターミナルでプロジェクトを初期化・テスト・デバッグする現実に合わせて、GitHub Copilot CLIが意図からレビュー可能な差分まで直接支援する実践的なワークフローを紹介している。
金融ワークフロー向けエージェントAIの信頼性向上
企業が顧客対応や事務作業に自動エージェントを導入する中、金融機関は特に多段階シナリオでの一貫性・説明可能性の課題を解決し、エージェントAIへの信頼向上を優先している。
ゴールドマン・サックスとドイツ銀行が取引監視にエージェントAIをテスト
ゴールドマン・サックスとドイツ銀行は、キーワード検索や事前設定ルールを超え、リアルタイムでパターンを推論し人間の審査が必要な行動を検知する「エージェントAI」を取引監視にテストしている。
AWS上のHugging Face smolagentsを用いたマルチモデルフレームワークによるエージェント型AI
Hugging FaceのJeff Boudierらは、AWS上でsmolagentsを用いたマルチモデルフレームワークによるエージェント型AIシステムを発表した。このシステムは、複雑な推論・ツール使用・コード実行が可能な自律エージェントへと進化し、企業向けに管理エンドポイントや自動スケーリング機能を提供する。
Gemini 3.1 Pro: 最も複雑なタスクのための賢いモデル
Gemini 3.1 Proは、単純な回答では不十分な複雑なタスク向けに設計されたAIモデルです。
エージェント時代におけるAI活用法ガイド
著者は、ChatGPT登場以来のガイドの中で今回が最大の変革と位置付ける。従来のチャットボットとの対話から、タスクを委任してツールを活用して実行する「エージェント」としてのAI利用が実用化されたことを説明し、この変化に対応した新しい活用法を提示している。
Claude Opus 4.6の紹介
AnthropicがClaude Opus 4.6を発表した。この新バージョンは、AIアシスタントの性能向上を目指すリリースである。
H社の新Holo2モデルがUIローカライゼーションで先行
H社が新たに発表したHolo2モデルは、ユーザーインターフェースのローカライゼーション分野でリードする技術を提供する。
CopilotからPilotへ:Agentic Codingによる実装〜PR自動化の取り組み
LINEヤフー株式会社の平野氏が、同社全エンジニアを対象としたAI利活用の一環として、Agentic Coding技術を用いてプルリクエストの自動化を実装する取り組みを紹介している。
Salesforce、Slackbot AIエージェントを刷新し、MicrosoftやGoogleと職場AIで競争
SalesforceはSlackbotを単なる通知ツールからAIエージェントに刷新し、MicrosoftやGoogleとの職場AI競争を強化。
Seed Prover 1.5:新たなエージェント型アーキテクチャと強化された数学的推論能力
バイトダンスのSeedチームは、新たなエージェント型アーキテクチャを採用した「Seed Prover 1.5」を発表し、2025年のプットナム数学競技会の11問を9時間で解決するなど、数学的推論能力が大幅に向上したことを示した。
Amazon Research Award受賞者63名が発表される
Amazonが、8カ国41大学の研究者63名をAmazon Research Award受賞者として発表し、受賞者はAmazonの公開データセットとAWSのAI/MLサービス・ツールにアクセスできる。
Qwen3-Coder:世界におけるエージェント型コーディング
QwenチームはMoE方式の「Qwen3-Coder」を発表した。最大1Mトークンに対応し、コーディングとエージェントタスクで卓越する。