#エージェント のAIニュース
64件の記事
Datasette Agent のバージョン 0.1a4 がリリース
Simon Willison が、Datasette 1.0a30 で追加された JavaScript プラグインフックを活用し、エージェント機能の改善を含む新バージョン「datasette-agent 0.1a4」を公開した。
Auth Proxy が LangSmith エージェントサンドボックスをどのように保護するか
LangChain は、認証プロキシにより LangSmith のエージェント実行環境から機密情報を排除し、外部への通信を制限することでセキュリティリスクを軽減する仕組みを発表した。
アリババの「Qwen 3.7 Max」が Vercel AI Gateway で利用可能に
アリババが開発した大規模言語モデル「Qwen 3.7 Max」が、Vercel の AI ゲートウェイで正式に利用可能となりました。このモデルはコーディングやオフィスワークの自動化など、長期的な自律実行を支援するエージェント基盤として設計されています。
datasette-agent-charts 0.1a1 のリリース
Simon Willison が「datasette-agent-charts」のバージョン 0.1a1 を公開し、色なしカラムでの自動着色や SQL 実行権限の確認機能を追加した。
Google、Anthropic の Mythos と競合する意図を表明
Google は I/O で、コードセキュリティ用の AI エージェント「CodeMender」の API テストを専門家向けに開始したと発表し、今後は外部への提供範囲を広げると明言した。
Grok Build の紹介:ターミナルから動作するコーディングエージェント
xAI が開発したコーディングエージェント「Grok Build」が、SuperGrok Heavy 契約者のための早期ベータ版として公開されました。このツールはターミナル上で動作し、サブエージェントやヘッドレスモードをサポートしています。
Android、2026年に大規模なAI刷新へ
Googleは次週のI/Oカンファレンスで、Gemini Intelligenceの下にスマートフォン向けAI機能を展開し、アプリ自動化やカスタマイズを強化すると発表した。
本日は特に目立った出来事なし
AIニュースの週報が、12 のサブレディットと 544 のツイートを調査したが、特筆すべき進展や発表は確認されなかった。
従量課金モデルが「バイブコーディング」を阻害する理由と、ローカル AI コーディングエージェントの自作方法
モデル開発者が利用制限や価格引き上げ、従量課金への移行を進める中、趣味プロジェクトのコストが高騰している。この課題に対し、ローカル LLM を活用して独自にコーディングエージェントを構築するコスト削減策が提案されている。
知識労働向けコデックス、創造的作業向けクロード:エージェントの多様化
AIニュースは、コーディングエージェントが制約を突破しているという議論を紹介。クロードとコデックスが今週大きな進展を見せ、特にコデックスは知識労働全般を対象とした新機能を発表し、創造的作業ではクロードが注目を集めている。
xAI が Grok 4.3 を発表
xAI は、知能指数を向上させつつ実行コストを削減した新モデル「Grok 4.3」を発表しました。同社は、このモデルが同等の性能を持つ他社製品よりも低コストであり、指示従事やエージェント型顧客対応タスクで高いパフォーマンスを発揮すると述べています。
Mistral Medium 3.5 がリモート Vibe エージェントを駆動し、長時間非同期コーディングタスクを可能に
Mistral AI は、128B パラメータの高密度モデル「Mistral Medium 3.5」を発表しました。このモデルは CLI や Le Chat から起動可能なリモート Vibe エージェントを駆動し、クラウド上で複雑な多段階コーディングタスクを実行します。
NVIDIA のマルチモーダル AI モデル「Nemotron 3 Nano Omni」が Amazon SageMaker JumpStart で利用可能に
NVIDIA は、動画・音声・画像・テキストを単一アーキテクチャで処理する新モデル「Nemotron 3 Nano Omni」を、Amazon SageMaker JumpStart で即日公開した。これにより企業は、複数の情報を一度に推論して知能の高いアプリケーションを構築できるようになる。
AIE Europe 振り返りとエージェントラボの主張:教師なし学習と潜在空間のクロスオーバー特別編(2026年)
ポッドキャスト「Unsupervised Learning」は、AIE Europe終了直後に録音され、AI界隈の大きな変化を解説した。教師なし学習と潜在空間の融合に関する特別編で、業界の動向やビジネスへの影響について議論している。
Deep Agents Deploy:Claude Managed Agentsに代わるオープンな代替案
DeepAgentsは、モデル非依存でオープンソースのエージェントハネスを本番環境向けに迅速にデプロイする新ベータ版サービスを開始した。
今日のオープンとクローズドモデルのパフォーマンス格差を読む
記事は、オープンソースモデルがクローズドモデルに永続的に追従する現状を分析し、単一の数値で表される格差が実際の能力の微妙な動態を見誤らせると指摘する。主要指標であるArtificial Analysis Intelligence Indexを用いて、最先端の言語モデル能力を評価する。
極氪8Xに乗り込み、階躍大モデルを体感する
階躍星辰は、極氪8Xの量産開始に合わせ、大規模言語モデル「Step 3.5 Flash」を中核とする車載AI「超級Eva」を搭載した。これは単なるチャットボットではなく、運転制御システムと統合された車両全体の知能体である。
InsightFinderが1500万ドルを調達、企業がAIエージェントの失敗箇所を特定する支援へ
InsightFinderが1500万ドルを調達し、企業がAIエージェントの失敗箇所を特定する支援を行う。CEOのHelen Guは、業界の最大の問題はAIモデルの監視だけでなく、AIが組み込まれた技術スタック全体の診断だと指摘している。
OpenAIがエージェントSDKを更新、安全なエージェント構築を目指す
OpenAIはエージェントSDKを更新し、開発者がより迅速にエージェントをデプロイできる機能を提供した。これらの機能は同社のエコシステム内の開発者に特に有益である。
Ecom-RLVE:Eコマース対話エージェントのための適応可能な検証環境
研究者がEcom-RLVEを発表した。これはEコマース対話エージェントのための適応可能な検証環境であり、AIエージェントの性能評価と改善を目的としている。
Import AI 453:AIエージェントの突破、MirrorCode、そして段階的な権限剥奪に関する10の視点
Jack Clarkは2026年ビルダーバーグ会議出席に伴う短縮版newsletterを公開。AIがソフトウェアの逆エンジニアリングを行う可能性や、AIエージェントの進展、そして「段階的な権限剥奪」に関する10の視点を論じている。
Arcee AI、ベンチャー資本の半分を投じてClaude Opusに匹敵するオープン推論モデルを構築
米国スタートアップのArcee AIは、4000億パラメータのオープン推論モデル「Trinity-Large-Thinking」を開発し、エージェントタスクでClaude Opusに対抗する。
MiniMax M2.7、複雑なAIアプリケーション向けにNVIDIAプラットフォーム上でスケーラブルなエージェントワークフローを進化させる
MiniMax社がM2.7をリリースし、エージェントハーネス向けに設計されたM2.5モデルを強化し、NVIDIAプラットフォーム上で複雑なAIアプリケーションのためのスケーラブルなエージェントワークフローを推進した。
あなたのハーネス、あなたの記憶
AIエージェントのハーネスはエージェント構築の主流となり、エージェントの記憶と密接に関連している。クローズドなハーネスを使用すると、エージェントの記憶制御を第三者に委ねることになる。記憶は優れたエージェント体験の構築に極めて重要である。
ポッドキャスト:タイガーチーム、評価、エージェント:新たなAIエンジニアリングのプレイブック
Mastraの共同創業者兼CEOのサム・バグワットが、オープンソースコミュニティの構築と維持、AIエンジニアリングと評価の新たな分野、エージェントアプリケーションの開発におけるクロスファンクショナルなタイガーチームの重要性について語った。
Git自動化におけるMCPとAgent Skillの長所・短所
LINEヤフーのAI Labチームが、社内で実施したOrchestratiプロジェクトを通じて、Git自動化におけるMCPとAgent Skillのそれぞれの長所と短所を分析した。
Better Harness: 評価を用いたハーネス山登り法のレシピ
LangChainのVivek Trivedy氏が、評価を学習信号として活用し、過学習ではなく汎化を促す設計で、より優れたエージェントを構築するためのシステム「Better-Harness」を紹介している。
Agentic RAGの前に整えるべきもの:実務RAGの入口を設計するRouter RAG
記事は、Agentic RAGの検証から、後段の高度化よりも前段の問い合わせ処理が重要であることを指摘し、実務上の問題を基に質問を適切に振り分ける「Router RAG」の設計と実装の考え方を紹介しています。
Anthropic、Claude購読者向けのOpenClawなどサードパーティーツールの利用を停止、需要の持続不可能性を理由に
Anthropicは、Claudeの購読者がOpenClawなどの外部ツールを通じてClaudeを利用することを停止した。同社は、定額料金とエージェントによる継続的使用の組み合わせが持続不可能な需要を生み出すというAI業界の根本的問題を指摘している。
Gemma 4で最先端のエージェント機能をエッジデバイスに導入
Google DeepMindは、Gemma 4という最先端のオープンモデル群を発表した。このモデルは、オンデバイスで多段階計画と自律的なエージェントワークフローを可能にする。また、Google AI Edge Galleryと高速化を提供するLiteRT-LMライブラリもリリースした。
Gemma 4:バイト単位で最も能力の高いオープンモデル
GoogleがGemma 4を発表した。高度な推論とエージェントワークフロー向けに設計された、これまでで最も知的なオープンモデルである。
データサイエンティストの逆襲
ハバードビジネスレビューが21世紀の最優秀職業と称したデータサイエンティスト職は、かつて高給で人気を集めた。しかし、統計とソフトウェアエンジニアリングの両方のスキルを要求されるこの役割は、その黄金期を終えたのかという議論が起きている。
エージェントスキルで知識ギャップを埋める
Google DeepMindは、静的モデル知識と急速に進化するソフトウェア実践のギャップを埋めるため、エージェントにライブドキュメントとSDKガイダンスを提供する「Gemini API開発者スキル」を開発した。評価結果では、gemini-3.1-pro-previewモデルの性能が28.2%から96.6%に大幅に向上した。
エージェントのための合成タスク生成のスケーリング:探索によるアプローチ
研究者らが、マルチモーダル大規模言語モデル(MLLM)のポストトレーニングにおける課題として、多様で実行可能な高品質なタスクデータセットの不足を指摘し、探索ベースの合成タスク生成手法を提案している。
2種類のエージェント認証方式
LangSmith Fleetが2種類のエージェント認証方式を導入した。エージェントがSlackツールを呼び出す際の認証方法を明確化し、エージェントの権限管理を改善する。
2026年Vercel AIアクセラレーター参加企業を紹介
Vercel社は、AIスタートアップ向けアクセラレータープログラムの2026年参加企業39社を発表した。同社はAIインフラ基盤を構築し、起業家が製品開発に集中できる環境を提供している。
Together AI、ツール呼び出し・推論・ビジョン対応のファインチューニングサービスを拡大
Together AIは、ツール呼び出し、推論、ビジョン言語モデルのネイティブサポートを追加し、100B以上のモデルトレーニングに対応するファインチューニングサービスを拡大した。処理速度は最大6倍向上し、ジョブコストと所要時間の見積もり機能も提供している。
GPT-5.4 miniおよびnanoの紹介
OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。
階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!
階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。
deploy cliの紹介
LangChain社がlanggraph-cliパッケージにdeploy cliを導入し、コマンドラインから直接エージェントをデプロイ・管理できるようにした。最初のコマンド「langgraph deploy」は、エージェントをLangSmith Deploymentにワンステップでデプロイし、GitHub ActionsなどのCI/CDワークフローへの統合を容易にする。
AI法務プラットフォームが55億ドルの評価額に到達
2023年に設立されたスタートアップが、法務AIプラットフォームとエージェント市場の急成長を背景に、資金調達を拡大している。
LLMの自律的調査能力を高めるAgenticRLの取り組みと知見
ABEJAの服部氏が、LLMの自律的(Agentic)能力向上のためのPost Training(SFTと強化学習)の手法と知見を紹介した。SFTでの精度劣化回避やTool-Useを用いた強化学習タスク、実装上の課題などをまとめている。
NVIDIA NeMo Evaluator Agent Skillsによる数分での対話型LLM評価
NVIDIAは、NeMo Evaluator Agent Skillsを発表した。このツールは、大規模言語モデルの対話能力を数分で自動評価できる。
GENIAC第3期のLLM開発で使用したロングコンテキスト評価のベンチマークを公開
ABEJAの藤原データサイエンティストが、経済産業省とNEDOのプロジェクト「GENIAC」第3期で、エージェント用基盤モデルの開発過程で使用したロングコンテキストLLM評価のベンチマークを公開した。
AI翻訳の3つの進化段階:プロンプト時代→推論モデル時代→エージェント時代
著者がAI翻訳ツール開発で経験した3段階の進化を解説。プロンプト設計から推論モデル活用、自律的エージェントへの発展過程と、翻訳品質向上のための設計原則を共有。
Gemini 3.1 Flash LiteがAI Gatewayで利用可能に
GoogleがGemini 3.1 Flash LiteをAI Gatewayで公開した。このモデルは翻訳、データ抽出、コード補完で性能向上し、大量のエージェントタスクや予算・遅延制約のある用途に最適化されている。
コーディングエージェントの評価スキル
著者は、50社以上の企業支援経験から得た知見を基に、「evals-skills」というAI製品評価用のスキルセットを公開した。これは、コーディングエージェントがアプリケーションの計測や実験実行を行う際の一般的なミスを防止する目的で提供されている。
エージェント型アーキテクチャにおけるセキュリティ境界
OpenAIが、AIエージェントが生成コードを実行する際に機密情報にフルアクセスする現在の状況を指摘し、複数コンポーネントの信頼レベルに応じたセキュリティ境界の再設計を提案している。
Claude Cコンパイラ:ソフトウェアの未来を示すもの
AnthropicのNicholas Carliniが、Claude Cコンパイラプロジェクトを通じて、AIがソフトウェア開発の未来をどのように変えるかを考察している。
OpenAIのCTOとCodex責任者:AIがソフトウェア構築方法を再構築中
OpenAIのCTOとCodex責任者が、AIがツールからチームメイトへ進化し、エンジニアやデザイナーの生産性を劇的に向上させていると発表。