#tool use のAIニュース
12件の記事
ツール、メモリ、権限、スキル、マルチエージェント協調を備えた OpenHarness スタイルのエージェントランタイム設計方法
MarkTechPost は、エージェントシステムの実用的な仕組みを理解するため、ツール使用やマルチエージェント協調など主要な構成要素から OpenHarness をゼロから構築するチュートリアルを提供している。
ループエンジニアリングの芸術
LangChain は、信頼性の高いエージェントを実現するには優れたモデルだけでなく、特定のタスク向けに設計された慎重なハネスが必要だと説明し、コア・エージェント・ループやスタッキング手法について解説している。
Agent Judge:生産環境向けエージェントの長期コンテキスト評価を解決(10 分読了)
TLDR AI が紹介する「Agent Judge」は、検索・検証・適応に焦点を当て、従来の LLM 判定器が苦手とする長期コンテキストや状態保持アクションの評価精度と一貫性を向上させる手法です。
Chat SDK に AI SDK ツールセットが追加されました
Vercel は Chat SDK の新サブパス「chat/ai」を通じて、AI SDK ツールセットを標準搭載しました。これにより、エージェントへの読み書きアクションの接続が容易になり、デフォルトで承認が必要な機能やプリセットによるスコープ制御も実装されています。
LLM ツール 0.32a2 アップデート:OpenAI の新エンドポイント対応
Simon Willison が開発する LLM ツールのバージョン 0.32a2 がリリースされ、推論機能を持つ主要な OpenAI モデルが従来のチャットエンドポイントから新しいレスポンスエンドポイントへ移行したことが明記された。
スクリプトのシェバング行に大規模言語モデルを使用する
開発者がテキストファイルの先頭にシェバング記述を追加し、LLM を直接実行可能にする実験的パターンを紹介した。
OpenAI が新 SOTA リアルタイム音声 API「GPT-Realtime-2」などを発表
OpenAI は、音声認識・翻訳・リアルタイム通話性能を大幅に向上させた新モデル「GPT-Realtime-2」および関連 API を公開し、ベンチマークで前作より 15.2% 改善したと発表した。
モデル・ハネス・フィット:最先端 AI が特定ツールに最適化されている実態
バスタマンテ氏は、Codex CLI や Claude Code などの CLI ツールを分析し、最先端研究所が学習済みモデルの重みに特定のツールの名前やスキーマ、プロンプト構造を組み込んでいると指摘。Terminal-Bench 2.0 のデータは、同じモデルでも使用するハネス(評価枠組み)を変えるだけでスコアが大きく変動することを示している。
PORTool:多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法
研究チームは、大規模言語モデル(LLM)を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。
MCP サーバー構築の教訓:モデルは指針に従い、サーバーが主導する仕組み
本記事では、AI モデルが計画を立てず会話とツールリストから確率の高い動作を選ぶ際、MCP サーバー側で次の呼び出しを明白に設計することで効果的な連携を実現する方法について解説しています。
LLM 0.32a0 は主要な後方互換性のあるリファクタリング
開発者が LLM Python ライブラリと CLI ツールのアルファ版「LLM 0.32a0」をリリースし、プロンプトとレスポンスに基づく従来のモデルから変更された重要なリファクタリングを実施した。
Agent Builderの新機能:新エージェントチャット、ファイルアップロード、ツールレジストリ
LangSmith Agent Builderが大幅アップデート。エージェントとの作業をチームメイトとの協業のように感じられる新機能を追加。