#tool use のAIニュース

12件の記事

ツール、メモリ、権限、スキル、マルチエージェント協調を備えた OpenHarness スタイルのエージェントランタイム設計方法

MarkTechPost は、エージェントシステムの実用的な仕組みを理解するため、ツール使用やマルチエージェント協調など主要な構成要素から OpenHarness をゼロから構築するチュートリアルを提供している。

MarkTechPost·6月25日·★★★★

ループエンジニアリングの芸術

LangChain は、信頼性の高いエージェントを実現するには優れたモデルだけでなく、特定のタスク向けに設計された慎重なハネスが必要だと説明し、コア・エージェント・ループやスタッキング手法について解説している。

LangChain Blog·6月17日·★★★★

Agent Judge：生産環境向けエージェントの長期コンテキスト評価を解決（10 分読了）

TLDR AI が紹介する「Agent Judge」は、検索・検証・適応に焦点を当て、従来の LLM 判定器が苦手とする長期コンテキストや状態保持アクションの評価精度と一貫性を向上させる手法です。

TLDR AI·5月29日·★★★★

Chat SDK に AI SDK ツールセットが追加されました

Vercel は Chat SDK の新サブパス「chat/ai」を通じて、AI SDK ツールセットを標準搭載しました。これにより、エージェントへの読み書きアクションの接続が容易になり、デフォルトで承認が必要な機能やプリセットによるスコープ制御も実装されています。

Vercel Blog·5月20日

LLM ツール 0.32a2 アップデート：OpenAI の新エンドポイント対応

Simon Willison が開発する LLM ツールのバージョン 0.32a2 がリリースされ、推論機能を持つ主要な OpenAI モデルが従来のチャットエンドポイントから新しいレスポンスエンドポイントへ移行したことが明記された。

Simon Willison Blog·5月13日·★★★★

スクリプトのシェバング行に大規模言語モデルを使用する

開発者がテキストファイルの先頭にシェバング記述を追加し、LLM を直接実行可能にする実験的パターンを紹介した。

Simon Willison Blog·5月12日

OpenAI が新 SOTA リアルタイム音声 API「GPT-Realtime-2」などを発表

OpenAI は、音声認識・翻訳・リアルタイム通話性能を大幅に向上させた新モデル「GPT-Realtime-2」および関連 API を公開し、ベンチマークで前作より 15.2% 改善したと発表した。

Latent Space·5月8日·★★★★★

モデル・ハネス・フィット：最先端 AI が特定ツールに最適化されている実態

バスタマンテ氏は、Codex CLI や Claude Code などの CLI ツールを分析し、最先端研究所が学習済みモデルの重みに特定のツールの名前やスキーマ、プロンプト構造を組み込んでいると指摘。Terminal-Bench 2.0 のデータは、同じモデルでも使用するハネス（評価枠組み）を変えるだけでスコアが大きく変動することを示している。

TLDR AI·5月5日·★★★★

PORTool：多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法

研究チームは、大規模言語モデル（LLM）を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。

Apple Machine Learning·5月4日·★★★★

MCP サーバー構築の教訓：モデルは指針に従い、サーバーが主導する仕組み

本記事では、AI モデルが計画を立てず会話とツールリストから確率の高い動作を選ぶ際、MCP サーバー側で次の呼び出しを明白に設計することで効果的な連携を実現する方法について解説しています。

TLDR AI·4月30日

LLM 0.32a0 は主要な後方互換性のあるリファクタリング

開発者が LLM Python ライブラリと CLI ツールのアルファ版「LLM 0.32a0」をリリースし、プロンプトとレスポンスに基づく従来のモデルから変更された重要なリファクタリングを実施した。

Simon Willison Blog·4月30日·★★★★

Agent Builderの新機能：新エージェントチャット、ファイルアップロード、ツールレジストリ

LangSmith Agent Builderが大幅アップデート。エージェントとの作業をチームメイトとの協業のように感じられる新機能を追加。

LangChain Blog·2月19日·★★★★