#ツール使用 のAIニュース

8件の記事

AI SDK ハーネスに「Deep Agents」と「OpenCode」が追加され利用可能に

Vercel は、アプリケーションコードを変更せずにランタイムを切り替えられる AI SDK ハーネスに、「Deep Agents」と「OpenCode」の 2 つの新規アダプターを追加した。これらは Vercel サンドボックス内で動作し、ファイル操作やシェルツールなどの機能を備えている。

Vercel Blog·6月25日·★★★★

VAKRAの内部:エージェントの推論、ツール使用、失敗モード

OpenAIがVAKRAエージェントの推論能力、ツール使用、失敗モードを分析し、AIエージェントの信頼性向上に向けた課題を明らかにした。

Hugging Face Blog·4月15日·★★★★

コーディングエージェントの構成要素

著者がコーディングエージェントとエージェントハーネスの全体設計を解説する。エージェントの仕組みと実践的な構成要素について、読者からの質問を踏まえて参照資料として提供する。

Sebastian Raschka·4月4日

Deep Agentsの評価手法の構築方法

LangChain社が、Deep Agentsの評価指標を構築する方法を説明している。同社は、エージェントの行動を直接測定する評価データの収集、指標作成、対象を絞った実験を通じて、エージェントの精度と信頼性を向上させている。

LangChain Blog·3月27日

AIエージェントの評価を解明する

AIエージェントの有用性を評価する難しさと、複雑なシステムに対応するための評価戦略について説明しています。

Anthropic Engineering·1月9日·★★★★

Claude開発者プラットフォームにおける高度なツール使用機能の導入

Claudeが動的にツールを発見・学習・実行できる3つの新ベータ機能が追加されました。

Anthropic Engineering·11月24日·★★★★

Grok 4

xAI社がGrok 4を発表した。同社は世界で最も知的なモデルと主張し、ネイティブツール使用とリアルタイム検索統合を特徴とする。SuperGrokおよびPremium+購読者とxAI APIで利用可能で、最強版のGrok 4 Heavyを含む新SuperGrok Heavy階層も導入した。

xAI News·7月9日·★★★★

「考える」ツール:Claudeが複雑なツール使用状況で立ち止まって思考できるようにする

Anthropic社が、Claudeの複雑な問題解決能力を向上させる「考える」ツールを発表した。このツールは、Claudeが複雑なツール使用状況で一時停止して思考することを可能にする。

Anthropic Engineering·3月20日