LangSmith CLI & Skillsのリリース
LangChainは、AIコーディングエージェントのLangSmith運用能力を劇的に向上させるCLIおよび「Skills」機能を公開し、Claude Codeのタスク成功率を17%から92%へ引き上げた。
キーポイント
エージェントネイティブなLangSmith CLIの公開
コーディングエージェントがターミナル経由でトレースの取得、データセットの構築、実験の実行などLangSmithの全機能を利用できるよう設計されたCLIをリリースした。
動的ロードされるSkillsの概念導入
タスクに関連するスキルのみを必要に応じて動的に読み込む「Skills」機能により、情報過多によるエージェント性能の低下を防ぎながら専門領域でのパフォーマンスを向上させる。
Claude Codeとの統合による劇的な性能向上
Skillsを活用したClaude Codeは、LangSmith関連タスクのパス率が17%から92%へと大幅に改善し、エージェント開発ループの自動化を可能にした。
エージェント開発のフィードバックループの実現
トレース追加、デバッグ、テストデータ生成、評価の実行をエージェント自身が行うことで、アーキテクチャ改善と人間フィードバックを組み合わせた反復的な開発サイクルを確立する。
LangSmith Skillsのインストール方法
npx skillsコマンドを用いて、ローカルプロジェクトまたはグローバルにLangSmithスキルをインストール可能であり、Claude Codeなどの特定のエージェントにもリンクできる。
コミュニティへの招待と今後の展開
LangChainおよびLangSmithエコシステムの利用促進を目的としており、LangChainやLangGraphなどのオープンソースライブラリ向けスキルも公開予定。
フィードバックの募集
新しいスキルのアイデアや改善点についてコミュニティからの意見を歓迎しており、LangSmithの新機能追加に伴ってスキルコンテンツも継続的に拡張していく。
影響分析・編集コメントを表示
影響分析
この発表は、LLMアプリケーション開発のベストプラクティスを「CLI操作」という低レイヤーな抽象化レベルに落とし込んだ点で重要である。特に、エージェントが自律的にデバッグや評価を行うための「Skills」という仕組みは、プロンプトエンジニアリングの限界を超え、構造化された知識共有を可能にする新たな標準となり得る。これにより、開発者の手動介入が減り、AIによるソフトウェア開発の自動化(AIDevOps)が一段階進化すると期待される。
編集コメント
エージェントが自らのコードをトレースし、評価するための「Skills」を提供する試みは、AI開発の自動化における重要な一歩です。特にClaude Codeとの連携結果が示すような劇的な性能向上は、今後は他のエージェントでも同様の効果が期待できることを示唆しています。
imageAIコーディングエージェントにLangSmithエコシステム内での専門性を付与するため、CLIおよび初回のスキルセットを公開します。これには、エージェントへのトレーシング追加、その実行内容の理解、テストセットの構築、パフォーマンス評価が含まれます。当社の評価セットでは、これによりClaude Codeの当該タスクにおけるパフォーマンスが17%から92%に向上しました。
LangSmith CLI
中核となるのは、新たなLangSmith CLIです。LangSmith CLIはエージェントネイティブに設計されています。コーディングエージェント(および開発者)に対し、LangSmith内であらゆる操作を行うために必要な構成要素を提供します。これには、トレースの取得、データセットの管理、実験の実行が含まれます。スキル内のガイダンスと組み合わせることで、コーディングエージェントはターミナルを通じて完全にLangSmithを自在に操作できる能力を獲得します。エージェントの改善サイクルは、ターミナルファーストの他のエージェントによってますます推進されると予想されるため、この機能を実現することは、エージェント開発の将来にとって極めて重要であると考えています。
以下のインストールスクリプトでCLIをインストールできます:
curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | shスキルとは?
スキルとは、特定領域におけるコーディングエージェントのパフォーマンスを向上させる、厳選された指示、スクリプト、リソースの集合です。重要な点として、スキルは段階的開示(プログレッシブ・ディスクロージャー)を通じて動的に読み込まれます。つまり、エージェントはそのスキルが現在のタスクに関連する場合にのみ、そのスキルを取得します。これはエージェントの能力を強化します。従来、エージェントに過剰なツールを与えるとパフォーマンスが低下する傾向があったためです。
スキルは移植性と共有性を備えています。マークダウンファイルとスクリプトで構成され、必要に応じて取得できます。スキル機能をサポートするあらゆるコーディングエージェントに移植可能な、LangSmithスキルセットを公開します。
LangSmithスキル
langsmith-skillsリポジトリ内で、以下の3つのスキルを維持管理しています:
- trace: 既存コードへのトレーシング追加、およびトレースのクエリ
- dataset: 事例データセットの構築
- evaluator: それらのデータセットを用いたエージェントの評価
これら3つの領域は、LangSmith AIエンジニアリングの中核領域を表しています。今後、このスキルセットを拡充していく予定です。
スキルの効果
スキルを使用することで、基本的なLangSmithタスクにおけるClaude Codeのパフォーマンスが大幅に向上することを確認しました。
テストモデル 合格率
- スキルなし Claude Code (Sonnet 4.6): 17%
- スキルあり Claude Code (Sonnet 4.6): 92%
合格率はLangSmithの評価機能を用いて算出されました。使用したテストベンチマークはオープンソース化する予定です。
これらのスキルにより、コーディングエージェントはエージェント開発において好循環を生み出すことが可能になります。お使いのコーディングエージェントは、LangChainおよびLangSmithスキルを用いて以下のことができます:
- エージェントにトレーシングロジックを追加する
- エージェントでトレースを生成し、それを用いて効果的に動作をデバッグする
- 生成されたトレースを用いて体系的なテストデータセットを作成する
- データセット上で実行し、エージェントの正確性を検証する評価器(エバリュエーター)を作成する
- 評価結果と人間のフィードバックに基づき、エージェントのアーキテクチャをさらに反復改善する
このサイクルは、エージェント開発を加速する強力なツールです。実際の動作については、スキルのデモをご覧ください。
インストール
npx skillsを使用して、これらのスキルをインストールできます:
- ローカル(現在のプロジェクト):
npx skills add langchain-ai/langsmith-skills --skill '*' --yes- グローバル(すべてのプロジェクト):
npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global- 特定のエージェント(例: Claude Code)にスキルをリンクする:
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --globalまとめ
コミュニティの皆様がLangChainとLangSmithを活用し、当社のエコシステムを用いた開発体験を向上されることを心より楽しみにしております。LangSmithに新機能が追加されるのに合わせ、スキルコンテンツも継続的に追加していく予定です。並行して、LangChainのオープンソースライブラリ(LangChain、LangGraph、DeepAgents)と連携するためのスキルセットも公開しています。追加すべきスキルや改善に関するアイデアがございましたら、ぜひお聞かせください。
原文を表示
imageWe’re releasing a CLI along with our first set of skills to give AI coding agents expertise in the LangSmith ecosystem. This includes adding tracing to agents, understanding their execution, building test sets, and evaluating performance. On our eval set, this bumps Claude Code’s performance on these tasks from 17% to 92%.
The LangSmith CLI
At the core is our new LangSmith CLI. The LangSmith CLI is designed to be agent-native: it gives coding agents (and developers) the building blocks needed to do anything within LangSmith. This includes fetching traces, curating datasets, and running experiments. When combined with the guidance in skills, coding agents gain the ability to fluently navigate LangSmith completely through the terminal. We believe that enabling this is critical to the future of agent development, as we expect agent improvement loops to increasingly be driven by other agents that are terminal-first.
You can install the CLI with the following installation script:
curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | shWhat are Skills?
Skills are curated instructions, scripts, and resources that improve coding agent performance in specialized domains. Importantly, skills are dynamically loaded through progressive disclosure — the agent only retrieves a skill when its relevant to the task at hand. This enhances agent capabilities, as historically, giving too many tools to an agent would cause its performance to degrade.
Skills are portable and shareable — they consist of markdown files and scripts that can be retrieved on demand. We’re sharing a set of LangSmith skills that can be ported to any coding agent that supports skill functionality.
LangSmith Skills
Within the langsmith-skills repo, we maintain a set of 3 skills:
trace: add tracing to existing code, and query traces
dataset: build up datasets of examples
evaluator: evaluate agents over those datasets
These three areas represent the three core areas of LangSmith AI engineering. We will add to this set of skills over time.
Skill Impacts
Using skills, we saw significant improvements in Claude Code’s performance on basic LangSmith tasks.
TestModelPass Rate
Claude Code without SkillsSonnet 4.617%
Claude Code with SkillsSonnet 4.692%
Pass rate was calculated using LangSmith evaluations. We plan to open source the testing benchmark we used
These skills enable coding agents to create a virtuous cycle in agent development. Your coding agent can use LangChain and LangSmith skills to:
Add tracing logic to your agent
Generate traces with the agent and use them to effectively debug behavior
Use generated traces to create a systematic testing dataset
Create evaluators to run on the dataset and validate agent correctness
Iterate further on the agent architecture based on evaluations and human feedback
This loop is a powerful tool to accelerate agent development. To see it in action, see our demo of the skills:
Installation
You can install these skills using npx skills:
Local (current project):
npx skills add langchain-ai/langsmith-skills --skill '*' --yes
Global (all projects):
npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global
To link skills to a specific agent (e.g. Claude Code):
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global
Conclusion
We’re excited for the community to use LangChain and LangSmith to improve your experience building with our ecosystem. We plan to continue adding skills content as new capabilities are added to LangSmith. In parallel, we are also releasing a set of skills for interacting with LangChain's open source libraries (LangChain, LangGraph and DeepAgents). If you have ideas for additional skills or improvements, we'd love to hear from you!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み