スキルズナイト:69,000以上の方法でエージェントがより賢くなっている
Vercelが主導するオープンスキルエコシステム「skills.sh」は、69,000以上のスキルを管理するパッケージマネージャーとして急成長しており、セキュリティパートナーシップにより品質と信頼性の向上を図っている。
キーポイント
オープンスキルエコシステムの急成長
Reactのベストプラクティス文書化から始まったプロジェクトが、69,000以上のスキル、200万回のCLIインストールを記録する大規模エコシステムに発展した。
エージェント向けパッケージマネージャーとしての位置付け
Vercel CTOが「エージェントコンテキストのパッケージマネージャー」と表現するように、様々なコーディングエージェントへの知識提供を効率化するプラットフォームを提供している。
セキュリティ課題への対応
急成長に伴う品質バラツキとセキュリティリスクに対処するため、Gen、Socket、Snykとのパートナーシップを発表し、包括的な監査体制を構築している。
実用的な開発者ツールの進化
単なる文書共有から、npx skills CLIによる簡単なインストール、テレメトリによるリーダーボード表示など、実用的な開発者体験を重視した進化を遂げている。
コンテキストの重要性とスキルの役割
適切なコンテキストがあれば、モデルはパターンを正しく使用できるが、コンテキストがないと古いトレーニングデータに依存する。スキルはコンテキストを誰にでも配布する最も簡単な方法である。
エージェントの進化と実用化
エージェントはネイティブiOS機能のアップグレードからクラッシュの自動修正まで、スタック全体を駆動できるようになり、インフラとしての役割を果たし始めている。
スキルの役割と利点
スキルはエージェントの生成内容を制御し、フレームワーク変更に対応させ、トークン効率を向上させる手段である。
影響分析・編集コメントを表示
影響分析
この記事は、AIエージェント向けの知識共有とスキル管理の標準化が進んでいることを示しており、開発者コミュニティの効率性向上とエコシステムの成熟化に寄与する。同時に、急成長するオープンプラットフォームにおけるセキュリティ対策の重要性を浮き彫りにしている。
編集コメント
AIエージェントの実用化が進む中、知識共有の標準化とセキュリティ確保が次の課題として浮上していることを示す重要な事例。Vercelのプラットフォーム戦略の一端としても注目される。
その部屋は、既にスキルを使用したことのある人々で満ちていた。
火曜日の夜、私たちはサンフランシスコで「スキルズナイト」を開催した。これは、オープンスキルエコシステムであるskills.sh上およびその周辺で開発を行う開発者向けのイベントで、このエコシステムは、ある週末に書き始めたアイデアから私たちが育ててきたものだ。Shu DingがReactに関する彼の知見のすべてを文書化するために腰を下ろしたことから始まったこのプロジェクトは、69,000以上のスキル、200万回のスキルCLIインストール、そして驚くほど速く成長するコミュニティへと発展した。
以下は、私たちが学んだことだ。
起源
この起源の物語は、私たちがこのプロジェクトをどう捉えているかを形作るため、改めて語る価値がある。
Shu Dingは、私がこれまで共に仕事をした中で最も才能のあるウェブエンジニアの一人だ。彼はReactとブラウザについて、ほとんどの人が気付きもしないような深い知識を持っている。昨年、彼はある週末に腰を下ろし、その知識のすべてを書き留めた。一種の「ウェブ聖書」とも言えるものだ。私たちはそれをどう届けるべきか考えた。ブログ記事や、将来の次世代モデルが学習するかもしれないドキュメントという案もあったが、結果が見えるのはClaude Sonnet 8やGPT-9の時代まで待たねばならないだろう。一方、MCPサーバーは、本質的にはマークダウン文書の集合体であるこのコンテンツには重すぎると感じた。
スキルは、オンデマンドで知識を提供する最速の方法として理にかなっていた。Reactのベストプラクティスをインストールする手順を書いている間、私は、スキルをCursor、Claude Code、Codex、その他10以上のコーディングエージェントに導入するための同じインストール手順を、わずかに異なるインストールディレクトリ指定でコピー&ペーストし続ける羽目になった。
そこで、すべての主要なコーディングエージェントへ同時にインストールするCLIを構築した。それがnpx skillsとなった。私たちはテレメトリーを追加し、新しいスキルがインストールされるとそれを可視化するようにした。このデータが、skills.shのリーダーボードを支えている。この仕組み全体は、アイデアからVercel上の本番環境までわずか数日で実現した。VercelのCTOであるMalte Ublは、それを完璧に言い表している:これはエージェントコンテキストのためのパッケージマネージャーだ。
現在、私たちは69,000のスキルを追跡しており、それらを発見しやすくするだけでなく、以下のような簡単なコマンドでインストールしやすくしている。
解決すべきセキュリティ問題
成長は攻撃対象領域を生み出し、急速な成長はそれをさらに速く拡大させる。
スキルが普及し始めるとすぐに、品質のばらつきが生じた。SocketのRyanは具体的な例を示してくれた:マークダウンレベルでは完全にクリーンに見えるが、インストール時にリモートシェルを開くPythonファイルを含んでいたスキルがあった。ディレクトリ内のすべてのファイルをチェックしなければ、これを見逃してしまうだろう。
これが、私たちがGen、Socket、Snykとのセキュリティパートナーシップを発表し、既存の全スキルと新規に追加されるすべてのスキルに対して監査を実行する理由だ。
Socketは、LLMベースのノイズ低減と組み合わせたクロスエコシステム静的解析を行っており、ベンチマークにおいて95%の精度、98%の再現率、97%のF1スコアを報告している。
Genは、Sageと呼ばれるリアルタイムのエージェント信頼レイヤーを構築中で、エージェントの内外のすべての接続を監視し、データ流出やプロンプトインジェクションのリスクなく自由に実行できるようにする。
Snykは、パッケージセキュリティの専門知識をスキルという文脈に応用している。
私たちは、スキルごとの評価と推奨事項を提供する「監査リーダーボード」を構築している。目標は物事を締め付けることではない。目標は、自信を持って迅速に進めることを可能にすることだ。私たちは常に、スキル監査に独自の視点をもたらし、スキルに対するより多くの信頼シグナルを提供できる新しいセキュリティパートナーを探している。
デモが示したもの
8つのパートナーが火曜日にデモを行い、いくつかの共通テーマが浮かび上がった。
スキルはトレーニングカットオフのギャップを埋める。Ben Davisはこれを実証するための対照実験を行った。
彼は、コーディングエージェントに、比較的新しいAPIであるSvelteリモート関数を実装させようと試みた。4つの異なる方法でだ:コンテキストなし、ドキュメントを含むスキルファイル、MCPを参照するスキル、プロジェクト内のコード例。
コンテキストを与えたすべてのアプローチが機能した。
コンテキストなしの実行(彼は解決策を推測させないよう、機能を制限したモデルを強制的に使用させた)は、完全に間違った出力を生成した。モデルは、パターンを与えられればそれを正しく使用できるほど賢い。コンテキストがない場合、彼らは古くなったトレーニングデータに頼らざるを得ない。
媒体よりも内容が重要だ。Benの実験から得られた興味深い知見は、スキルが唯一の方法だということではなかった。重要なのは適切なコンテキストを提供することで、既存のベースラインがない場合、スキルが最速の出発点となるということだ。既存のコード例、インラインドキュメント、MCPのヒントもすべて有効である。
スキルは、そのコンテキストを誰にでも配布する最も簡単な方法に過ぎない。
エージェントは今、スタック全体を駆動できる。ExpoのEvan Baconは、Expoスキルを活用したClaude Codeによって完全に駆動されるネイティブiOS機能のアップグレードを披露した。
新しいSwiftUIコンポーネント、ジェスチャー駆動のトランジション、タブバーの更新がすべて自動的に適用された。彼らはまた、開発中のスキルでLLDB統合を使用しており、エージェントがネイティブiOSのビュー階層を読み取り、悪名高いキーボード処理のバグを自動的に修正できるようにしている。
彼らの本番アプリであるExpo Goは、クラッシュが発生するたびに自動修正するようになった。Xcodeとの格闘を経験したことがある人なら、この発言の重要性が分かるだろう。
スキルはインフラストラクチャになりつつある。Nick Khamiは、Mintlifyが、ホストするすべてのドキュメントサイト(Claude Code自身のドキュメント、Coinbase、Perplexity、Lovableを含む)に対してスキルを自動生成していることを紹介した。
これらのサイトへのトラフィックの50%は現在コーディングエージェントによるもので、1年前の10%から増加している。スキルは、もはやドキュメントチームが書くものではない。それは、よく構造化されたドキュメントを持つことの副産物なのだ。SentryのDavid CramerはWardenを構築した。これはGitHub Actionsを介してプルリクエスト上でスキルをリンターとして実行するハーネスで、エージェントを静的解析レイヤーとして扱うものだ。
私たちが目指して構築しているもの
VercelのCEOであるGuillermo Rauchは、火曜日の夜に私が考え続けていることをこう言った:エージェントは間違いを犯す。
彼らは時折、あなたが絶対に正しいと告げながら、間違ったことを実行し始める。AI時代に品質を届けるとは、消費したトークンの量を称えるだけではない。それらのトークンが実際に生み出すものの水準を引き上げることを意味する。
スキルはその一つの答えだ。スキルは、エージェントが何を構築するかに影響を与え、フレームワークの変更に合わせてそれらを最新の状態に保ち、正解への直行ルートを提供することでトークン効率を高め、あちこちでつまずくのを防ぐ方法である。
200万回のインストールは真のシグナルだ。セキュリティパートナーシップは、チームが頼りにできる基盤を作る。そしてデモは、最も興味深いスキルの活用がCLIレベルではなく、今やスキルを大規模な知識配信のための第一級のプリミティブとして扱うエージェントやツールの中で行われていることを示した。
私たちは構築を続ける。skills.shで私たちを見つけてほしい。
原文を表示
The room was full of people who had already used skills.
Tuesday night we hosted Skills Night in San Francisco, an event for developers building on and around skills.sh, the open skills ecosystem we've been growing since the idea started as a single weekend of writing. What began as Shu Ding sitting down to document everything he knows about React has grown into over 69,000 skills, 2 million skill CLI installs, and a community moving incredibly fast.
Here is what we learned.
Where this came from
The origin story is worth retelling because it shapes how we think about the project.
Shu Ding is one of the most talented web engineers I've ever worked with. He knows things about React and the browser that most people will never discover. Last year, he sat down on a weekend and wrote it all down. A kind of web bible. We wanted to figure out how to ship it. We considered a blog post or documentation that the next generation of models might eventually learn - but we wouldn't see the results until Claude Sonnet 8, or GPT-9. On the other hand, an MCP server felt too heavy for what was essentially a collection of markdown documents.
Skills made sense as the quickest way to deliver on-demand knowledge. While writing the instructions for installing React best practices, I ended up copying and pasting the same installation instructions for getting the skills into Cursor, Claude Code, Codex, and the other 10+ coding agents but with slightly different installation directories.
So I built a CLI to install it into every major coding agent at once. That became npx skills. We added telemetry to surface new skills as they got installed, which became the data that powers the leaderboard at skills.sh. The whole thing went from idea to production on Vercel in days. Malte Ubl, Vercel CTO, framed it perfectly: it's a package manager for agent context.
Now we are tracking 69,000 of them, and making them not just easy to discover but easy to install, with simple commands like just:
The security problem we needed to solve
Growth creates attack surface, and fast growth creates it even faster.
As soon as skills took off, quality variance followed. Ryan from Socket showed us a concrete example: a skill that looked completely clean at the markdown level but included a Python file that opened a remote shell on install. You would never catch that without looking at every file in the directory.
That is why we announced security partnerships with Gen, Socket, and Snyk to run audits across all skills and every new one that comes in.
Socket is doing cross-ecosystem static analysis combined with LLM-based noise reduction, reporting 95% precision, 98% recall, and 97% F1 across their benchmarks.
Gen is building a real-time agent trust layer called Sage that monitors every connection in and out of your agents, allowing them to run freely without risk of data exfiltration or prompt injection.
Snyk is bringing their package security background to the skills context.
We are building an Audits leaderboard to provide per-skill assessments and recommendations. The goal is not to lock things down. The goal is to let you go fast with confidence. We're always looking for new security partners who can bring unique perspectives to auditing skills and provide more trust signals for skills.
What the demos showed us
Eight partners showed demos on Tuesday, and a few themes kept coming up.
Skills close the training cutoff gap. Ben Davis ran a controlled experiment to demonstrate this.
He tried to get coding agents to implement Svelte remote functions, a relatively new API, four different ways: no context, a skills file with documentation, a skill pointing to the MCP, and a code example in the project.
Every approach with context worked.
The no-context run, which he had to force through a stripped-down model to prevent it from inferring solutions, produced completely wrong output. Models are smart enough to use patterns correctly when you give them the patterns. Without context, they fall back to stale training data.
The medium matters less than the content. The interesting takeaway from Ben's experiment was not that skills are the only way. It is that getting the right context in is what matters, and skills are the fastest starting point if you do not already have a baseline. Existing code examples, inline documentation, and MCP hints all work.
Skills are just the easiest way to distribute that context to anyone.
Agents can now drive the whole stack. Evan Bacon from Expo showed native iOS feature upgrades driven entirely by Claude Code using Expo skills.
New SwiftUI components, gesture-driven transitions, and tab bar updates were all applied automatically. They are also using LLDB integration in a work-in-progress skill that lets agents read the native iOS view hierarchy and fix notoriously hard keyboard handling bugs automatically.
Their production app, Expo Go, now auto-fixes every crash as it occurs. For anyone who has spent time wrestling with Xcode, that is a significant statement.
Skills are becoming infrastructure. Nick Khami showed off that Mintlify auto-generates a skill for every documentation site they host, including Claude Code's own docs, Coinbase, Perplexity, and Lovable.
Traffic to these sites is now 50% coding agents, up from 10% a year ago. The skill is not something the docs team writes anymore; it is a byproduct of having well-structured documentation. Sentry's David Cramer built Warden, a harness that runs skills as linters on pull requests via GitHub Actions, treating agents as a static analysis layer.
What we're building toward
Guillermo Rauch, Vercel CEO, said something Tuesday night that I keep thinking about: agents make mistakes.
They sometimes tell you you are absolutely right and proceed to do the wrong thing. Shipping quality in the AI era means not just celebrating how many tokens you are burning. It means raising the bar on what those tokens actually produce.
Skills are one answer to that problem. They are how we influence what agents create, keep them up to date with framework changes, and make them more token-efficient by giving them a straight path to the right answer instead of letting them stumble around.
Two million installs is real signal. The security partnerships make it something teams can rely on. And the demos showed that the most interesting skills work is not at the CLI level. It is in the agents and tools that are now treating skills as a first-class primitive for distributing knowledge at scale.
We will keep building. Come find us at skills.sh.
Read more
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み