AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Mercari Engineering·2026年4月28日 10:07·約9分で読める

メルカリPMエージェントの設計:Claude CodeスキルとMCPによるプロジェクトマネジメント業務の自動化

#Claude Code#MCP#Agent Orchestration#Prompt Engineering#Mercari
TL;DR

メルカリのエンジニアが、Claude Code の Skill と MCP プロトコルを活用し、PM の情報収集から PRD・UI モック作成までのワークフローを自動化するエージェント「mercari-pm-agent」の実装手法と設計思想を詳述している。

AI深層分析2026年5月3日 08:11
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
5
革新性10%
3

キーポイント

1

Claude Code Skill と MCP を活用した統合自動化

Notion、Slack、Looker、Figma といった複数の業務ツールを MCP(Model Context Protocol)経由で接続し、PM の意思決定に必要な情報収集から成果物作成までを単一セッションで完結させるエージェントを構築した。

2

プロンプト設計における「関心の分離」の適用

LLM のコンテキスト長化による精度低下(Lost in the Middle 問題)を防ぐため、振る舞いの定義ファイル(SKILL.md)と参照データ・テンプレート(references/)を物理的に分離する設計を採用し、出力品質を大幅に向上させた。

3

実務課題の解決と PM の時間創出

ツール横断による情報整理の負担を軽減することで、PM が本来注力すべき「深い思考」と「意思決定」に時間を充てられるようになり、業務効率化を実現した。

4

評価基準の先行定義(プロンプトTDD)

実装前に課題理解、仕様具体性、実現可能性などの評価軸を事前に定義し、感覚ではなく客観的な基準で改善サイクルを回すアプローチが有効である。

5

LLMの「それらしい嘘」への制約設計

捏造を防ぐため、未確認データは明示的にラベル付けし、PM の確認なしに自動進行することを禁止するルールをプロンプトに組み込む必要がある。

6

並列処理とフォールバックによる堅牢性

MCP による外部ツール接続はユーザー待ち時間を減らすため並列設計とし、一部利用不可でも処理が止まらないようフォールバック機能を備えている。

影響分析・編集コメントを表示

影響分析

この記事は、単なるツールの紹介にとどまらず、LLM エージェントの実装において「コンテキスト管理」という技術的課題に対し、ソフトウェアエンジニアリングの古典的な原則である「関心の分離」を適用する具体的な解決策を示しています。これにより、複雑な業務フローを持つ組織内での AI エージェント実装におけるベストプラクティスとして、多くの開発者や PM にとって高い示唆性を持ちます。

編集コメント

LLM のコンテキスト制限という技術的課題に対し、ソフトウェア設計の原則を適用して解決した事例は非常に示唆に富んでおり、実務レベルでの AI エージェント構築における重要な知見です。

はじめに

こんにちは。MercariでPMインターンをしている菊池翔吾です。

インターン期間中に mercari-pm-agent というClaude CodeのSkillを開発しました。PMが行う「問題の発見→データ収集→PRD作成→UIモック」の一連のワークフローを、1つのセッション内で処理するエージェントです。

この記事では、PMのワークフローをClaude Code上でどのように実装したか——Skillの設計と、MCP(Model Context Protocol)を使ったNotion・Slack・Looker・Figmaとの接続方法——を中心に紹介します。

背景:メルカリPMの情報収集ワークフローと課題

メルカリのPMが意思決定を行うには、複数のツールを横断して状況を把握する必要があります。

  • Notionで中期戦略・KPI目標の方向性を確認する
  • Slackで社内の改善要望やフィードバックを検索する
  • Lookerでユーザー行動の定量指標を確認する
  • Figmaで対象画面の現状デザインを確認する
  • これらを統合してPRD(製品要求仕様書)に落とし込む

各ツールへのアクセス自体は難しくありませんが、ツールを横断しながら「どのデータが今の判断に関係するか」を整理する作業には一定の時間がかかります。PMが本来時間を使うべきは、集めた情報をもとに深く考え、意思決定し、関係者と対話することのはずです。情報収集にかかる時間を、思考と意思決定に充てられるようにしたい——それがこのツールを作った動機です。

mercari-pm-agentの概要

mercari-pm-agent は、Claude CodeのSkillとして実装したPM支援エージェントです。

PMがプロダクト上のビジネス課題を自然言語で入力すると、以下のステップが自動的に進みます。

処理の流れ

Product development workflow from problem definition to final mockup, including data collection, opportunity scoring, PRD creation, UI specification, and prompt generation.
Product development workflow from problem definition to final mockup, including data collection, opportunity scoring, PRD creation, UI specification, and prompt generation.

実装:Claude Code SkillsでPMワークフローを定義する

Claude Code Skillsとは

Claude Code Skillsは、Claude Codeの振る舞いをMarkdownファイルで定義する仕組みです。SKILL.md にエージェントの動作手順・制約・ツールへのアクセス方法を記述することで、特定の業務フロー専用のエージェントを構築できます(公式ガイド)。

コードを書かずにエージェントの振る舞いを定義できる点が特徴です。PM向けSkillの実装例としては phuryn/pm-skills も参考にしました。ただし、後述するように「Markdownを書くだけ」では精度は出ません。振る舞いの制約設計と評価サイクルが重要です。

ファイル構成:関心の分離をプロンプト設計に適用する

code
mercari-pm-agent/
├── [SKILL.md](http://skill.md/)  # エージェントの振る舞い定義(英語)
└── references/
    ├── [prd-template.md]  # PRDテンプレート
    ├── [prd-checklist.md] # PRD品質チェックリスト(9項目)
    ├── [ui-and-figma.md] # UI Spec・Figma Makeプロンプトテンプレート
    ├── [laplace-guide.md]  # データ解釈ガイド
    ├── [data-sources.md] # データソース一覧・使い方
    └── [quick-reference.md] # 出力チェックリスト

初期は全ての定義を SKILL.md 1ファイルに集約していましたが、後述する評価スキルによるスコアリングを通じて、ファイルが長くなるほど出力精度が低下するという問題を確認しました。

これはLLMの特性と関係しています。コンテキストが長くなると、モデルが文脈の中で関連情報に適切に注目できなくなる現象(いわゆる「Lost in the Middle」問題)が知られており、Anthropicのプロンプトエンジニアリングガイドでもプロンプトを簡潔に保つことが推奨されています。

対応として、振る舞いの定義(SKILL.md本体)と参照データ・テンプレート(references/)を分離しました。ソフトウェア開発における「関心の分離(Separation of Concerns)」をプロンプト設計に適用したアプローチです。SKILL.mdはエージェントが「何をどの順序でするか」のみを保持し、具体的なデータやテンプレートは必要なタイミングでreferencesから参照する設計です。この構造変更だけでスコアが明確に改善しました。

なお、SKILL.mdは英語で記述しています。Claudeへの指示として英語の方が精度が高いためです。

MCP接続:複数ツールをエージェントに繋ぐ

mercari-pm-agent の中核的な価値は、Step 2のデータ収集を自動化する点にあります。ここではMCP(Model Context Protocol)を使ったツール接続の設計について説明します。

MCPとは

MCPはAnthropicが策定したオープンプロトコルで、LLMアプリケーションが外部ツールやデータソースに接続するための標準仕様です。MCPサーバーを通じて、Claude CodeからNotion・Slack・Lookerなどの外部サービスをツールとして呼び出せるようになります。

接続しているMCPサーバー

MCPサーバー

種別

取得できる情報

用途

Notion MCP

公式(Notion提供)

戦略ドキュメント・KPIダッシュボード

中期戦略との整合性確認

Slack MCP

社内独自実装

社内フィードバックチャンネルの投稿

改善要望・現場の声の収集

Socrates

社内独自実装(BigQuery・Lookerベース)

CVR等の指標データ

定量的な課題の裏付け

Figma MCP

社内独自実装

デザインファイルのコンポーネント情報

既存デザインの取得・UI Specへの反映

並列クエリと堅牢性の設計

Step 2(データ収集)では、これら複数のMCPを並列でクエリします。data-sources.md に以下のルールを記述しています。

code
- Pull in parallel during Data Enrichment — do not wait for one source
  before querying another.
  (データ収集フェーズでは並列で参照する。1つのソースの完了を待たないこと)

- If a source is unavailable, skip silently and mark it in the output.
  (ソースが利用不可の場合は、出力にその旨を明記してスキップする)

直列での順次参照に比べてユーザーの待ち時間を削減するためです。また、いずれかのMCPが利用不可の状態でも処理が止まらないようフォールバック設計を入れています。

セキュリティ上の考慮

Slack MCPのセットアップには社内VPN接続とUser Tokenによる認証が必要です。トークンはClaude Codeの設定ファイルに環境変数として渡す形にしており、チャット上でトークン文字列が露出しない設計にしています。また、SlackのUser Tokenは7日で失効するため、更新用のスクリプトを別途用意しています。

開発で大事にしたこと

評価基準を先に決める——プロンプトのTDD

実装を始める前に、まず「エージェントの出力をどう評価するか」の基準を定義しました。

  • 課題の理解精度(問題の本質を正しく捉えているか)
  • 仕様の具体性(実装可能なレベルで記述されているか)
  • 実現可能性(技術的・リソース的に妥当か)
  • UXの妥当性(お客さまにとって使いやすいか)

これはソフトウェア開発におけるテスト駆動開発(TDD)に近い発想です。LLMベースのエージェントは「動くかどうか」より「正しく動くかどうか」の判定が難しい。評価軸を先に定義することで、プロトタイプの改善サイクルを感覚ではなく基準で回せるようになりました。実際のWeb改善課題を収集して評価データセットを作り、反復的に精度を上げていきました。

LLMの「それらしい嘘」を制約として防ぐ

LLMを業務フローに組み込む上で最も危険なのは、「根拠のないそれらしい情報」の生成です。データが存在しない状況でも、モデルは自然に「それっぽい数値」を出力します。PMがその数値を信じてPRDに記載してしまうと、意思決定の根拠がフィクションになります。

これは「嘘をつくな」とプロンプトで命令するだけでは解決しません。モデルがデータ不足を認識したとき、どう振る舞うかを制約として設計する必要があります。

Data integrity rules:

  • Unconfirmed data must be labeled "Not provided" or "To be validated"

(未確認のデータは "Not provided" または "To be validated" とラベルすること)

  • Never fabricate numbers or sources

(数値や出典を捏造しないこと)

さらに、PMの確認なしに次のステップへ自動的に進むことを禁じました。

You are NOT allowed to infer completeness. Only explicit confirmation from the PM allows progression. (完了を推測して次へ進むことを禁じる。PMの明示的な確認があった場合のみ次へ進める)

これにより、エージェントが「それらしい流れ」で自動進行するのではなく、常にPMが意思決定のドライバーである状態を維持します。

スキルをスキルで評価する——自動評価パイプライン

設計したルールが実際に機能しているかを検証するため、評価専用のスキル(skill-creator-max)を別途作成しました。mercari-pm-agent に対してテストケースを投げ、出力の品質をスコアリングして返すエージェントです。このスコアを使った反復改善の中から、前述の「SKILL.mdは短いほど精度が上がる」という知見が得られ、ファイル分割の設計変更につながりました。

まとめ

mercari-pm-agent の開発を通じて得た、Claude Code Skillsを使ったエージェント設計の主な知見をまとめます。

  • Skillの設計は「振る舞いの仕様書」を書くことに近い。 命令ではなく制約の設計が重要で、LLMが「どう振る舞うべきでないか」を明示することが精度に直結する。
  • MCPによる外部ツール接続は並列設計で。 直列参照はユーザー体験を悪化させる。フォールバック設計とあわせて、接続の堅牢性を考慮する必要がある。
  • プロンプト設計にも関心の分離が有効。 コンテキストが長くなるほど精度が下がる。振る舞い定義と参照データの分離は、ソフトウェア設計の原則をLLM設計に適用した結果として機能した。
  • 評価基準は実装より先に作る。 LLMエージェントの品質評価は主観に陥りやすい。評価軸を先に定義し、評価専用のエージェントを作ることで客観的な改善サイクルが回せる。

mercari-pm-agent はClaude CodeのSkillとして実装しているため、MCP設定が済んでいれば /mercari-pm-agent のコマンド1つで起動できます。

PMの業務効率化やClaude Code Skillsを使ったエージェント設計に興味のある方の参考になれば幸いです。

この記事をシェア

関連記事

Mercari Engineering★42026年4月28日 11:13

メルカリPMエージェントの設計:Claude CodeスキルとMCPによるプロジェクトマネジメント業務の自動化

メルカリの菊池翔吾インターンが、PMの業務フローを自動化する「mercari-pm-agent」を開発。Claude Codeのスキル機能とMCPプロトコルを活用し、問題発見からPRD作成までを1セッションで処理するエージェントを設計した。

AI Snake Oil★42026年5月23日 07:24

Google の AI エージェントは本当に 916 ドルで OS を構築したのか?

Google は開発者会議で、単一のプロンプトと約 900 ドルの API 費用で数十のサブエージェントが OS を構築したと主張したが、その実態について疑問を呈している。

TLDR AI★32026年5月20日 09:00

Claude Code の活用:HTML が持つ驚くべき効果(10 分読了)

Anthropic は、Claude Code が HTML を使用することで、レイアウトやデータテーブル、インタラクティブ要素を効果的に扱えるようになり、仕様書やデザインのプロトタイピング、カスタム編集インターフェースの作成において、読みやすさや共有・対話能力が向上すると発表しました。

ニュース一覧に戻る元記事を読む