HubSpotのSidekick:マルチモデルAIコードレビューでフィードバック速度90%向上、エンジニア承認率80%
HubSpotのエンジニアチームは、大規模言語モデルと「判別エージェント」を活用したAIコードレビューシステム「Sidekick」を導入し、プルリクエストへの初回フィードバック時間を約90%短縮し、数万件の内部レビューで活用されている。
キーポイント
AI駆動コードレビューシステムの導入
HubSpotが内部開発した「Sidekick」は、大規模言語モデルを用いてプルリクエストを分析し、コードレビュープロセスを自動化するシステムである。
二段階フィードバックフィルタリング
一次分析後に「判別エージェント」がフィードバックを精査する多段階アプローチを採用し、フィードバックの質を向上させている。
劇的な効率化効果
プルリクエストへの初回フィードバック時間を約90%短縮し、開発プロセスの高速化を実現した。
大規模な実運用実績
既に数万件の内部プルリクエストで実際に使用されており、実環境での有効性が確認されている。
高いエンジニア受容性
記事タイトルから、80%のエンジニアがこのシステムを承認していることが示唆されており、現場での受け入れが進んでいる。
影響分析・編集コメントを表示
影響分析
この記事は、AIを活用した開発者ツールが具体的な生産性向上(90%の時間短縮)と高い現場受容性(80%承認)を実証した重要な事例を示している。特に大規模な実運用環境での成功は、AI駆動開発ツールの実用段階への移行を示唆しており、ソフトウェア開発プロセスの変革を加速させる可能性がある。
編集コメント
AIツールの実用性を数値で示した稀有な事例。90%の効率化と80%の承認率という具体数値が、AI導入の成功基準を示している点が特に価値がある。
HubSpot のエンジニアチームは、サイドキック(Sidekick)を導入しました。これはプルリクエストの変更を分析し、開発者に自動フィードバックを提供するために設計された内部 AI 搭載コードレビューエージェントです。このシステムは大規模言語モデルを活用してコードを検証し、GitHub 上のリポジトリに直接コメントを投稿します。エンジニアチームによると、このツールはプルリクエストにおける最初のフィードバックまでの時間を約 90% 短縮し、開発者がレビュープロセスの初期段階で問題を特定するのを支援しました。
コードレビューはソフトウェア開発において不可欠ですが、レビュアーが利用できない場合に遅延が生じることがあります。HubSpot では、エンジニアたちが AI コーディングアシスタントがコード作成を加速させる一方で、手動レビューが遅れがちであることを発見しました。サイドキックは即座にプルリクエストへのフィードバックを提供し、人間のレビュアーがアーキテクチャやより高レベルな設計に集中できるようにすることで、効率性を向上させ、レビューのボトルネックを削減します。
Emily Adams 氏は社内のブログ記事で次のように説明しています。
「私たちが発見したことは、あなたを驚かせるかもしれません:私たちの AI コードレビュアーは実際の課題を検出し、HubSpot に特化した文脈を理解しており、高いシグナル対ノイズ比を維持し、多くの場合コメントを一切残さないこともあります。」
システムの最初のバージョンは、Crucible という社内プラットフォーム上で稼働していました。大規模言語モデル(LLM)エージェントは Kubernetes 環境内で動作し、コマンドラインを介して GitHub リポジトリと連携しました。エージェントはプルリクエストの変更を取得し、潜在的な問題や改善点を特定するためのプロンプトを使用してレビューコメントを生成しました。このアプローチは LLM が有用なフィードバックを提供できることを実証しましたが、運用上の複雑さを生み出しました。各レビューには個別のコンテナ化されたワークロードが必要となり、レイテンシとインフラストラクチャのオーバーヘッドが増大し、開発者ツールや社内サービスに対するエージェントの操作制御が制限されました。
これらの課題に対処するため、エンジニアリングチームはシステムを Java ベースのエージェントフレームワークである Aviator へ移行しました。Aviator は HubSpot の開発プラットフォームと統合されており、レビューエージェントが孤立したワークロードではなく既存のサービス内で実行されることを可能にします。Aviator は Anthropic、OpenAI、Google を含む複数のモデルプロバイダーをサポートしており、実験やフォールバックオプションの実現を可能にしています。RPC ベースのツール抽象化を通じて、エージェントは設定値やコーディング規約などのリポジトリコンテキストを取得し、自動化されたレビューコメントの関連性と精度を向上させています。
展開中に特定された重要な課題の一つはフィードバックの質でした。初期バージョンでは、冗長または過度に肯定的なコメントがノイズとして扱われることがありました。これに対処するため、チームは「評価エージェント」を導入し、プルリクエストディスカッションへの投稿前にコメントを評価するようにしました。HubSpot のエンジニアによると、この評価者パターンにより低価値なコメントが減り、信号対雑音比が改善されました。開発者は自動生成されたコメントに対してリアクションを行うこともでき、それによってプロンプトの調整やモデル選択を導くフィードバックを提供できます。本システムはエンジニアから一貫して 80% の「いいね」率を記録しており、高い採用率と信頼性を示しています。
レビューエージェントから評価エージェントへの評価ループ(出典:HubSpot ブログ記事)
HubSpot のエンジニアリング担当バイスプレジデントである Brian L は LinkedIn で次のように述べています。
最も影響力のある変更は、投稿前にレビューを評価する第二のエージェントを追加したことです。その結果、コメント数は減り、より質が高く、実行可能なものになりました。エンジニアたちがプルリクエストを開く前さえも Sidekick のフィードバックを見たいと尋ね始めたとき、私たちはこれが正解だと確信しました。
HubSpot のエンジニアたちは、今後の取り組みとして、レビューエージェントに永続的なメモリ機能を追加し、関連するコード変更の理解を深めるためにリポジトリ全体での文脈取得を拡張することを挙げています。
著者について
リーラ・クミリ
リーラはスターバックスのリードソフトウェアエンジニアであり、スケーラブルなクラウドネイティブシステムや分散プラットフォームの構築において深い専門知識を有しています。彼女はリワードプラットフォーム全体にわたってアーキテクチャ、納品、運用の卓越性を推進し、システムの近代化、スケーラビリティの向上、信頼性の強化に向けた取り組みを主導しています。
技術的なリーダーシップに加えて、リーラは組織内の AI チャンピオンとして活動しており、LLM ベースのツールを活用して開発者の生産性とワークフローを改善する機会を特定し、AI 導入のためのベストプラクティスを確立しています。彼女は本番環境で運用可能なシステムの構築、開発者体験の向上、そしてエンジニアが技術面と戦略的インパクトの両面で成長できるようメンタリングすることに情熱を注いでいます。彼女の関心領域にはプラットフォームエンジニアリング、分散システム、開発者の生産性、そして技術ソリューションとビジネス・製品目標をつなぐことが含まれています。
もっと見る 表示しない
原文を表示
HubSpot engineers introduced Sidekick, an internal AI powered code review agent designed to analyze pull request changes and provide automated feedback to developers. The system uses large language models to review code and post comments directly in repositories on GitHub. According to the engineering team, the tool reduced time-to-first-feedback on pull requests by approximately 90 percent while helping developers identify issues earlier in the review process.
Code review is essential in software development, but can be delayed when reviewers are unavailable. At HubSpot, engineers found that AI coding assistants sped up code creation, while manual reviews lagged. Sidekick provides immediate pull request feedback, letting human reviewers focus on architecture and higher-level design, improving efficiency and reducing review bottlenecks.
As Emily Adams explained in a company blog post,
What we found might surprise you: our AI code reviewer catches real issues, understands HubSpot‑specific context, and maintains a high signal to noise ratio, often leaving no comments at all.
The first version of the system ran on an internal platform called Crucible. Large language model agents operated in Kubernetes environments and interacted with GitHub repositories via the command line. The agents retrieved pull request changes and generated review comments using prompts to identify potential issues or improvements. While this approach demonstrated that LLMs could provide useful feedback, it introduced operational complexity. Each review required separate containerized workloads, increasing latency and infrastructure overhead, and limited control over agent interactions with developer tooling and internal services.
To address these limitations, the engineering team migrated the system to a Java based agent framework called Aviator. It integrates with HubSpot’s development platform, letting review agents run within existing services rather than isolated workloads. Aviator supports multiple model providers, including Anthropic, OpenAI, and Google, enabling experimentation and fallback options. Through RPC-based tool abstractions, agents retrieve repository context such as configuration settings and coding conventions, improving the relevance and accuracy of automated review comments.
A key challenge identified during deployment was feedback quality. Early versions produced verbose or overly positive comments considered noise. To address this, the team introduced a " judge agent," which evaluates comments before posting them to pull request discussions. According to HubSpot engineers, this evaluator pattern reduced low-value comments and improved the signal-to-noise ratio. Developers can also react to automated comments, providing feedback that guides prompt adjustments and model selection. The system has recorded a consistent 80% thumbs-up rate from engineers, demonstrating strong adoption and trust.
Review Agent to Judge Agent evaluation loop (Source: HubSpot Blog Post)
Brian L, VP of Engineering at HubSpot, noted on LinkedIn:
The most impactful change was adding a second agent to evaluate reviews before posting. The result: fewer, better, and more actionable comments. We knew we’d gotten it right when engineers started asking to see Sidekick’s feedback even before opening a PR.
HubSpot engineers mention that future work includes adding persistent memory for review agents and expanding context retrieval across repositories to improve understanding of related code changes.
About the Author
Leela Kumili
Leela is a Lead Software Engineer at Starbucks with deep expertise in building scalable, cloud-native systems and distributed platforms. She drives architecture, delivery, and operational excellence across the Rewards Platform, leading efforts to modernize systems, improve scalability, and enhance reliability.
In addition to her technical leadership, Leela serves as an AI Champion for the organization, identifying opportunities to improve developer productivity and workflows using LLM-based tools and establishing best practices for AI adoption. She is passionate about building production-ready systems, enhancing developer experience, and mentoring engineers to grow in both technical and strategic impact. Her interests include platform engineering, distributed systems, developer productivity, and bridging technical solutions with business and product goals.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み