ShopifyのAIフェーズ移行:2026年の使用爆発、無制限のOpus-4.6トークン予算、Tangle、Tangent、SimGym — Shopify CTOミハイル・パラヒンとの対談
Shopify CTOのMikhail Parakhinは、同社のAI活用戦略において生成よりもレビューとCI/CDの安定性がボトルネックであり、TangleやSimGymといった内部ツールによる再現性とシミュレーションの重要性を強調している。
キーポイント
AI開発のボトルネック転換
コード生成能力の向上により、現在はPRレビュー、テスト失敗、デプロイメントの安定性といった「検証と展開」フェーズが主要なボトルネックとなっている。
内部AIツールの詳細
MLワークフローの再現性確保にはTangle、検索最適化などの自動研究にはTangent、顧客行動のシミュレーションにはSimGymという独自の内部ツール群が活用されている。
トークン予算と評価指標
Jensen Huangが提唱するトークン予算の概念は方向性として正しいが、純粋なトークン数だけではエンジニアリング成果を適切に評価できず、批判ループの質が重要視される。
AIコードの生産性リスク
モデルがよりクリーンなコードを生成しても、プロダクション環境でのバグ増加やデプロイロールバックの問題が生じるため、Shopifyは独自のPRレビューフローを構築している。
Tangle, Tangent, SimGymの統合による相乗効果
再現可能なMLワークフローエンジン「Tangle」、自動化された最適化実験ツール「Tangent」、そしてシミュレーション顧客モデル「SimGym」を組み合わせることで、単独では不可能な高度な反事実推論とコンバージョン向上施策の実現が可能になる。
SimGymの進化とShopifyデータの優位性
SimGymは単なるA/Bテストの比較から、実際のライブストアfrontで何を変更すべきかを示すシステムへ進化しており、Shopifyが持つ膨大な実際の顧客履歴データを基盤とすることで、シミュレーションの精度と競合他社との差別化(moat)を確保している。
Liquid AIの採用と非トランスフォーマーアーキテクチャの実践
Shopifyは低レイテンシのクエリ理解や大規模カタログ処理など、特定のワークロードにおいてトランスフォーマー以外のアーキテクチャ「Liquid AI」を採用しており、Mikhail Parakhin氏はこれを実務で初めて使用した真に競争力のあるアーキテクチャと評価している。
影響分析・編集コメントを表示
影響分析
Shopifyのような大規模プラットフォーム企業が、単なるAIツールの採用ではなく、開発ライフサイクル全体(特にレビューとデプロイメント)を再設計している点は、業界全体のAIエンジニアリング標準を示唆する。また、生成コストの最適化よりも検証プロセスへの投資を強調することで、実務レベルでのAI導入における課題と解決策の具体像を提供しており、他の大規模テック企業への波及効果が期待される。
編集コメント
生成AIがコード作成を代行する時代において、その出力を検証・統合する「人間の判断」と「自動化されたレビュープロセス」の重要性をShopifyの実例で明確に示した貴重なインタビューである。
サンフランシスコ万国博覧会の早期割引は本日限りです。今年最大のAIE(人工知能イベント)であるこの行事の価格は今夜から約500ドル値上げされますので、お早めにお申し込みください!
Shopify内部でのAIツールのほぼ普遍的な採用から、ML(機械学習)実験、自動リサーチ、顧客シミュレーション、超低レイテンシー検索のための内部システムに至るまで、20年の歴史を持つ2,000億ドル規模のソフトウェア企業がAIに全額投資することの実態について、ミハイル・パラヒン氏と深く掘り下げて議論します。Shopifyが内部スタックについて以前よりも活発に発信するようになった理由、12月のモデル品質の転換点以降の変化、そしてAIコーディングにおける真のボトルネックがもはや生成ではなく、レビュー、CI/CD(継続的インテグレーション・継続的デリバリー)、そしてデプロイメントの安定性にある理由についてカバーします。
また、実験の再現性を確保し、最適化を自動化し、顧客行動をシミュレート可能にし、大規模な検索とカタログインテリジェンスをより高速かつ低コストにするためにShopifyが推進する3つの主要なAIイニシアチブであるTangle、Tangent、SimGymの内部事情にも迫ります。その過程で、ミハイル氏はUCP(Unified Compute Platform)、Liquid AIについて説明し、トークン予算が方向性としては正しいもののしばしば不適切に測定されている理由、AI生成コードが依然として本番環境でのバグを増やす可能性がある理由、Shopifyの顧客シミュレーションが防御可能である理由、そしてBingのシドニー時代から彼が学んだことについて語ります。
私たちが議論する内容:
Windows、Edge、Bing、広告をカバーする主要なMicrosoft事業部門を率いた経験からShopifyのCTO(最高技術責任者)への道筋
Shopify が今、AI についてより公に語る理由、そして同社にとって最前線に留まることがなぜ必要になったのか
Shopify の内部 AI 採用曲線、12 月の転換点、そして従来の IDE ベースのツールよりも CLI スタイルのツールが急速に普及する理由
Jensen Huang がトークン予算について方向性として正しいのはその通りだが、純粋なトークン数はエンジニアリングの成果を評価する上で依然として誤った方法である理由
真の突破口は並列でのエージェント数の増加ではなく、より優れた批判ループ、強力なモデル、そして生成よりもレビューに多くのリソースを投じることにある理由
モデルが平均して人間よりもクリーンなコードを書く場合でも、AI コーディングが生産環境でのバグをさらに引き起こし得る理由
Shopify が独自の PR 審査フローを構築した理由、そして Mikhail が市販のレビューツールの大半が本質を見誤っていると考える理由
エージェント時代において、PR 件数、テスト失敗、デプロイのロールバックがなぜ実際のボトルネックになりつつあるのか
コードが機械速度で書かれるようになれば、Git、プルリクエスト、CI/CD に新たな比喩が必要となる理由
Tangle とは何か、そして Shopify がそれを用いて、ML やデータワークフローを最初から再現可能かつ共同作業可能、さらに本番環境対応のものにする方法
Tangle が Airflow と異なる点、そしてコンテンツアドレス型キャッシュがチーム間でネットワーク効果を生む理由
Tangent とは何か、そして Shopify が自動研究ループを用いて検索、テーマ、プロンプト圧縮、ストレージなどを最適化する方法
Tangent が ML エンジニアだけでなく、PM やドメインの専門家のための民主化ツールとなりつつある理由
LLM時代においてAutoMLがようやく現実味を帯びる理由、そして自動研究(auto-research)が今日どこまで達しているか
Tangle、Tangent、SimGymが単一のシステムに統合されることで、なぜ大幅に強力になるか
SimGymとは何か、シミュレートされた顧客が実際の履歴行動データを持つ場合にのみ機能する理由、そしてShopifyのデータが持つ競争優位性(moat)
A/Bテストの比較から、コンバージョン率を向上させるために単一のライブストアフロントで変更すべき内容を商人(merchant)に指示するシステムへ、SimGymがどのように進化してきたか
マルチモーダルモデルからブラウザファーム、さらに推論(serving)や蒸留(distillation)のコストに至るまで、なぜ顧客シミュレーションがこれほど高コストなのか
Shopifyが商人と買い手の軌道(trajectories)をどのようにモデル化し、反事実的推論(counterfactuals)を実行し、割引やキャンペーン、通知といった介入をどう捉えているか
商業分野全体でカテゴリレベルの行動がこれほど異なる理由、そして中国語レストランプロセス(Chinese Restaurant Processes)のようなアイデアが実際に再び注目されている理由
Shopifyの新しいUCP(Unified Commerce Platform)とカタログ作業、ランタイム製品検索、一括照会、アイデンティティリンクングを含む
ShopifyがLiquid AIを採用する理由、そしてMikhail Parakhin氏が実際に使用した中で本格的に競争力のある最初のトランスフォーマー以外のアーキテクチャだと見なす理由
低レイテンシのクエリ理解から大規模なカタログ、Sidekick Pulseのワークロードに至るまで、LiquidがShopify内部で現在どのように機能しているか
十分な計算資源があればLiquidがフロンティア規模のモデルになり得るか、そしてShopifyがモデル選択においてなぜ実用的かつ成果主義的であるか
ML、データサイエンス、分散データベースの分野でShopifyが現在誰を募集しているか
ビンのシドニーでの出来事、その人格が偶然ではなかった理由、そしてミハイルが初期の段階で意図的にAIのキャラクターを形成することから学んだこと
ミハイル・パラヒン
LinkedIn: https://www.linkedin.com/in/mikhail-parakhin/
X: https://x.com/MParakhin
タイムスタンプ
00:00:00 導入:ミハイル・パラヒン、Microsoft、Shopify
00:01:16 なぜShopifyはAIについてより多く語っているのか
00:02:29 Shopifyにおける内部AIの採用と12月の転換点
00:06:54 トークン・バジェット、ジェンセン・ホアング、そして使用量指標が誤解を招く理由
00:10:55 なぜShopifyは独自のAI PR(プルリクエスト)レビューシステムを構築したのか
00:12:38 AIコーディング、より多くのバグ、そして実際のデプロイメントのボトルネック
00:14:11 エージェントのためにGit、PR、CI/CD(継続的インテグレーション/デリバリー)の変更が必要かもしれない理由
00:18:24 Tangle:Shopifyの再現可能なML(機械学習)およびデータワークフローエンジン
00:21:19 なぜTangleはAirflowとは異なるのか
00:26:14 Tangent:最適化と実験のための自動リサーチ
00:30:07 TangentがMLエンジニア以外の実験をどのように民主化するか
00:33:06 自動リサーチの限界
00:36:36 なぜTangle、Tangent、SimGymが複合的に機能するのか
00:37:20 SimGym:Shopifyの歴史的データを用いた顧客のシミュレーション
00:42:47 SimGymの背後にあるインフラ
00:46:00 なぜSimGymは実際の顧客の履歴によって改善されるのか
00:47:30 反事実推論、HSTU(Hierarchical Sequential Transformer Unit)、およびマーチャントの軌道のモデリング
00:51:55 CRPs(Category-Level Response Patterns)、クラスタリング、およびカテゴリレベルの顧客行動
00:53:30 UCP(Unified Customer Profile)、Shopifyカタログ、およびアイデンティティのリンク
00:55:07 Liquid AI:Shopifyが非トランスフォーマーモデルを使用する理由
00:59:13 Liquidの実際のShopifyユースケース
01:03:00 Liquidはフロンティアモデルにスケールできるか?
01:09:49 Shopifyでの採用:機械学習、データサイエンス、データベース
01:10:43 BingでのSydney:性格形成とAIキャラクター
01:13:32 結びの言葉
トランスクリプト
[00:00:00] swyx:はい。私たちはスタジオ、リモートスタジオにいます、ShopifyのCTOであるMikhail Parakhinと一緒に。ようこそ。
[00:00:08] Mikhail Parakhin:ありがとう。ようこそ。
[00:00:10] swyx:私はあなたをShopifyのCTOとして紹介すべきかどうかすらわかりません。あなたは多くのアイデンティティを持っているように感じます。えーと、あなたはBingのMLチームを率いたと思います、えーと、えーと、広告チームです。私はわかりません、私はわかりません、えーと、あなたは、えーと、CEOや、えーと、私がわからない、Microsoftでの前の役割は何だったかと言っています。
[00:00:29] Mikhail Parakhin:えーと、それは…はい、私の前の役割w- Microsoftでは--私は実際にはMicrosoftのビジネスユニットの一つのCEOでした。そこには、えーと、私たちが話したように、人々が笑うことを好むすべてのものが含まれていました。えーと、WindowsやEdgeやBingや広告などすべてを含みます。
[00:00:47] swyx:はい、はい。なんと、なんと、なんと荒々しい時代でした。
Shopifyに入社されてから、明らかに多くのことを成し遂げていますね。私が連絡を取った理由の一つは、あなたが主にTangleのような社内ツールの宣伝を始めたこと、そして多くの人がTobiのQMDを見て採用していることを知ったからです。また、Shopifyはエンジニアリング面において常に先導してきたと考えています。
もっと言えば、最近になってAIの採用についてより積極的に発信するようになったのは事実でしょうか?
[00:01:16] ミハイル・パラヒン:AIツール全般は比較的新しい開発であり、Shopifyも現在の発展段階において、自社でAIを開発し、AIを使用するツールを構築するとともに、より広範なAIコミュニティと連携しています。これらはまさに加速度的な軌道に乗っています。
そのため、自然な副産物としてこうなったのです。私たちはこれについてより多く語っています。昨日も、アンドレイ・カルパシーが、エージェントを組織してデータを保存し、その後データを検索することで、毎回調査したりコンテキスト(文脈)を失ったりする必要がないような方法についてツイートして話題になっていました。はい
そして、少し皮肉を込めて私はツイートしました。「私たち、もっと早くにそれを成し遂げましたよ。トビーと私ではアプローチも異なります」と。もちろん、トビーはQMDの熱心なファンですが、私はSQLやSQLiteの方が好きです。しかし、はい、ここで私たちがすでに成し遂げてきたことは非常に似通っています。要するに、私たちは非常にダイナミックで、爆発的に成長している企業であり、当然のことながらAIの採用において最先端を走らなければなりません。
[00:02:29] swyx:はい、はい。えと、あなたのチームは実際にいくつかのスライドを準備してくださったので、それを画面に表示しようとしていました。私にスクリーン共有の権限があると思うので、いくつかの衝撃的な統計データを確認しながら、現在何が起きているのかを数字で示すことができるかもしれません。ここで私たちが持っているのは、内部のAIツール採用状況を示すチャートです。
ここで何を見ているのでしょうか?
[00:02:54] Mikhail Parakhin:はい、これは非常に興味深い統計データです。えと、これは1日あたりのアクティブなワーカー数、つまり、基本的にはDAO(注:Daily Active Workersの略称と推測されますが、文脈上「社内AIツールの利用者数」を指す用語として扱います)、つまり会社全体のアクティブユーザー数を表しています。
[00:03:05] swyx:はい…
[00:03:05] Mikhail Parakhin:AIツールを会社全体の人数に対するパーセンテージで表したものです。そして、異なるAIツールについてもです。えと、ここで2つのことがわかりますが、1つ目は緑色のバーが合計値であることを示しています。
緑の線は合計値を示しています。現在ではほぼ100%に近づいていることがお分かりいただけるでしょう。少なくとも一つのツールと深く関わり合わずに、今の仕事をするのはもはや不可能です。
もう一つ興味深い点は、昨年12月に多くの人が指摘していた「フェーズトランジション(段階的転換)」です。突如としてモデルの品質が十分に向上し、すべてのものが急成長し始めた時期でした。
多くの人が気づいたのは、小さな改善が蓄積され、9月から12月頃という比較的短い期間でこの大きな変化につながったということです。
[00:03:52] swyx: そうですね。
[00:03:52] Mikhail Parakhin: もう一つ言えるのは、CLIベースのツールや、コードを見ずに操作できるツールの人気が高まっていることです。Cloud Code、Codex、Pi、そして社内開発ツールなど、さまざまなバージョンのツールが急成長しているのが見て取れます。
まさにその通りで、青い線は私たちの「River」を示しています。これはコーディング専用の社内エージェントです。GitHub CopilotやCursorといったIDE(統合開発環境)を必要とするツールは、決して縮小しているわけではありませんが、成長速度はそれほど速くありません。赤い線がIDE系ツールを表しており、これらのツールの成長速度はそれほど速くないことがわかります。
[00:04:37] swyx: 私の理解では、基本的に各従業員が使用するツールを選ぶ自由があり、その後、日々の調査や何らかのアンケートのようなものを実施しているということですね。
[00:04:47] ミハイル・パラヒン:その通りです。そして、えーと、私た- ええ…、要は、あなたのタスクを完了するために、どんなツールでも使って構わないという方針で、私たちは事実上、全員に無制限のトークン予算を提供しています。
えーと、私た- 私たちは、人々が使用するモデルをある程度管理しようとはしていますが、それはトップダウンではなくボトムアップの観点からです。つまり、基本的には「えーと、オパス4.6未満の使用は避けてください」と伝えています。
[00:05:09] swyx:おや。
[00:05:10] ミハイル・パラヒン:一部の人は、GPT-5.4の超高精度版を使用することもあります。また、オパス4.6を使用する人もいます。えーと、えーと、ご存知のように、100万トークンのコンテキストウィンドウをフルに活用することにはメリットもデメリットもあります。
しかし、えーと、私たちはそれ未満の使用を避けるよう促しています。
[00:05:28] swyx:ええ、ええ。わかりました。えーと、つまり、えーと…、えーと、次のチャートは、2025年12月の転換点における拡大を示しているように見えますね。つまり、えーと、人々は多くのトークンを使用しています。また、2025年に誰もそれを悪用していなかったことも非常に興味深いです。
つまり、えーと、今年と比較すると、成長はほぼありませんでした。つまり、おそらく50%程度は提供していたでしょう。
[00:05:56] ミハイル・パラヒン:はい。これは単にスケールが異なるだけです。依然として指数関数的な成長ですが、展開の速度が異なるという点です。ある転換点が存在し、ショーン、ここで最も興味深いのは、分布がますます偏っていることが見て取れる点です。
はい。上位パーセンタイルの成長が速いということです。つまり、上位10%の人々の消費量が、75パーセント層などよりも速く成長するということです。つまり、分布が最高利用者にますます偏っていくわけですが……それが何を意味するのかは私にもわかりません。正直に言えば、理想的ではないような気がします。
あるいは、それで問題ないのかもしれません。見ていきましょう。
[00:06:36] swyx:なぜ理想的ではないと感じるのですか?それは、量重視で質が伴っていないからでしょうか、それとも他の懸念があるのでしょうか?
[00:06:42] ミハイル・パラヒン:極限まで考えてみてください。つまり、この分離の速度が1年間続いたとすると……あぁ、はい……最終的には一人のユーザーがすべてのトークンを消費することになります。それは少し奇妙です。
[00:06:54] swyx:はい、つまり、内部でのトレーニングやそのような取り組みが、より広範にリソースを分散するのに役立つでしょう。しかし、初期段階では、もちろん、「AIに精通した」人々は、「AIにあまり精通していない」人々よりも明らかに多くの利用方法を見つけていくでしょう。そう呼ぶことにしましょう。
では、少しだけここで一旦立ち止まって、あの……えっと。ご存知の通り、残りのスライドに戻りますが、私はまず、皆さんのような大企業のCTOの方々が、みなトークン予算の検討を進めているという点を確認したいのです。つまり、ジェンセン・ホアン氏が語っているような、年間10万トークンを20万人のエンジニアが使用しない場合、コーディングエージェントを十分に活用できていないという議論は、何かしら共通の話題になっていると思います。
もちろんジェンセン・ホアン氏ならそう言うでしょうが、これは明らかに「量重視、質軽視」のアプローチに見え、一部の人は、「これはコード行数でエンジニアの品質を評価することに似ていないか?」と指摘しています。これも既知の欠点はあるものの、何もしないよりはマシだという見方もあります。そこで、私はあなたに、こうした指標をどう捉えるべきかという管理上の見解をお伺いしたいのです。
[00:08:02] ミハイル・パラヒン:ええ、あなたは私を誘い込んでいますね。私はこの話題が大好きです。もし許していただければ、これだけで2時間話せるくらい、言いたいことがたくさんあります。ジェンセン・ホアン氏が「ケーキ売り手は、必要なケーキの数が足りないとは言わないものだ」ということで多くの批判を浴びているのは事実ですが、私はそれは不当な評価だと考えています。彼は実際には正しいと思います。
[00:08:33] swyx:彼は方向性としては正しいです。
[00:08:35] ミハイル・パラヒン:はい。確かに、彼の方向性は正しいと思います。
[00:08:37] swyx:適切な数字が何なのか、誰にもわかりませんね。はい。
[00:08:39] ミハイル・パラヒン:私が強調したいこと、そして試行錯誤を通じて学んだ非常に重要なことは、以下の2点です。
1つ目は、単にトークンを消費することだけが目的ではないということです。実際、アンチパターン(逆効果な手法)としてよく見られるのは、互いに通信しない複数のエージェントを並列で実行することです。これは、少数のエージェントでトークンを非常に効率的に消費するケースと比較すると、ほぼ無意味です。特に高品質なモデルを用いる場合、正しいクリティカルループ(批判・検証のフィードバックループ)を設定することが重要です。具体的には、1つ目のエージェントが何かを実行し、別のモデル ideally を用いた2つ目のエージェントがそれを批判し、改善案を提案します。その後、1つ目のエージェントはその批判を踏まえて再実行を行います。このプロセスは時間がかかります。
そのため、レイテンシ(応答遅延)が増加するため、人々はこれを好まない傾向があります。つまり、この「議論」が完了するまで待たなければならないからです。しかし、生成されるコードの品質は大幅に向上します。
もう1点目は、先ほど言及されたように、全体としての予算は実質的に「コード行数」に換算できるということです。現在、すべての人にとってコード行数が急増しています。その一部の原因はAIが非常に強力な推進力となっていることですが、もう一つの理由は、AIが疲れることなく大量のコードを記述できるためです。
したがって、PR(プルリクエスト)レビュー時には非常に厳格な狭いウエスト(重点的なチェック領域)を確保する必要があります。そうでなければ、バグの数が天井知らずで跳ね上がってしまいます。これは、単に量が多すぎるがゆえに生じる予期せぬ結果です。私は今では、優れたモデルは平均して人間よりも少ないバグでコードを記述すると主張します。
しかし、彼らはそれをはるかに多く生成するため、その多くが本番環境にデプロイされます。そのため、あなたは—あなたは
[00:10:26] swyx: 持っています
[00:10:26] Mikhail Parakhin: より多くのバグを持っています。はい。非常に厳格なPRレビュー、もちろん自動化されたものも必要です。しかし、うーん、はい、そこには多くの予算を費やす必要があります。私にとって、重要な指標は、コード生成時に消費される予算と、GPT-5.4 ProやGeminiのDeep Thinkのような高価なトークンを使用してPRレビューを行う際に消費される予算との比率です。
[00:10:55] swyx: なるほど、確かに。あなたのチャートではレビューツールが一切記載されていませんでした。例えばClaude Codeのようなレビューツールを使用しているのでしょうか?それとも、GreptileやCode Rabbits、Devin Reviewsが提供するレビューツールのような別のセットのレビューツールをお持ちでしょうか?それらの専門的なレビューツールを使用されたことがあるかどうかはわかりません。
[00:11:13] ミハイル・パラヒン:今、私のストアツールについて少し話が進んでいますが、私が公開されているツールだけを示していたからです。えーと、えーと、私は自分が考えるべきことを実行する良いPRレビューツールを見つけていません。そして、えーと、部分的に私の考えは、それがあまりにも…それは人々が感情的に好むと感じることと、えーと、 frankly(率直に言って)企業が運営するいくつかのビジネスモデルの両方に反しているからです。
ピアレビューツールにおいて、えーと、あなたは最大のモデルを実行したいものです。つまり、CodexやCloud Codeでは不十分で、プロレベルのモデルが必要です。もしあなたがボットの生産環境への流入という潮流に立ち向かいたいなら、そうする必要があります。そして、モデルが順番で動作するのには多くの時間がかかりますが、あなたはたくさんのエージェントが並列で多くのことを試みるような大規模な群れは望みません。
したがって、実際には、あなたが生成するトークン数がそれほど多くない、別の二重二元論的な世界に陥ります。実際にはあなたは少ないトークンを生成しますが、これは多くのエージェントが並列で多くのことを試みるのではなく、高価なモデルが順番で動作するため、非常に長い時間がかかります。そのため、私は良いツールを見つけていないと感じており、今はピアレビュー用に独自のツールを使用しています。
[00:12:33] swyx:はい。はい。つまり、えーと、多くの企業が特に自社のニーズに合わせて独自に構築していると思いますよね?
[00:12:38] ミハイル・パラヒン:うん、そうだね。
[00:12:38] swyx:さて、ここにもチャートがありますね。PR(プルリクエスト)のマージ成長率に関するスライドに戻ると、今では月間10%ではなく30%になっています。また、推定される複雑さも上昇しています。
これは生産性の向上对吧?おそらくコードベースに組み込まれる内容が増え、より多くの機能が開発されているはずです。バックログについて気になりますね。つまり、プロフェッショナルレベルのモデルが私のPR(プルリクエスト)をレビューするのに1〜2時間かかること自体は気にしません。なぜなら、人間のレビュアーが私のPRをレビューするのに1週間もかかることだってあるからです。私はSlackで「ねえ、PR見て!」と何度も通知を送り続けます。だから、ここにはある種のトレードオフがあると考えています。まだ理にかなっていない部分があります。
[00:13:18] Mikhail Parakhin:まさにその通りです。それが私の主張の核心です。一方では、PR(プルリクエスト)のレビュー待ち時間の増加はある程度許容できます。他方では、現在の真の問題はPR(プルリクエスト)のレビューに費やす時間にあるわけではありません。
真の問題は、コード量が大幅に増えたことです。はい…つまり、少なくとも一部のテストが失敗する確率が上昇し、その結果、テストが連敗し続けることになります。そうすると、問題を引き起こしているPR(プルリクエスト)を特定し、それを除外して再テストを行う必要が生じます。そして、その…
原文を表示
Early bird discounts for the San Francisco World’s Fair, the biggest AIE gathering of the year, end today - prices will go up by ~$500 tonight so do please lock in ASAP!
From near-universal AI tool adoption inside Shopify to internal systems for ML experimentation, auto-research, customer simulation, and ultra-low-latency search, Mikhail Parakhin joins us for a deep dive into what it actually looks like when a 20-year-old, $200B software company goes all-in on AI. We cover why Shopify has become much more vocal about its internal stack, what changed after the December model-quality inflection, and why the real bottleneck in AI coding is no longer generation, but review, CI/CD, and deployment stability.
We also go inside Tangle, Tangent, SimGym, which are three major AI initiatives that Shopify is doing to make experimentation reproducible, optimization automatic, customer behavior simulatable, and search and catalog intelligence faster and cheaper at scale. Along the way, Mikhail explains UCP, Liquid AI, and why token budgets are directionally right but often measured badly, why AI-written code can still increase bugs in production, what makes Shopify’s customer simulation defensible, and what he learned from the Sydney era at Bing.
We discuss:
Mikhail’s path from running a major Microsoft business unit spanning Windows, Edge, Bing, and ads to becoming CTO of Shopify
Why Shopify is talking more publicly about AI now, and why staying at the frontier has become necessary for the company
Shopify’s internal AI adoption curve, the December inflection, and why CLI-style tools are rising faster than traditional IDE-based tools
Why Jensen Huang is directionally right on token budgets, but raw token count is still the wrong way to evaluate engineering output
Why the real unlock is not more agents in parallel, but better critique loops, stronger models, and spending more on review than generation
Why AI coding can still lead to more bugs in production even if models write cleaner code on average than humans
Why Shopify built its own PR review flow, and why Mikhail thinks most off-the-shelf review tools miss the point
How PR volume, test failures, and deployment rollback are becoming the real bottlenecks in the agent era
Why Git, pull requests, and CI/CD may need a new metaphor once code is written at machine speed
What Tangle is, and how Shopify uses it to make ML and data workflows reproducible, collaborative, and production-ready from the start
Why Tangle is different from Airflow, and why content-addressed caching creates network effects across teams
What Tangent is, and how Shopify is using auto-research loops to optimize search, themes, prompt compression, storage, and more
Why Tangent is becoming a democratizing tool for PMs and domain experts, not just ML engineers
Why AutoML finally feels real in the LLM era, and where auto-research still falls short today
Why Tangle, Tangent, and SimGym become much more powerful when combined into one system
What SimGym is, why simulated customers only work if you have real historical behavior, and why Shopify’s data gives it a moat
How SimGym evolved from comparing A/B variants to telling merchants what to change on a single live storefront to raise conversions
Why customer simulation is so expensive, from multimodal models to browser farms to serving and distillation costs
How Shopify models merchant and buyer trajectories, runs counterfactuals, and thinks about interventions like discounts, campaigns, and notifications
Why category-level behavior is so different across commerce, and why ideas like Chinese Restaurant Processes are showing up again in practice
Shopify’s new UCP and catalog work, including runtime product search, bulk lookups, and identity linking
Why Shopify is using Liquid AI, and why Mikhail sees it as the first genuinely competitive non-transformer architecture he has used in practice
Where Liquid already works inside Shopify today, from low-latency query understanding to large-scale catalog and Sidekick Pulse workloads
Whether Liquid could become frontier-scale with enough compute, and why Shopify remains pragmatic and merit-based about model choice
Who Shopify is hiring right now across ML, data science, and distributed databases
The Sydney story at Bing, why its personality was not an accident, and what Mikhail learned from deliberately shaping AI character early on
Mikhail Parakhin
LinkedIn: https://www.linkedin.com/in/mikhail-parakhin/
X: https://x.com/MParakhin
Timestamps
00:00:00 Introduction: Mikhail Parakhin, Microsoft, and Shopify
00:01:16 Why Shopify Is Talking More About AI
00:02:29 Internal AI Adoption at Shopify and the December Inflection
00:06:54 Token Budgets, Jensen Huang, and Why Usage Metrics Can Mislead
00:10:55 Why Shopify Built Its Own AI PR Review System
00:12:38 AI Coding, More Bugs, and the Real Deployment Bottleneck
00:14:11 Why Git, PRs, and CI/CD May Need to Change for Agents
00:18:24 Tangle: Shopify’s Reproducible ML and Data Workflow Engine
00:21:19 Why Tangle Is Different from Airflow
00:26:14 Tangent: Auto Research for Optimization and Experimentation
00:30:07 How Tangent Democratizes Experimentation Beyond ML Engineers
00:33:06 The Limits of Auto Research
00:36:36 Why Tangle, Tangent, and SimGym Compound Together
00:37:20 SimGym: Simulating Customers with Shopify’s Historical Data
00:42:47 The Infra Behind SimGym
00:46:00 Why SimGym Gets Better with Real Customer History
00:47:30 Counterfactuals, HSTU, and Modeling Merchant Trajectories
00:51:55 CRPs, Clustering, and Category-Level Customer Behavior
00:53:30 UCP, Shopify Catalog, and Identity Linking
00:55:07 Liquid AI: Why Shopify Uses Non-Transformer Models
00:59:13 Real Shopify Use Cases for Liquid
01:03:00 Can Liquid Scale into a Frontier Model?
01:09:49 Hiring at Shopify: ML, Data Science, and Databases
01:10:43 Sydney at Bing: Personality Shaping and AI Character
01:13:32 Closing Thoughts
Transcript
[00:00:00] swyx: Okay. We’re here in the studio, a remote studio, with Mikhail Parakhin, CTO of Shopify. Welcome.
[00:00:08] Mikhail Parakhin: Thank you. Welcome.
[00:00:10] swyx: I don’t even know if I should introduce you as CTO of Shopify. I feel like you have many identities. Uh, you led sort of the, the Bing ML team, I guess, uh, uh, or ads team. I, I don’t know, I don’t know, uh, you know, it’s, uh, people va-variously refer you as like CEO or, or, uh, I don’t know what that, that, that said previous role at Microsoft was.
[00:00:29] Mikhail Parakhin: Uh, that was... Yeah, my previous role w- at Microsoft was the-- I actually was the CEO of one of Microsoft’s business units, which included, as I, you know, as we discussed, all the things that people like to laugh about, uh, including Windows and Edge and Bing and ads and everything.
[00:00:47] swyx: Yeah, yeah. What a, what a, what a wild time.
You’ve obviously, uh, done a lot since you landed at Shopify. Uh, one of the reasons I reached out was because you started promoting more sort of internal tooling, uh, primarily Tangle, but also a lot of people have seen and adopted Tobi’s QMD, uh, and obviously, I think, uh, Shopify has always been sort of leading in terms of, uh, engineering.
I think more-- it’s just more recent that you guys have been more vocal about your sort of AI adoption. Is that, is that true?
[00:01:16] Mikhail Parakhin: Well, I think AI tools in general are fairly recent development, uh, and we’ve-- Shopify, you know, at this stage of its development, we’re developing AI in-in-house and other, uh, building tools that use AI and, you know, interfacing with the wider AI community, uh, you know, are on the sort of the, uh, runaway trajectory.
So it just did by sort of natural byproduct. We, we talk about it more also. We just, uh, just even yesterday, Andrej Karpathy was famous in tweeting about, oh, are there some, uh, ways, uh, that, that you can organize your agents to store the data and then, uh, look up the data so that you don’t have to research or, or lose context every- Yes
time. And a little bit tongue in cheek, I tweeted that, “Hey, we’ve, we’ve done it much earlier, and we even have different approaches, Tobi and I.” Tobi, of course, is a big fan of QMD, and I’m more of a SQL, SQLite fan. But, uh, yeah, very similar things that we’ve already done here. The point is, yeah, we’re very dynamic, you know, explosively growing company, and we have to be at the forefront of AI adoption, obviously.
[00:02:29] swyx: Yeah. Yeah. Um, you, your team kindly prepared some slides actually that we were gonna bring up on to, uh, the screen. I think I can, I can screen share, and then we can kind of go through some of the shocking stats that maybe, maybe put some numbers to what exactly is going on. So here we have, uh- An internal AI tool adoption chart.
What are we looking at here? What ?
[00:02:54] Mikhail Parakhin: Yeah, this is very interesting statistics. Uh, this is number of daily active workers, you know, think of, uh, DAO, basically the active users of-
[00:03:05] swyx: Yeah ...
[00:03:05] Mikhail Parakhin: AI tool as a percentage of all the people in the company, right? And then- Yeah ... different AI tools. And, uh, you could see two things here is that one is the green is total.
Uh, green is just total. So you could see that it approaches really % by now. It’s hard not to do your job now without interacting deeply, at least with one tool. You could see another interesting thing is just as many people commented in December was the phase transition when suddenly models gotten good enough that, that everything took off and started growing.
Uh, it, it was many people noticed that the thing is that small improvements accumulated into this big change in Sep- December roughly timeframe.
[00:03:52] swyx: Yeah.
[00:03:52] Mikhail Parakhin: The other thing I would claim you could see is that, uh, CLI-based tools and tools that don’t require you to look at the code becoming more popular, and you could see, yeah, various versions of, uh, Cloud Code and Codex and Pi and internal development tools taking off.
Uh, exactly, yeah, uh, and blue is our River, just internal agent for coding, where tools, uh, that require IDEs such as, uh, GitHub, Copilot or Cursor, they’re not exactly shrinking, but they’re not growing as fast. Like, uh, red, red line is, is the IDE kind of tools. So you could see that they’re, they’re not experiencing as, as fast of a growth.
[00:04:37] swyx: As I understand it, basically, every employee has their choice, right? Of choose whatever tool you use, and then you’re just kind of doing a, a daily sur-survey or something.
[00:04:47] Mikhail Parakhin: Exactly. And, uh, we- Yeah ... the, the push is to get your job done, you can use any tool, and we effectively fund unlimited tokens for everybody.
Uh, we, we do, we do try to control the models that, uh, people use, but from the bottom, not from top. Like we basically say, “Hey, please don’t use anything less than Opus four point six.”
[00:05:09] swyx: Oh .
[00:05:10] Mikhail Parakhin: Some people, some people end up using GPT five point four extra high. Some people use Opus four point six. Um, uh, you know, uh, there are some, uh, there are plus and minuses in going for full one million context window versus not.
But, uh, we try to discourage people from using anything less than that.
[00:05:28] swyx: Yeah, yeah. Got it, got it. Uh, I mean, uh, that’s, you know... The, the next chart here, it really kind of shows the expansion and the sort of December twenty twenty-five inflection, right? That, uh, people are using a lot of tokens. I think it’s also really interesting that no one was kind of abusing it in twenty twenty-five.
Like it was- Had comparatively, uh, to this year, there was almost no growth. I mean, it’s still like, you know, probably, probably gave fifty percent.
[00:05:56] Mikhail Parakhin: Yeah. This is just a different scale. It’s still exponential- Yeah, yeah ...growth at just a different- ...rate of expansion. Uh, there was inflection point, and Sean, I would claim the, the super interesting part here is that you could see that the distribution becoming more and more skewed.
Yes. The top percentiles grow faster. So that means- Yeah ...the people in the top ten percentile, they, their consumption grows faster than seventy-five and so forth. So, uh, the distribution skews more and more towards the highest users, which is... I don’t know what it tells me. It’s like it feels not ideal, to be honest.
Or maybe it’s okay. We’ll see.
[00:06:36] swyx: Why does it feel not ideal? Is, is it because of, um, quantity over quality, or what’s the concern?
[00:06:42] Mikhail Parakhin: Because take it to the limit. That means, you know, if, if this rate of separation continued- Ah, yes ...a year, there will be one person consuming all the tokens. So it’s just, it’s kinda strange.
[00:06:54] swyx: Yeah, I mean, um, uh, I, I think internal like teaching and all that, uh, will, will help sort of distribute things more widely. But in, in the early days, of course, the people who are sort of more AI-pilled will obviously find more ways to use it than the people who are less AI-pilled. Maybe let’s, let’s call it that.
I’ll just, I’ll just kinda quickly, uh, pause from the, the... You know, we will go back to the rest of the slides, but I just wanna, um, review, you know, there are a lot of CTOs of, of large companies like yourself where they’re all considering some kind of token budget, right? Like I think it’s something, something that Jensen Huang has been talking about, where like if your 200K engineer is not using 100K of tokens every year, like they’re, they’re underutilizing coding agents.
Of course, Jensen Huang would say that, but like it seems a very quantity over quality approach and like some, some people are basically saying like, well, is this comparable to judging engineer quality by lines of code, right? Which we also know is like kind of flawed, but better than nothing. So I, I don’t know if you have like a sort of management take here on, on how to view this kind of, uh, metrics.
[00:08:02] Mikhail Parakhin: Well, I mean, you’re, you’re baiting me. I, I like... This is my favorite topic. Uh, if you let me, I’ll probably talk for two hours on just this. I have a lot of things to say. Like I do think Jensen gotten a lot of bad press saying, “Oh, of course you’re, you know, this, uh, the- ...the cake seller says you don’t need enough cakes.”
You know? Like, of course. Uh, but, uh, I actually, uh, think that’s undeserved. I think he, he’s actually right. Uh, I do think- He,
[00:08:33] swyx: he’s directionally correct.
[00:08:35] Mikhail Parakhin: Yeah. Yeah. He’s directionally correct for sure. Uh-
[00:08:37] swyx: Who knows what the right number is? Yeah.
[00:08:39] Mikhail Parakhin: The thing that I do Uh, want to say, and this is something that we learned through trial and error and very important is like two things.
One is that it’s not about just consuming tokens. Uh, you can consume tokens and, and in fact, the anti-pattern is running multiple agents, too many agents in parallel that don’t communicate with each other. That’s almost useless, uh, compared to just fewer agents and burns tokens very efficiently. Uh, setting up the right critique loop, especially with the high quality models, where one agent does something, the other one, ideally with a different model, critiques it, uh, suggests ways to improve it, the agent redoes it with this critique and, and so it takes much longer.
So people don’t like it because latency goes up. You know, they, they have to wait until this debate is happening. But, uh, the quality of the code is much higher. And another thing, just since you mentioned like, look, uh, uh, yeah, the overall budget is just like, uh, lines of codes. Lines of codes are exploding for everybody right now, or partially because AI is really mover balls, but partially just because AI can write a lot more code, you know, doesn’t get tired.
And so you have to have to have a very strong narrow waist during PR review. Otherwise, just the number of bugs will go through the roof. It’s, uh, it’s this unexpected consequence of the just volume trumping everything. I would claim by now good model writes code on average with fewer bugs than, than the average human.
But since they write so much more of it, like more of it will make it into production. So you have to- You still
[00:10:26] swyx: have
[00:10:26] Mikhail Parakhin: more bugs. Yeah. Have to have a very rigorous PR reviews, also automated of course. But, uh, yeah, that to spend a lot budget there. Like this, this for me, for me, actually, the important metric is the ratio of budget spent during code generation versus, uh, spent, uh, expensive tokens like GPT, uh, five point four Pro or, uh, uh, Deep Think from Gemini, you know, checking on PR reviews.
[00:10:55] swyx: Yeah, totally. Uh, I noticed in your chart you didn’t have any review tools. Do you just use like, like let’s say a Claude code to review tools? Or do you have another set of review tools like the Greptiles, the Code Rabbits, uh, Devin Reviews has a review tool. I don’t know if you’ve had those specialist review tools.
[00:11:13] Mikhail Parakhin: You are a little bit jumping on my store tool right now because the graphs I was only showing public tools. Uh, uh, the-- I haven’t found a good PR review tool that, that does what I think should be done. And, uh, partially my, my thinking is because it’s so... It just goes against both what people feel like emotionally they prefer and, uh, some of the, uh, you know, frankly Even business models that, that the companies run.
At peer review tool, uh, time, you want to run the largest models. That means, I don’t know, Codex or, or, uh, Cloud Code is not gonna cut it. You need to have pro-level models if you really want to, uh, stand the tide of bots from going into production. And you need us to spend a lot of time, the models taking turns, but you don’t want, like, a big swarm of, uh, of, uh, agents.
So in fact, you end up in a different dual-dualistic world where you generate not that many tokens. You, in fact, generate few tokens, but it takes f-a long time because these are expensive models taking turns rather than many, many agents trying to do many things in parallel. So that’s, that’s why I feel like I haven’t found good tools, so we are using our own for peer review for now.
[00:12:33] swyx: Yeah. Yeah. I mean, uh, I think a lot of companies are building their own, uh, especially to their needs, right?
[00:12:38] Mikhail Parakhin: Mm-hmm.
[00:12:38] swyx: Um, I, uh, you also have a chart here going back to the slides on, uh, PR merge growth, where we’re now at thirty percent, uh, month on month rather than ten percent. Uh, and also the, the estimated complexity is going up.
You know, this is productivity, right? ‘Cause y- presumably there’s more stuff going into the code base and more, more features getting worked on. I’m curious about the backlog, right? Like the, the, the-- I actually don’t mind a pro-level model taking an hour or two hours to review my PR, because I’ve dealt with humans who take a week to review my PR, right?
And I keep pinging them on Slack, “Hey, hey, review my PR.” So, you know, I think there’s some trade-off here where, like, it still doesn’t make sense.
[00:13:18] Mikhail Parakhin: Exactly. That, that’s exactly m-my point. Uh, that on one hand, you can tolerate longer latencies at, uh, PR. On the other hand, like right now, the real problem is not in spending time waiting for PR.
It’s real problem is since there’s so much more code than- Yeah ... uh, probability of at least some tests failing going up, and then you, like, keep de-failing, then you have to find the offending PR, evict it, retest it without that PR, and so d
関連記事
Notion で Codex が可能にする機能とは
OpenAI は、自社の AI コード生成モデル「Codex」が Notion の利用体験をどのように拡張し、ユーザーに新たな価値をもたらすかを解説した。
Anthropic や OpenAI は、ユーザーが支払う 100 ドルあたり 1,000 ドル以上を費やしている可能性がある(39 分読了)
TLDR AI は、LLM を活用したコーディングがすぐに安価になる見込みはないと指摘し、現在の利用はサブスクリプションの大幅な補助によるものだと説明しています。API を使用した本格的なユースケースではコストが高騰しており、開発者は費用増への備えとしてより堅牢なシステムの構築を準備する必要があるとしています。
Anthropic、新生産コードの80%がClaudeによって作成されたと発表—企業も追いつく方法とは(7分読了)
Anthropicは、自社の生成AIモデル「Claude」が現在、新規に作成される生産用コードの80%を担っていると発表した。同社は、他社を含む企業がどのようにしてこの技術導入を加速し、競争力を高めるべきかについて具体的な戦略を示している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み