ShopifyのAIフェーズ移行：2026年の使用爆発、無制限のOpus-4.6トークン予算、Tangle、Tangent、SimGym — Shopify CTOミハイル・パラヒンとの対談 | AIニュース最前線

サンフランシスコ万国博覧会の早期割引は本日限りです。今年最大のAIE（人工知能イベント）であるこの行事の価格は今夜から約500ドル値上げされますので、お早めにお申し込みください！ Shopify内部でのAIツールのほぼ普遍的な採用から、ML（機械学習）実験、自動リサーチ、顧客シミュレーション、超低レイテンシー検索のための内部システムに至るまで、20年の歴史を持つ2,000億ドル規模のソフトウェア企業がAIに全額投資することの実態について、ミハイル・パラヒン氏と深く掘り下げて議論します。Shopifyが内部スタックについて以前よりも活発に発信するようになった理由、12月のモデル品質の転換点以降の変化、そしてAIコーディングにおける真のボトルネックがもはや生成ではなく、レビュー、CI/CD（継続的インテグレーション・継続的デリバリー）、そしてデプロイメントの安定性にある理由についてカバーします。 また、実験の再現性を確保し、最適化を自動化し、顧客行動をシミュレート可能にし、大規模な検索とカタログインテリジェンスをより高速かつ低コストにするためにShopifyが推進する3つの主要なAIイニシアチブであるTangle、Tangent、SimGymの内部事情にも迫ります。その過程で、ミハイル氏はUCP（Unified Compute Platform）、Liquid AIについて説明し、トークン予算が方向性としては正しいもののしばしば不適切に測定されている理由、AI生成コードが依然として本番環境でのバグを増やす可能性がある理由、Shopifyの顧客シミュレーションが防御可能である理由、そしてBingのシドニー時代から彼が学んだことについて語ります。 私たちが議論する内容： Windows、Edge、Bing、広告をカバーする主要なMicrosoft事業部門を率いた経験からShopifyのCTO（最高技術責任者）への道筋 Shopify が今、AI についてより公に語る理由、そして同社にとって最前線に留まることがなぜ必要になったのか Shopify の内部 AI 採用曲線、12 月の転換点、そして従来の IDE ベースのツールよりも CLI スタイルのツールが急速に普及する理由 Jensen Huang がトークン予算について方向性として正しいのはその通りだが、純粋なトークン数はエンジニアリングの成果を評価する上で依然として誤った方法である理由 真の突破口は並列でのエージェント数の増加ではなく、より優れた批判ループ、強力なモデル、そして生成よりもレビューに多くのリソースを投じることにある理由 モデルが平均して人間よりもクリーンなコードを書く場合でも、AI コーディングが生産環境でのバグをさらに引き起こし得る理由 Shopify が独自の PR 審査フローを構築した理由、そして Mikhail が市販のレビューツールの大半が本質を見誤っていると考える理由 エージェント時代において、PR 件数、テスト失敗、デプロイのロールバックがなぜ実際のボトルネックになりつつあるのか コードが機械速度で書かれるようになれば、Git、プルリクエスト、CI/CD に新たな比喩が必要となる理由 Tangle とは何か、そして Shopify がそれを用いて、ML やデータワークフローを最初から再現可能かつ共同作業可能、さらに本番環境対応のものにする方法 Tangle が Airflow と異なる点、そしてコンテンツアドレス型キャッシュがチーム間でネットワーク効果を生む理由 Tangent とは何か、そして Shopify が自動研究ループを用いて検索、テーマ、プロンプト圧縮、ストレージなどを最適化する方法 Tangent が ML エンジニアだけでなく、PM やドメインの専門家のための民主化ツールとなりつつある理由 LLM時代においてAutoMLがようやく現実味を帯びる理由、そして自動研究（auto-research）が今日どこまで達しているか Tangle、Tangent、SimGymが単一のシステムに統合されることで、なぜ大幅に強力になるか SimGymとは何か、シミュレートされた顧客が実際の履歴行動データを持つ場合にのみ機能する理由、そしてShopifyのデータが持つ競争優位性（moat） A/Bテストの比較から、コンバージョン率を向上させるために単一のライブストアフロントで変更すべき内容を商人（merchant）に指示するシステムへ、SimGymがどのように進化してきたか マルチモーダルモデルからブラウザファーム、さらに推論（serving）や蒸留（distillation）のコストに至るまで、なぜ顧客シミュレーションがこれほど高コストなのか Shopifyが商人と買い手の軌道（trajectories）をどのようにモデル化し、反事実的推論（counterfactuals）を実行し、割引やキャンペーン、通知といった介入をどう捉えているか 商業分野全体でカテゴリレベルの行動がこれほど異なる理由、そして中国語レストランプロセス（Chinese Restaurant Processes）のようなアイデアが実際に再び注目されている理由 Shopifyの新しいUCP（Unified Commerce Platform）とカタログ作業、ランタイム製品検索、一括照会、アイデンティティリンクングを含む ShopifyがLiquid AIを採用する理由、そしてMikhail Parakhin氏が実際に使用した中で本格的に競争力のある最初のトランスフォーマー以外のアーキテクチャだと見なす理由 低レイテンシのクエリ理解から大規模なカタログ、Sidekick Pulseのワークロードに至るまで、LiquidがShopify内部で現在どのように機能しているか 十分な計算資源があればLiquidがフロンティア規模のモデルになり得るか、そしてShopifyがモデル選択においてなぜ実用的かつ成果主義的であるか ML、データサイエンス、分散データベースの分野でShopifyが現在誰を募集しているか ビンのシドニーでの出来事、その人格が偶然ではなかった理由、そしてミハイルが初期の段階で意図的にAIのキャラクターを形成することから学んだこと ミハイル・パラヒン LinkedIn: https://www.linkedin.com/in/mikhail-parakhin/ X: https://x.com/MParakhin タイムスタンプ 00:00:00 導入：ミハイル・パラヒン、Microsoft、Shopify 00:01:16 なぜShopifyはAIについてより多く語っているのか 00:02:29 Shopifyにおける内部AIの採用と12月の転換点 00:06:54 トークン・バジェット、ジェンセン・ホアング、そして使用量指標が誤解を招く理由 00:10:55 なぜShopifyは独自のAI PR（プルリクエスト）レビューシステムを構築したのか 00:12:38 AIコーディング、より多くのバグ、そして実際のデプロイメントのボトルネック 00:14:11 エージェントのためにGit、PR、CI/CD（継続的インテグレーション／デリバリー）の変更が必要かもしれない理由 00:18:24 Tangle：Shopifyの再現可能なML（機械学習）およびデータワークフローエンジン 00:21:19 なぜTangleはAirflowとは異なるのか 00:26:14 Tangent：最適化と実験のための自動リサーチ 00:30:07 TangentがMLエンジニア以外の実験をどのように民主化するか 00:33:06 自動リサーチの限界 00:36:36 なぜTangle、Tangent、SimGymが複合的に機能するのか 00:37:20 SimGym：Shopifyの歴史的データを用いた顧客のシミュレーション 00:42:47 SimGymの背後にあるインフラ 00:46:00 なぜSimGymは実際の顧客の履歴によって改善されるのか 00:47:30 反事実推論、HSTU（Hierarchical Sequential Transformer Unit）、およびマーチャントの軌道のモデリング 00:51:55 CRPs（Category-Level Response Patterns）、クラスタリング、およびカテゴリレベルの顧客行動 00:53:30 UCP（Unified Customer Profile）、Shopifyカタログ、およびアイデンティティのリンク 00:55:07 Liquid AI：Shopifyが非トランスフォーマーモデルを使用する理由 00:59:13 Liquidの実際のShopifyユースケース 01:03:00 Liquidはフロンティアモデルにスケールできるか？ 01:09:49 Shopifyでの採用：機械学習、データサイエンス、データベース 01:10:43 BingでのSydney：性格形成とAIキャラクター 01:13:32 結びの言葉 トランスクリプト [00:00:00] swyx：はい。私たちはスタジオ、リモートスタジオにいます、ShopifyのCTOであるMikhail Parakhinと一緒に。ようこそ。 [00:00:08] Mikhail Parakhin：ありがとう。ようこそ。 [00:00:10] swyx：私はあなたをShopifyのCTOとして紹介すべきかどうかすらわかりません。あなたは多くのアイデンティティを持っているように感じます。えーと、あなたはBingのMLチームを率いたと思います、えーと、えーと、広告チームです。私はわかりません、私はわかりません、えーと、あなたは、えーと、CEOや、えーと、私がわからない、Microsoftでの前の役割は何だったかと言っています。 [00:00:29] Mikhail Parakhin：えーと、それは…はい、私の前の役割w- Microsoftでは--私は実際にはMicrosoftのビジネスユニットの一つのCEOでした。そこには、えーと、私たちが話したように、人々が笑うことを好むすべてのものが含まれていました。えーと、WindowsやEdgeやBingや広告などすべてを含みます。 [00:00:47] swyx：はい、はい。なんと、なんと、なんと荒々しい時代でした。 Shopifyに入社されてから、明らかに多くのことを成し遂げていますね。私が連絡を取った理由の一つは、あなたが主にTangleのような社内ツールの宣伝を始めたこと、そして多くの人がTobiのQMDを見て採用していることを知ったからです。また、Shopifyはエンジニアリング面において常に先導してきたと考えています。 もっと言えば、最近になってAIの採用についてより積極的に発信するようになったのは事実でしょうか？ [00:01:16] ミハイル・パラヒン：AIツール全般は比較的新しい開発であり、Shopifyも現在の発展段階において、自社でAIを開発し、AIを使用するツールを構築するとともに、より広範なAIコミュニティと連携しています。これらはまさに加速度的な軌道に乗っています。 そのため、自然な副産物としてこうなったのです。私たちはこれについてより多く語っています。昨日も、アンドレイ・カルパシーが、エージェントを組織してデータを保存し、その後データを検索することで、毎回調査したりコンテキスト（文脈）を失ったりする必要がないような方法についてツイートして話題になっていました。はい そして、少し皮肉を込めて私はツイートしました。「私たち、もっと早くにそれを成し遂げましたよ。トビーと私ではアプローチも異なります」と。もちろん、トビーはQMDの熱心なファンですが、私はSQLやSQLiteの方が好きです。しかし、はい、ここで私たちがすでに成し遂げてきたことは非常に似通っています。要するに、私たちは非常にダイナミックで、爆発的に成長している企業であり、当然のことながらAIの採用において最先端を走らなければなりません。 [00:02:29] swyx：はい、はい。えと、あなたのチームは実際にいくつかのスライドを準備してくださったので、それを画面に表示しようとしていました。私にスクリーン共有の権限があると思うので、いくつかの衝撃的な統計データを確認しながら、現在何が起きているのかを数字で示すことができるかもしれません。ここで私たちが持っているのは、内部のAIツール採用状況を示すチャートです。 ここで何を見ているのでしょうか？ [00:02:54] Mikhail Parakhin：はい、これは非常に興味深い統計データです。えと、これは1日あたりのアクティブなワーカー数、つまり、基本的にはDAO（注：Daily Active Workersの略称と推測されますが、文脈上「社内AIツールの利用者数」を指す用語として扱います）、つまり会社全体のアクティブユーザー数を表しています。 [00:03:05] swyx：はい… [00:03:05] Mikhail Parakhin：AIツールを会社全体の人数に対するパーセンテージで表したものです。そして、異なるAIツールについてもです。えと、ここで2つのことがわかりますが、1つ目は緑色のバーが合計値であることを示しています。 緑の線は合計値を示しています。現在ではほぼ100%に近づいていることがお分かりいただけるでしょう。少なくとも一つのツールと深く関わり合わずに、今の仕事をするのはもはや不可能です。 もう一つ興味深い点は、昨年12月に多くの人が指摘していた「フェーズトランジション（段階的転換）」です。突如としてモデルの品質が十分に向上し、すべてのものが急成長し始めた時期でした。 多くの人が気づいたのは、小さな改善が蓄積され、9月から12月頃という比較的短い期間でこの大きな変化につながったということです。 [00:03:52] swyx: そうですね。 [00:03:52] Mikhail Parakhin: もう一つ言えるのは、CLIベースのツールや、コードを見ずに操作できるツールの人気が高まっていることです。Cloud Code、Codex、Pi、そして社内開発ツールなど、さまざまなバージョンのツールが急成長しているのが見て取れます。 まさにその通りで、青い線は私たちの「River」を示しています。これはコーディング専用の社内エージェントです。GitHub CopilotやCursorといったIDE（統合開発環境）を必要とするツールは、決して縮小しているわけではありませんが、成長速度はそれほど速くありません。赤い線がIDE系ツールを表しており、これらのツールの成長速度はそれほど速くないことがわかります。 [00:04:37] swyx: 私の理解では、基本的に各従業員が使用するツールを選ぶ自由があり、その後、日々の調査や何らかのアンケートのようなものを実施しているということですね。 [00:04:47] ミハイル・パラヒン：その通りです。そして、えーと、私た- ええ…、要は、あなたのタスクを完了するために、どんなツールでも使って構わないという方針で、私たちは事実上、全員に無制限のトークン予算を提供しています。 えーと、私た- 私たちは、人々が使用するモデルをある程度管理しようとはしていますが、それはトップダウンではなくボトムアップの観点からです。つまり、基本的には「えーと、オパス4.6未満の使用は避けてください」と伝えています。 [00:05:09] swyx：おや。 [00:05:10] ミハイル・パラヒン：一部の人は、GPT-5.4の超高精度版を使用することもあります。また、オパス4.6を使用する人もいます。えーと、えーと、ご存知のように、100万トークンのコンテキストウィンドウをフルに活用することにはメリットもデメリットもあります。 しかし、えーと、私たちはそれ未満の使用を避けるよう促しています。 [00:05:28] swyx：ええ、ええ。わかりました。えーと、つまり、えーと…、えーと、次のチャートは、2025年12月の転換点における拡大を示しているように見えますね。つまり、えーと、人々は多くのトークンを使用しています。また、2025年に誰もそれを悪用していなかったことも非常に興味深いです。 つまり、えーと、今年と比較すると、成長はほぼありませんでした。つまり、おそらく50%程度は提供していたでしょう。 [00:05:56] ミハイル・パラヒン：はい。これは単にスケールが異なるだけです。依然として指数関数的な成長ですが、展開の速度が異なるという点です。ある転換点が存在し、ショーン、ここで最も興味深いのは、分布がますます偏っていることが見て取れる点です。 はい。上位パーセンタイルの成長が速いということです。つまり、上位10%の人々の消費量が、75パーセント層などよりも速く成長するということです。つまり、分布が最高利用者にますます偏っていくわけですが……それが何を意味するのかは私にもわかりません。正直に言えば、理想的ではないような気がします。 あるいは、それで問題ないのかもしれません。見ていきましょう。 [00:06:36] swyx：なぜ理想的ではないと感じるのですか？それは、量重視で質が伴っていないからでしょうか、それとも他の懸念があるのでしょうか？ [00:06:42] ミハイル・パラヒン：極限まで考えてみてください。つまり、この分離の速度が1年間続いたとすると……あぁ、はい……最終的には一人のユーザーがすべてのトークンを消費することになります。それは少し奇妙です。 [00:06:54] swyx：はい、つまり、内部でのトレーニングやそのような取り組みが、より広範にリソースを分散するのに役立つでしょう。しかし、初期段階では、もちろん、「AIに精通した」人々は、「AIにあまり精通していない」人々よりも明らかに多くの利用方法を見つけていくでしょう。そう呼ぶことにしましょう。 では、少しだけここで一旦立ち止まって、あの……えっと。ご存知の通り、残りのスライドに戻りますが、私はまず、皆さんのような大企業のCTOの方々が、みなトークン予算の検討を進めているという点を確認したいのです。つまり、ジェンセン・ホアン氏が語っているような、年間10万トークンを20万人のエンジニアが使用しない場合、コーディングエージェントを十分に活用できていないという議論は、何かしら共通の話題になっていると思います。 もちろんジェンセン・ホアン氏ならそう言うでしょうが、これは明らかに「量重視、質軽視」のアプローチに見え、一部の人は、「これはコード行数でエンジニアの品質を評価することに似ていないか？」と指摘しています。これも既知の欠点はあるものの、何もしないよりはマシだという見方もあります。そこで、私はあなたに、こうした指標をどう捉えるべきかという管理上の見解をお伺いしたいのです。 [00:08:02] ミハイル・パラヒン：ええ、あなたは私を誘い込んでいますね。私はこの話題が大好きです。もし許していただければ、これだけで2時間話せるくらい、言いたいことがたくさんあります。ジェンセン・ホアン氏が「ケーキ売り手は、必要なケーキの数が足りないとは言わないものだ」ということで多くの批判を浴びているのは事実ですが、私はそれは不当な評価だと考えています。彼は実際には正しいと思います。 [00:08:33] swyx：彼は方向性としては正しいです。 [00:08:35] ミハイル・パラヒン：はい。確かに、彼の方向性は正しいと思います。 [00:08:37] swyx：適切な数字が何なのか、誰にもわかりませんね。はい。 [00:08:39] ミハイル・パラヒン：私が強調したいこと、そして試行錯誤を通じて学んだ非常に重要なことは、以下の2点です。 1つ目は、単にトークンを消費することだけが目的ではないということです。実際、アンチパターン（逆効果な手法）としてよく見られるのは、互いに通信しない複数のエージェントを並列で実行することです。これは、少数のエージェントでトークンを非常に効率的に消費するケースと比較すると、ほぼ無意味です。特に高品質なモデルを用いる場合、正しいクリティカルループ（批判・検証のフィードバックループ）を設定することが重要です。具体的には、1つ目のエージェントが何かを実行し、別のモデル ideally を用いた2つ目のエージェントがそれを批判し、改善案を提案します。その後、1つ目のエージェントはその批判を踏まえて再実行を行います。このプロセスは時間がかかります。 そのため、レイテンシ（応答遅延）が増加するため、人々はこれを好まない傾向があります。つまり、この「議論」が完了するまで待たなければならないからです。しかし、生成されるコードの品質は大幅に向上します。 もう1点目は、先ほど言及されたように、全体としての予算は実質的に「コード行数」に換算できるということです。現在、すべての人にとってコード行数が急増しています。その一部の原因はAIが非常に強力な推進力となっていることですが、もう一つの理由は、AIが疲れることなく大量のコードを記述できるためです。 したがって、PR（プルリクエスト）レビュー時には非常に厳格な狭いウエスト（重点的なチェック領域）を確保する必要があります。そうでなければ、バグの数が天井知らずで跳ね上がってしまいます。これは、単に量が多すぎるがゆえに生じる予期せぬ結果です。私は今では、優れたモデルは平均して人間よりも少ないバグでコードを記述すると主張します。 しかし、彼らはそれをはるかに多く生成するため、その多くが本番環境にデプロイされます。そのため、あなたは—あなたは [00:10:26] swyx: 持っています [00:10:26] Mikhail Parakhin: より多くのバグを持っています。はい。非常に厳格なPRレビュー、もちろん自動化されたものも必要です。しかし、うーん、はい、そこには多くの予算を費やす必要があります。私にとって、重要な指標は、コード生成時に消費される予算と、GPT-5.4 ProやGeminiのDeep Thinkのような高価なトークンを使用してPRレビューを行う際に消費される予算との比率です。 [00:10:55] swyx: なるほど、確かに。あなたのチャートではレビューツールが一切記載されていませんでした。例えばClaude Codeのようなレビューツールを使用しているのでしょうか？それとも、GreptileやCode Rabbits、Devin Reviewsが提供するレビューツールのような別のセットのレビューツールをお持ちでしょうか？それらの専門的なレビューツールを使用されたことがあるかどうかはわかりません。 [00:11:13] ミハイル・パラヒン：今、私のストアツールについて少し話が進んでいますが、私が公開されているツールだけを示していたからです。えーと、えーと、私は自分が考えるべきことを実行する良いPRレビューツールを見つけていません。そして、えーと、部分的に私の考えは、それがあまりにも…それは人々が感情的に好むと感じることと、えーと、 frankly（率直に言って）企業が運営するいくつかのビジネスモデルの両方に反しているからです。 ピアレビューツールにおいて、えーと、あなたは最大のモデルを実行したいものです。つまり、CodexやCloud Codeでは不十分で、プロレベルのモデルが必要です。もしあなたがボットの生産環境への流入という潮流に立ち向かいたいなら、そうする必要があります。そして、モデルが順番で動作するのには多くの時間がかかりますが、あなたはたくさんのエージェントが並列で多くのことを試みるような大規模な群れは望みません。 したがって、実際には、あなたが生成するトークン数がそれほど多くない、別の二重二元論的な世界に陥ります。実際にはあなたは少ないトークンを生成しますが、これは多くのエージェントが並列で多くのことを試みるのではなく、高価なモデルが順番で動作するため、非常に長い時間がかかります。そのため、私は良いツールを見つけていないと感じており、今はピアレビュー用に独自のツールを使用しています。 [00:12:33] swyx：はい。はい。つまり、えーと、多くの企業が特に自社のニーズに合わせて独自に構築していると思いますよね？ [00:12:38] ミハイル・パラヒン：うん、そうだね。 [00:12:38] swyx：さて、ここにもチャートがありますね。PR（プルリクエスト）のマージ成長率に関するスライドに戻ると、今では月間10％ではなく30％になっています。また、推定される複雑さも上昇しています。 これは生産性の向上对吧？おそらくコードベースに組み込まれる内容が増え、より多くの機能が開発されているはずです。バックログについて気になりますね。つまり、プロフェッショナルレベルのモデルが私のPR（プルリクエスト）をレビューするのに1〜2時間かかること自体は気にしません。なぜなら、人間のレビュアーが私のPRをレビューするのに1週間もかかることだってあるからです。私はSlackで「ねえ、PR見て！」と何度も通知を送り続けます。だから、ここにはある種のトレードオフがあると考えています。まだ理にかなっていない部分があります。 [00:13:18] Mikhail Parakhin：まさにその通りです。それが私の主張の核心です。一方では、PR（プルリクエスト）のレビュー待ち時間の増加はある程度許容できます。他方では、現在の真の問題はPR（プルリクエスト）のレビューに費やす時間にあるわけではありません。 真の問題は、コード量が大幅に増えたことです。はい…つまり、少なくとも一部のテストが失敗する確率が上昇し、その結果、テストが連敗し続けることになります。そうすると、問題を引き起こしているPR（プルリクエスト）を特定し、それを除外して再テストを行う必要が生じます。そして、その…

ShopifyのAIフェーズ移行：2026年の使用爆発、無制限のOpus-4.6トークン予算、Tangle、Tangent、SimGym — Shopify CTOミハイル・パラヒンとの対談

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト