モデル発表の舞台裏:早期テストで顧客が発見したClaude Opus 4.6の実力
Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。
キーポイント
Claude Opus 4.6のリリース前、主要顧客(Harvey, bolt.new, Shopify, Lovable)が早期アクセスで実践テストを実施
テストではベンチマークスコア(例:HarveyのBigLaw Benchで90.2%達成)と実践的な「感触」の両方を重視
企業ごとに異なるテスト手法(専用Slackチャンネル、法律専門家による評価、既存開発ループへの統合など)を採用
顧客からのフィードバックがモデルの最終リリース版に直接反映される開発プロセスを採用
影響分析・編集コメントを表示
影響分析
この記事は、主要AI企業が実際の顧客を開発プロセスに早期から組み込み、実世界のユースケースでモデルを検証する新しい開発手法を明らかにしている。これはAIモデルの開発が単純な性能競争から、実装と統合を重視した段階へ移行していることを示唆する。
編集コメント
AI開発の「舞台裏」を公開することで、Anthropicは開発プロセスの透明性をアピールするとともに、企業顧客中心のアプローチを強調している。実際の業務統合を前提としたモデル評価の重要性が浮き彫りになった。
Claude Opus 4.6早期テストの舞台裏:顧客が発見したこと
新しいClaudeモデルが公開される直前、ほんの一握りの顧客には世界に先駆けて数日間のアクセスが与えられる。彼らはプレプロダクション段階の研究モデルを入手し、実際の業務負荷をかけてテストする。その目的は、モデルの得意分野、弱点、そしてAnthropicが公開するその瞬間に自社ユーザーへ提供できる完成度かどうかを探ることだ。彼らの「何が機能し、何が機能しないか」という率直な評価が、Anthropicが最終的にリリースするモデルの形を直接的に決定づけるのである。
この検証期間は非常に短い。各チームは予定を空け、作戦室を設営し、最も困難な問題をモデルにぶつけ始める。舞台裏では、深夜作業、数多のコーヒー、不規則な時間に飛び交うSlackメッセージが常態だ。顧客の目に届く最終成果は洗練されているが、そこに至るプロセスはより混沌として、そしてより多くの発見に満ちている。
本記事では、この早期アクセス期間の内幕を、Harvey、bolt.new、Shopify、Lovableの各社への取材を通して明らかにする。彼らが取ったアプローチ、発見した突破口、そして誰よりも早く得た学びとは何か。
モデルテストへの準備
テストの始め方は、各社が構築するものに大きく依存する。
- bolt.new は専用のSlackチャンネルを設け、初期の印象を共有しないように注意した。これは互いの評価にバイアスがかかるのを防ぐためだ。
- Harvey の研究チームは、実際の法律業務のベンチマーク「BigLaw Bench」を実行すると同時に、経験豊富な弁護士を招き、法律タスクでモデルをテストした。
- Shopify のエンジニアは、既にClaude用に構築していた反復的計画ループに、早速新しいモデルを投入した。
- Lovable では、モデル管理・評価チームが直ちにベンチマーク実行を開始。一方、エンジニアは時間を確保し、「バイブチェック」と呼ぶ作業に取りかかった。これは新モデルでアプリを構築し、その強みを直感的に探る手法である。同社のエンジニアリングリード、アレクサンドル・ペサンは「少しクリスマスのようだ」と語る。
アプローチは様々だが、本能は同じだった。すなわち、まず最も難しい問題をモデルにぶつけることである。
結果が届き始めると
テストが進行する中、各チームは二つの点を注視する。ベンチマーク上のスコアと、実際に使ってみた「感覚」だ。両者はともに重要であり、かつ常に同じことを示すとは限らない。
HarveyのBigLaw Benchの結果は90.2%を記録した。これはAnthropicモデルとして同ベンチマークで90%の壁を初めて突破したもので、タスクの40%が完全なスコアを得た。しかし、彼らにとってより重要な発見は、モデルの「推論の質」
原文を表示
Contact salesContact salesContact sales
Contact salesContact salesContact sales
Contact salesContact salesContact sales
Contact salesContact salesContact sales
Behind the model launch: What customers discovered testing Claude Opus 4.6 early
Inside the tight window between pre-production access and public launch, when customers race to test what a new Claude model can really do.
ShareCopy linkhttps://claude.com/blog/behind-model-launch-what-customers-discovered-testing-claude-opus-4-6-early
Before a new Claude model goes live, a small group of customers gets access days before the rest of the world. They work with pre-production research models, test them against real workloads to figure out what the model is great at, where it breaks, and whether it's ready to ship to their own users the moment Anthropic launches it publicly. Their honest assessments — what works and what doesn't — directly shape the version of the model Anthropic ultimately ships.
The review window is tight. Teams clear their calendars, spin up war rooms, and start throwing their hardest problems at the model. Behind the scenes, it's late nights, many cups of coffee, and Slack channels lighting up at odd hours. What their customers eventually see is polished—but the process of getting there is a lot messier and a lot more fun.
For this piece, we wanted to pull the curtain on what this looks like. Harvey, bolt.new, Shopify, and Lovable all gave us a look inside at their early access period with Claude Opus 4.6: the approaches they took, the breakthroughs they found, and what they learned before anyone else.
Getting ready for model testing
How teams kick things off depends a lot on what they're building.
bolt.new spun up a dedicated Slack channel and deliberately avoided sharing impressions early so they wouldn't bias each other.
Harvey's research team brought in experienced lawyers to test the model on legal tasks while running it through BigLaw Bench, their benchmark for real-world legal work.
Shopify's engineers started feeding the model into iterative planning loops they'd already built around Claude.
At Lovable, the team that manages models and evals kicked into gear immediately—running benchmarks while engineers booked time to do what they call "vibe checks," building apps with the new model to feel out where it's stronger. Alexandre Pesant, engineering lead at Lovable, said, "It's a bit like Christmas."
The approaches were different, but the instinct was the same: throw your hardest problems at the model first.
When the results start coming in
Once testing is underway, teams are watching for two things: how the model scores on their benchmarks, and how it feels in practice. Both matter, and they don't always tell you the same thing.
Harvey's BigLaw Bench results came back at 90.2%—the first Anthropic model to break 90% on that benchmark, with 40% of tasks receiving perfect scores. But it was the qualitative reaction that stuck.
One of their internal lawyers ran a single query and came back saying the output felt "smart and analytical, like it's actually thinking." When your structured evals and your subject matter experts are both saying the same thing, that's a strong signal.
bolt.new.new combined their automated eval platform—which tests build quality, bug fixing, codebase understanding, and design aesthetics—with hands-on stress testing. By the end of the first day, they had a shared doc full of deployed test apps and specific observations.
One developer had a waterfall graph bug that had failed five-plus attempts with the previous model. Opus 4.6 diagnosed it on the first try, finding eight parallel HubSpot API searches firing simultaneously and additional queries bypassing rate-limit protection by using raw fetch instead of the project's rate-limited wrapper.
At Shopify, Paulo Arruda, a Staff Engineer, described a moment that flipped the usual dynamic: "I asked Opus 4.6 to move something from one page into another menu item — that's all I said. I didn't specify any details. It not only moved it but went above and beyond, creating a lot of details I didn't even know I wanted until I saw them. It anticipated my next ask and just did it. I found myself saying 'You're absolutely right' to the AI instead of the other way around, which had been the pattern before."
Ben Lafferty, a Staff Engineer on Shopify's Assistants team, pushed in a different direction. He had Opus 4.6 port a large library from TypeScript to Ruby for an internal prototype. "It created a shim to run against the existing test cases in the repo, then ported over almost the entire spec in one shot while validating against the original test set," he said. "Instruction following is significantly improved. This was one of the first early access periods where I haven't had substantial feedback to give."
At Lovable, the testing ran on t
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み