AI耐性のある技術評価の設計
Claudeが常に突破するパフォーマンスエンジニアリング課題を3回繰り返した経験から、AIに強い技術評価の設計方法を学んだ。
キーポイント
AIの進化により技術評価手法の再設計が急務となっている
AnthropicがAIに耐性のある評価課題を3回設計し直した実践経験
時間制限のある条件下では最新AIが人間の優秀候補者と同等の性能を発揮
評価課題をオープンソース化し人間の創造性を求める新たな採用アプローチ
AI時代の技術者評価には従来と異なる創造的アプローチが必要
影響分析・編集コメントを表示
影響分析
この記事はAI能力の急速な進化が技術者採用評価を根本から変えつつある現実を示している。Anthropicの実践経験は、AI時代の評価手法設計において時間制約の重要性や人間の創造性評価の新たな枠組みを提示しており、業界全体の採用プロセス再考を促す可能性がある。
編集コメント
AIが人間の評価基準そのものを変革する時代の到来を実証する貴重なケーススタディ。技術者採用の未来像を考える上で必読の内容。
AIに解かれない技術課題の設計:Anthropicの試行錯誤
Anthropicのパフォーマンス最適化チームリードであるトリスタン・ヒュームは、同社が数十名のパフォーマンスエンジニアを採用するのに役立った自宅課題試験の設計と、AI能力の進化に伴うその変遷について述べている。
技術候補者の評価は、AI能力が向上するにつれて難しくなっている。今日、人間のスキルレベルをうまく区別する自宅課題も、明日にはモデルによって簡単に解かれてしまい、評価手段として無意味になる可能性がある。
2024年初頭以降、同社のパフォーマンスエンジニアリングチームは、候補者がシミュレートされたアクセラレーター用にコードを最適化する自宅課題を使用してきた。1000人以上の候補者がこれを完了し、数十名が現在同社で働いており、Claude 3 Opus以降のすべてのモデル開発に関わったエンジニアも含まれている。
しかし、新しいClaudeモデルが登場するたびに、この試験の再設計を余儀なくされてきた。同じ制限時間で、Claude Opus 4はほとんどの人間の応募者を上回った。それでも最強の候補者を区別することは可能だったが、その後登場したClaude Opus 4.5は、そのようなトップ候補者にも匹敵する結果を出した。無制限の時間を与えれば人間はまだモデルを上回れるが、自宅課題の制約下では、トップ候補者の出力と最も有能なモデルの出力とを区別する方法がなくなってしまった。
筆者は現在、試験が依然として有効な情報(シグナル)をもたらすことを保証するため、自宅課題の3つのバージョンを繰り返し開発してきた。その過程で、AIの支援に対して評価を強固にする要素とそうでない要素について、新たな知見を得ている。
この記事は、最初の自宅課題の設計、各Claudeモデルがそれをどう打ち破ったか、そして自社のトップモデルの能力に対して試験が先行し続けることを保証するために取らざるを得なかった、ますます風変わりなアプローチについて説明している。彼らの仕事内容はモデルと共に進化してきたが、強力なエンジニアはまださらに必要であり、彼らを見つけるためにはますます創造的な方法が求められている。
その一環として、無制限の時間を与えれば最高の人間のパフォーマンスは依然としてClaudeが達成できるものを上回るため、最初の自宅課題を公開課題としてリリースする。もしOpus 4.5を上回ることができれば、連絡を望んでいるとしている。
2023年11月、同社はClaude Opus 3のトレーニングとローンチの準備をしていた。新しいTPUおよびGPUクラスターを確保し、大規模なTrainiumクラスターも導入予定で、アクセラレーターへの支出は過去よりも大幅に増加していたが、新しい規模に見合う十分なパフォーマンスエンジニアがいなかった。スタッフと候補者の双方にとって多大な時間を消費する標準的な面接プロセスでは評価しきれない有望な候補者をより効率的に評価する方法が必要だった。
そこで筆者は、職務の要求を適切に捉え、最も有
原文を表示
Engineering at AnthropicDesigning AI-resistant technical evaluations
What we learned from three iterations of a performance engineering take-home that Claude keeps beating.
Written by Tristan Hume, a lead on Anthropic's performance optimization team. Tristan designed—and redesigned—the take-home test that's helped Anthropic hire dozens of performance engineers.
Evaluating technical candidates becomes harder as AI capabilities improve. A take-home that distinguishes well between human skill levels today may be trivially solved by models tomorrow—rendering it useless for evaluation.
Since early 2024, our performance engineering team has used a take-home test where candidates optimize code for a simulated accelerator. Over 1,000 candidates have completed it, and dozens now work here, including engineers who brought up our Trainium cluster and shipped every model since Claude 3 Opus.
But each new Claude model has forced us to redesign the test. When given the same time limit, Claude Opus 4 outperformed most human applicants. That still allowed us to distinguish the strongest candidates—but then Claude Opus 4.5 matched even those. Humans can still outperform models when given unlimited time, but under the constraints of the take-home test, we no longer had a way to distinguish between the output of our top candidates and our most capable model.
I've now iterated through three versions of our take-home in an attempt to ensure it still carries signal. Each time, I’ve learned something new about what makes evaluations robust to AI assistance and what doesn't.
This post describes the original take-home design, how each Claude model defeated it, and the increasingly unusual approaches I've had to take to ensure our test stays ahead of our top model’s capabilities. While the work we do has evolved alongside our models, we still need more strong engineers—just increasingly creative ways to find them.
To that end, we're releasing the original take-home as an open challenge, since with unlimited time the best human performance still exceeds what Claude can achieve. If you can best Opus 4.5, we’d love to hear from you—details are at the bottom of this post.
In November 2023, we were preparing to train and launch Claude Opus 3. We’d secured new TPU and GPU clusters, our large Trainium cluster was coming, and we were spending considerably more than we had in the past on accelerators, but we didn't have enough performance engineers for our new scale. I posted on Twitter asking people to email us, which brought in more promising candidates than we could evaluate through our standard interview pipeline, a process that consumes significant time for staff and candidates
We needed a way to evaluate candidates more efficiently. So, I took two weeks to design a take-home test that could adequately capture the demands of the role and identify the most capable applicants.
Take-homes have a bad reputation. Usually they’re filled with generic problems which engineers find boring, and which make for poor filters. My goal was different: create something genuinely engaging that would make candidates excited to participate and allow us to capture their technical skills at a high-level of resolution.
The format also offers advantages over live interviews for evaluating performance engineering skills:
Longer time horizon: Engineers rarely face deadlines of less than an hour when coding. A 4-hour window (later reduced to 2 hours) better reflects the actual nature of the job. It's still shorter than most real tasks, but we need to balance that with how onerous it is.
Realistic environment: No one watching or expecting narration. Candidates work in their own editor without distraction.
Time for comprehension and tooling: Performance optimization requires understanding existing systems and sometimes building debugging tools. Both are hard to realistically evaluate in a normal 50 minute interview.
Compatibility with AI assistance: Anthropic's general candidate guidance asks candidates to complete take-homes without AI unless indicated otherwise. For this take-home, we explicitly indicate otherwise.
Longer-horizon problems are harder for AI to solve completely, so candidates can use AI tools (as they would on the job) while still needing to demonstrate their own skills.
Beyond these format-specific goals, I applied the same principles I use when designing any interview to make the take-home:
Representative of real work: The problem should give candidates a taste of what the job actually involves.
High signal: The take-home should avoid problems that hinge on a single insight and ensure candidates have many chances to show their full abilities — leaving as little as possible to chance. It should also have a wide scoring distribution,and ensure enough depth that even strong candidates don't finish everything.
No specific domain knowledge: People with good fundamentals can learn s
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み