Giving your AI a Job Interview｜AIに職業面接を行う | AIニュース最前線

新しい AI を開発する際に、文字通りにも比喩的にもどれほどのエネルギーが費やされているかを考えると、AI の「賢さ」を正確に測定することが意外ほど難しいことがわかります。最も一般的なアプローチは、AI を人間のように扱い、テストを実施して正答数を報告することです。このようなテストはベンチマークと呼ばれ、数十種類存在し、時間とともに AI がどの程度向上するかを測定する主要な手段となっています。 このアプローチにはいくつかの問題があります。 まず、多くのベンチマークとその解答キーが公開されているため、一部の AI は偶然にも意図的にも、これらのベンチマークで高いスコアを獲得できるように、それらを基本的なトレーニングに組み込んでしまうことがあります。しかし、それが起こらなかったとしても、実はこれらのテストが本当に何を測定しているのかを私たちが知らないことが多いことが判明しています。例えば、非常に人気のある MMLU-Pro ベンチマークには、「ホモ・エレクトスの頭蓋骨容量の概算はいくらか？」や「ロックの伝説 Cheap Trick の 1979 年のライブアルバムのタイトルに名が挙げられている場所はどこか？」といった質問が含まれており、それぞれに 10 通りの選択肢があります。これを正解することが何を意味するのか、私にはわかりません。さらに、テストはしばしば較正されていないという事実を考慮すると、84% の正答率から 85% に上がる難易度が、40% から 41% に上げる難易度と同じかどうかさえわからないのです。そして、その上、多くのテストでは実際の最高得点が達成不可能な場合があり、質問自体に多くの誤りがあるため、測定結果はしばしば unusual な方法で報告されます。 ![image](https://substackcdn.com/image/fetch/$s_!CUjN!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fec731cbe-84e5-4792-915f-96f81b5e4498_1920x1080.png) すべてのベンチマークには欠陥がありますが、それらはすべて同じ方向、つまり右上へと傾向を示しています。AIME は難解な数学試験であり、GPQA は科学および法律の知識をテストし、MMLU は一般教養テストです。SWE-bench と LiveBench はコーディング能力を、Terminal-Bench はエージェントとしての能力をテストします。データは Epoch AI によるものです。 これらの問題にもかかわらず、これらすべてのベンチマークを総合すると、何らかの基礎的な能力因子を測定しているように見えます。ARC-AGI や METR Long Tasks（長期タスク）のような高品質なベンチマークも、同じく上昇し、場合によっては指数関数的な傾向を示しています。これは、医療から金融に至るまで、AI の業界全体における実際の影響に関するテストと一致しており、この「知能」の基礎的な増加が、あらゆる分野での実際の能力へと転換されていることを示唆しています。 したがって、総合的に見ればベンチマークには実質的な価値がありますが、少数の堅牢な個別ベンチマークは数学、科学、推論、そしてコーディングに焦点を当てています。ライティング能力や社会学的分析、ビジネスアドバイス、あるいは共感力を測定したい場合、選択肢は非常に限られています。これは個人および組織にとって問題を生じさせます。企業はベンチマークに基づいてどの AI を使用するかを決定し、新しい AI はベンチマーク性能に関する華々しい発表とともにリリースされます。しかし、あなたが本当に重要視するのは、あなたのニーズに最も適したモデルがどれかということです。 これを自分で理解するためには、AI に面接を行う必要があります。 バイブスによるベンチマーク ベンチマークが失敗することもある一方で、「バイブス（直感や雰囲気）」は成功することがあります。十分な数の AI モデルを扱っていれば、それらの違いを言葉で説明するのは難しいものの、容易に認識できる形で感じ取れるようになります。その結果、AI を頻繁に使用する人々の一部は、AI の能力を試すための独自のベンチマークを開発します。例えば、サイモン・ウィリソン（Simon Willison）はすべてのモデルに「自転車に乗ったペリカン」を描かせ、私はすべての画像および動画生成モデルに「飛行機の上のオッター」を作成させます。これらのアプローチは楽しいものですが、同時に AI が事物間の相互関係をどのように理解しているか、その「世界モデル」に対する感覚も与えてくれます。私には他にも数十個のテストがあり、「遠い未来の宇宙船のコックピット」のための JavaScript を作成させること（以下に古いモデルと新しいモデルの実例を示します）や、難易度の高い詩を作成させることなどがあります。また、AI にビデオゲームやシェーダーを構築させたり、学術論文を分析させたりもしています。さらに、タイムトラベルに関する問いを含む小さな執筆実験も行っています。それぞれが、モデルの動作様式についての洞察を与えてくれます：多くのエラーを犯すのか？回答は他のすべてのモデルと似ているのか？繰り返し現れるテーマやバイアスは何か？などです。 少し練習するだけで、新しいモデルの雰囲気を掴むのは容易になります。一例として、次のような執筆演習を試してみましょう：「生涯で残りの単語が一万語しかないと言われ、その残り単語を戦時中の配給のように配り歩く人物について、単一の段落を書いてください。現在、47 語を残しており、新生児を抱えています。」これらの AI を頻繁に使用している方なら、結果に対して驚くことはないでしょう。Claude 4.5 Sonnet がなぜ強力な執筆モデルとしてよく見なされているかが理解できるはずです。また、現時点でこれら 4 つのモデルの中で最も弱い Gemini 2.5 Pro は、使用した単語数を正確に追跡さえできないことがわかります。GPT-5 Thinking は小説を書く際にかなり大胆な文体になりがちで、複雑な比喩を多用する傾向がありますが、その結果として一貫性や物語性が損なわれることもあります（47 語すべてを使う人がいるかどうかはわかりませんが、少なくとも単語数は正確でした）。そして、新しい中国製のオープンウェイトモデルである Kimi K2 Thinking も同様の問題を抱えていることがわかります。興味深い表現はあるものの、物語が完全に筋が通っていないのです。 ![image](https://substackcdn.com/image/fetch/$s_!v6UE!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F74348dbd-4f11-4aeb-bab5-8624fd38d1a0_2255x863.png) バイブスを通じたベンチマーク、つまり物語やコード、あるいはカワウソの動画などを通じて行うことは、個人が AI モデルを体感する素晴らしい方法ですが、非常に主観的なものです。AI は毎回異なる回答をするため、厳密な手順を踏まなければ競争は不公平になります。また、より良いプロンプトを使用すれば結果も改善される可能性があります。最も重要なのは、私たちが実際の測定値ではなく感覚に頼っている点です。しかし、バイブスにおける明らかな違いから、標準化されたベンチマークだけでは不十分であることがわかります。特に、特定のタスクでわずかに優れた AI を持つことが実際に重要となる場合にはなおさらです。 現実世界でのベンチマーク 企業がどの AI システムを採用するかを選ぶ際、多くの場合これは技術とコストに関する判断であり、十分な性能を持つモデルを購入していることを確認するためにパブリックなベンチマークに依存します（もしベンチマークを一切使用しないとしても）。これは一部のユースケースでは問題ないかもしれませんが、すぐに破綻します。なぜなら、AI はソフトウェアというよりも、奇妙な能力や弱点を持つ人間のように振る舞う側面が強いからです。採用というアナロジーを用いて技術の導入を考えるならば、「十分である」というアプローチをベンチマークに正当化するのはより困難になります。企業は平均以上の能力を持つ人材を採用するために多額の費用を費やし、特に多くの他人に助言する立場にある人物を採用する際には非常に慎重になります。AI に対しても同様の姿勢が求められます。単に自社のためにモデルを選ぶのではなく、厳密な面接を行う必要があるのです。 AI の面接は容易な問題ではありませんが、解決可能な課題です。現実世界におけるベンチマークの最も良い例として、OpenAI の最近の GDPval 論文が挙げられます。最初のステップは実務タスクを確立することであり、OpenAI は金融から法律、小売に至るまで多様な業界で平均 14 年の経験を持つ専門家を集め、人間専門家が完了するのに平均 4〜7 時間かかる複雑で現実的なプロジェクトを作成させました（すべてのタスクはこちらでご確認いただけます）。2 つ目のステップは、これらのタスクに対して AI をテストすることです。この場合、複数の AI モデルと他の人間専門家（時給で支払われた）がそれぞれタスクを行いました。最後に評価段階があります。OpenAI は、回答が AI からのものか人間からのものかを知らない第三者の専門家グループに結果を採点させ、このプロセスには質問ごとに 1 時間以上かかりました。これらを合わせると、非常に多くの労力が必要でした。 しかし、これは AI がどこで強みを持つか（最良のモデルはソフトウェア開発から個人向けファイナンシャルアドバイザーに至る分野で人間を上回った）と、どこで弱いか（薬剤師、産業エンジニア、不動産仲介業者が最良の AI を容易に上回った）も明らかにしました。さらに、異なるモデルが異なるパフォーマンスを示したこともわかります（ChatGPT はより優れた営業マネージャーであり、Claude はより優れたファイナンシャルアドバイザーでした）。したがって、優れたベンチマークは、私たちが「AI 能力の不均衡なフロンティア」と呼ぶものの形状を把握し、それが時間とともにどのように変化するかを追跡するのに役立ちます。 ![image](https://substackcdn.com/image/fetch/$s_!X0eD!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5d2004a5-4662-4425-bf18-ac8e04e9bfff_3754x1052.png) しかし、これらのテストでも、AI が意思決定を行う際の根本的な態度という重要な課題には光を当てていません。その一例として、私は「怪しいアイデア」と考えるものに対する短いプレゼンテーションをいくつかの AI に行いました。それはドローンでグアカモレを配達する会社というものです。各 AI モデルに対して、GuacaDrone の実現可能性を 1 から 10 のスケールで評価するように求めました（AI は毎回異なる回答をするため、複数回のテストを行う必要があります）。個別の AI モデルは回答において非常に一貫していましたが、AI 間では大きなばらつきがありました。個人的にはこのアイデアに私は 2 以下と評価するところですが、モデルたちはより寛容でした。Grok はこれを素晴らしいアイデアだと考え、Microsoft Copilot も興奮していました。一方、GPT-5 や Claude 4.5 などの他のモデルはより懐疑的でした。 ![image](https://substackcdn.com/image/fetch/$s_!NfZp!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc44a5cd0-0ce9-4452-88f0-a8b1c1c7acc5_2060x1460.png) グアカモレのドローン配達サービスという私のアイデアの実現可能性はどの程度でしょうか？ これらの違いは些細なものではありません。AI が大規模に助言を行う際、アイデアに対して一貫して 3〜4 ポイント高く評価したり低く評価したりすることは、あなたを常に異なる方向へ誘導することになります。リスクを好む AI を求める企業もあれば、それを避けたいと考える企業もあるでしょう。いずれにせよ、あなたの AI が重要なビジネス課題についてどのように「思考」しているかを理解することが重要です。 モデルへの面接 AI モデルがタスク処理能力を高め、私たちの仕事や生活により深く統合されるにつれ、それらの間の違いをもっと真剣に捉え始める必要があります。日常的に AI と関わる個人にとっては、直感に基づくベンチマークで十分かもしれません。単に「オッターテスト」を実行すればよいのです。ただし私の場合、飛行機上のオッターに関するテストはすでに簡単になりすぎたため、Sora 2 で「あのバンドの有名な最後のコンサートのドキュメンタリー映像（その出来事、つまりオッターの大群との遭遇の前）」というプロンプトを試したところ、この印象的な結果を得ました。 しかし、大規模に AI を導入する組織は異なる課題に直面しています。確かに全体的な傾向は明確です：より大きく、より新しいモデルは一般的にほとんどのタスクで優れています。しかし、数千の実際のタスクを処理したり数百人の従業員に助言したりする AI を選択するという意思決定を行う際、「より優れている」というだけでは不十分です。平均的な AI が何に優れているかではなく、あなたの AI が具体的に何に優れているかを知らなければなりません。 GDPval の研究が明らかにしたのは、トップモデルの中でもタスクによってパフォーマンスに大きなばらつきがあるということです。また、GuacaDrone の事例はもう一つの側面を示しています。つまり、曖昧な質問に対する判断を要するタスクでは、異なるモデルが一貫して異なる助言を与えるのです。これらの違いは規模が拡大すると累積します。財務データの分析でわずかに劣る AI や、推奨において一貫してリスク許容度が高い AI は、単一の意思決定に影響を与えるだけでなく、数千の意思決定に波及します。 こうしたパターンを理解するために「勘」や「直感」に頼ることはできず、一般的なベンチマークに頼っても明らかにはなりません。実際に実行する業務と下す判断に基づいて、AI を体系的にテストする必要があります。自社のユースケースを反映した現実的なシナリオを作成し、複数回実行してパターンを確認します。また、専門家が結果を評価するための時間を確保してください。あなたにとって重要なタスクにおいて、モデル同士を直接比較してください。「このモデルは MMLU で 85% のスコアを獲得している」と知っていることと、「このモデルは財務分析タスクではより正確だが、リスク評価においてはより保守的である」ことを知っていることの差です。新しいモデルがリリースされ評価が必要になるたびに、年間に複数回こうした作業を行う必要があります。 その労力は価値があります。VP（最高責任者）を SAT のスコアだけで採用することはありません。同様に、組織の数千の意思決定を助言する AI を選ぶ際にも、「ホモ・エレクトスの頭蓋骨容量が 1,000 立方センチメートルに満たないことを知っているか」といった知識の有無だけで選んではなりません。 購読する 共有する ![image](https://substackcdn.com/image/fetch/$s_!DdeD!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fac6d7012-5894-4f9c-8152-a9497e7d6b6b_1376x864.png)

AIに職業面接を行う

背景や根拠まで確認しますか？

関連記事

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する