Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた
HEROZ Tech Blog は、Gemini Pro を宅建試験に適用した結果、GPT-4 や Claude 2 に劣る性能を示し、専門知識を要する実務領域ではまだ一般モデルの限界が浮き彫りになったと分析している。
キーポイント
Gemini Pro の宅建試験スコアは他社モデルに劣る
Gemini Pro は GPT-4 や Claude 2 よりも正答率が低く、いずれのモデルも合格ライン(70%)には達しなかった。
特定ドメイン知識における LLM の限界が浮き彫りに
法律などの専門知識をある程度保持しているものの、実務レベルの正確な判断や合格水準に到達するには至らなかった。
Gemini Ultra への期待と今後の方向性
今回の評価は Pro モデルであり、Ultra モデルの方が GPT-4 を凌駕する可能性が示唆されており、専門特化型 LLM の開発継続を検討している。
影響分析・編集コメントを表示
影響分析
この記事は、最新の生成 AI モデルが専門的な資格試験という厳格なタスクにおいてまだ完全には実用化されていないことを示しており、業界全体にとって汎用モデルと特化型モデルの役割分担を再考するきっかけとなる。特に法律や建築といった専門知識が必要な領域では、単なる知識の暗記ではなく論理的推論能力の向上が今後の開発課題であることを浮き彫りにしている。
編集コメント
Gemini の発表が「ほぼ全指標で GPT-4 をしのぐ」と報じられる中、実証実験では逆の結果となった点は興味深い。これは「ベンチマークの指標」と「実際の専門業務」の間にはまだ大きなギャップがあることを示唆しており、AI 導入における現実的な期待値管理の重要性を伝えている。
Googleは12月7日に新しい生成AI「Gemini」を発表しました。発表会の記事によると、「グーグルの新たな生成AI基盤「Gemini」登場 ほぼ全指標でGPT-4しのぐ」とのことですので、12月13日に公開されたGemini APIを用いて、宅建試験を解かせてみました。
使用した問題は令和4年度の宅地建物取引士資格試験(回答はこちら)です。宅建試験は四択50問で構成され、令和4年度については正解がない問題が1問あったため、母数は49問となります。当社は建設業界を主要なターゲットとしているため、宅建試験を評価指標として採用しました。
評価は以下のような入力を与え、数値で示された回答を正解と比較する形で実施しました。
「質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号(例:0)で行うものとします。回答となる数値をint型で返し、他には何も含めないことを厳守してください。 ### 入力: 質問:相続に関する次の記述のうち、民法の規定によれば、誤っているものはどれか。 選択肢:0.被相続人の生前においては、相続人は、家庭裁判所の許可を受けることにより、遺留分を放棄することができる。,1.家庭裁判所への相続放棄の申述は、被相続人の生前には行うことができない。,2.相続人が遺留分の放棄について家庭裁判所の許可を受けると、当該相続人は、被相続人の遺産を相続する権利を失う。,3.相続人が被相続人の兄弟姉妹である場合、当該相続人には遺留分がない。」
比較対象として、GPT-4のgpt-4-0613とAnthropicのclaude-v2でも同様の評価を実施しました。いずれもtemperatureは0に設定しています。
GPT-4(gpt-4-0613)
Claude2(claude-v2)
Gemini(gemini-pro-vision)
詳細な正誤表
各モデルとも、当てずっぽう(四択問題なので平均すると25%になる)ではなく、ある程度はしっかり回答しているものの、いずれも合格水準(70%前後)には達していません。
モデル間では、GPT-4やClaude2の方がGeminiよりも良い性能を示しています。ただし、今回試したGeminiのモデルはPro版のみであり、GPT-4を凌駕したとされるのはUltra版とのことですので、早くUltraモデルが使用できるようになるのが待たれます。
全モデルで正解が11問(22.4%)、逆に全モデルが不正解だった問題も11問(22.4%)あり、両方を合わせると約半数になります。それ以外の問題については、特に顕著な傾向は見られませんでした。
現時点の各モデルは、宅建試験で問われる法律のような専門知識をある程度は有しているようですが、合格に至るほどには習得していないようです。実務で使用するには合格水準を超えるレベルが求められるため、特定ドメインの知識に特化したLLMの実現に向けては、さらなる取り組みが必要です。当社ではこの課題について継続して検討していく考えです。
原文を表示
Googleが12月7日に新しい生成AIであるGeminiを発表しました。 発表会の記事によると、「グーグルの新たな生成AI基盤「Gemini」登場 ほぼ全指標でGPT-4しのぐ」とのことですので、12月13日に公開されたGemini APIを使って、宅建試験を解かせてみました。
使用した問題は令和4年度の宅地建物取引士資格試験(回答はこちら)を使用しました。宅建試験は四択の50問あり、令和4年度については一問正解なしがあったので、母数は49問となります。 当社では建設業界を主要なターゲットとしているため、宅建試験を指標として採用しました。
評価は以下のような入力を与え、数字の回答を正解と比較しました。
質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号(例:0)でするものとします。 回答となる数値をint型で返し、他には何も含めないことを厳守してください。 ### 入力: 質問:相続に関する次の記述のうち、民法の規定によれば、誤っているものはどれか。 選択肢:0.被相続人の生前においては、相続人は、家庭裁判所の許可を受けることにより、遺留分を放棄することができる。,1.家庭裁判所への相続放棄の申述は、被相続人の生前には行うことができない。,2.相続人が遺留分の放棄について家庭裁判所の許可を受けると、当該相続人は、被相続人の遺産を相続する権利を失う。,3.相続人が被相続人の兄弟姉妹である場合、当該相続人には遺留分がない。
比較対象としてGPT-4のgpt-4-0613と、Anthropicのclaude-v2でも同様の評価を実施しました。いずれもtemperatureは0としています。
GPT-4(gpt-4-0613)
Claude2(claude-v2)
Gemini(gemini-pro-vision)
詳細な正誤表
各モデルとも当てずっぽう(四択問題なので平均すると25%になる)ではなく、それなりにしっかり回答しているが、いずれも合格水準(70%前後)には達していない。
モデル間ではGPT-4やClaude2の方がGeminiより良い性能を出していますが、今回試したGeminiのモデルはProしかなく、GPT-4を凌駕したのはUltraとのことですので、早くUltraモデルを使用できるのが待たれます。
全モデルで正解は11問(22.4%)、逆に不正解も11問(22.4% )で両方合わせると半分近くになります。それ以外は特に何か傾向があるようには見えませんでした。
現時点の各モデルは宅建試験で使用する法律のような専門知識をある程度は覚えているようですが、合格に至るほどは覚えていないようです。 実務で使用するには合格水準を超えるレベルを求められるため、やはり特定ドメインの知識に特化したLLMの実現に向けては取り組む必要があり、当社では継続検討していこうと考えています。
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み