Simon Willison Blog·2026年4月11日 00:56·約2分で読める

ChatGPT音声モードは弱いモデルで動作している

#LLM #音声AI #マルチモーダル #OpenAI #GPT-4o #モデル性能

TL;DR

OpenAIのChatGPT音声モードは、最新のGPT-4oではなく古くて性能の低いモデルで動作しており、ユーザーがアクセスするインターフェースによってAIの能力認識に大きなギャップが生じていることを指摘する記事です。

AI深層分析2026年4月11日 01:41

注目/ 5段階

深度40%

キーポイント

ChatGPT音声モードのモデル性能

OpenAIのChatGPT音声モードは、最新のGPT-4oではなく、知識カットオフが2024年4月の古くて性能の低いモデルで動作している。

AI能力認識のギャップ

ユーザーがアクセスするインターフェースやドメインによって、AIの実際の能力に対する認識に大きな差が生じている。

ドメインによる性能差の要因

コード生成などの特定ドメインでは、明確な報酬関数とB2Bでの価値が高いため、開発リソースが集中し性能が大幅に向上している。

音声インターフェースの限界

無料の音声モードは単純な質問でも誤答することがあり、ユーザーが期待する「最も賢いAI」とは異なる性能レベルにある。

影響分析・編集コメントを表示

影響分析

この記事は、AIサービスのマルチモーダル展開における技術的・ビジネス的なトレードオフを明らかにし、ユーザーがAIの真の能力を正しく理解するための重要な視点を提供している。特に、無料サービスと有料サービス、音声インターフェースとテキストインターフェースの間で生じる性能ギャップは、AI製品の設計とマーケティングにおける課題を示唆している。

編集コメント

AIサービスの表層的な体験と実際の技術能力の乖離を指摘する重要な視点。ユーザー教育と透明性の課題を浮き彫りにしている。

多くの人々が気づいていないようですが、OpenAIのボイスモードは、はるかに古く、はるかに性能の低いモデルで動作しています。会話できるAIは最も賢いAIであるはずだと感じられますが、実際にはそうではないのです。

ChatGPTのボイスモードに知識のカットオフ日を尋ねると、2024年4月だと答えます。これはGPT-4o時代のモデルです。

この考えは、人々がモデルを利用するアクセスポイントや領域に基づく、AI能力に対する理解の格差が広がっていることについての、カーパシーのこのツイートに触発されました：

[...] 実際に同時に起こっているのは、OpenAIの無料で、おそらく少し放置されている（？）「アドバンスト・ボイスモード」が、Instagramのリールで最も単純な質問にもつまずく一方で、*同時に*、OpenAIの最高階層で有料のCodexモデルが1時間かけてコードベース全体を首尾一貫して再構築したり、コンピュータシステムの脆弱性を発見・悪用したりするということです。

後者の部分は実際に機能しており、劇的な進歩を遂げています。これには2つの特性が関係しています：

これらの領域は検証可能な明示的な報酬関数を提供するため、強化学習によるトレーニングに適しています（例えば、ユニットテストの合格・不合格は、はるかに明確な判断が難しい文章執筆とは対照的です）。
これらの領域はB2B環境ではるかに価値が高いため、チームの大部分がそれらの改善に注力しているのです。

タグ: andrej-karpathy, generative-ai, openai, chatgpt, ai, llms

原文を表示

I think it's non-obvious to many people that the OpenAI voice mode runs on a much older, much weaker model - it feels like the AI that you can talk to should be the smartest AI but it really isn't.

If you ask ChatGPT voice mode for its knowledge cutoff date it tells you April 2024 - it's a GPT-4o era model.

This thought inspired by this Karpathy tweet about the growing gap in understanding of AI capability based on the access points and domains people are using the models with:

[...] It really is simultaneously the case that OpenAI's free and I think slightly orphaned (?) "Advanced Voice Mode" will fumble the dumbest questions in your Instagram's reels and at the same time, OpenAI's highest-tier and paid Codex model will go off for 1 hour to coherently restructure an entire code base, or find and exploit vulnerabilities in computer systems.
This part really works and has made dramatic strides because 2 properties:
these domains offer explicit reward functions that are verifiable meaning they are easily amenable to reinforcement learning training (e.g. unit tests passed yes or no, in contrast to writing, which is much harder to explicitly judge), but also
they are a lot more valuable in b2b settings, meaning that the biggest fraction of the team is focused on improving them.

Tags: andrej-karpathy, generative-ai, openai, chatgpt, ai, llms

この記事をシェア

Ars Technica AI★42026年5月5日 04:03

教育におけるChatGPTの有用性を主張した研究が撤回される

Springer Nature は、OpenAI の ChatGPT が学習成果にプラスの影響を与えると主張した研究について、分析上の不整合と結論への信頼性欠如を理由に撤回を発表しました。この論文は出版後約1年で数百件の引用を集め、SNS でも話題となりましたが、著者による注目すべき主張には問題があったことが判明しました。

404 Media★42026年5月5日 02:56

Nature が ChatGPT の教育効果に関する論文を撤回

学術誌 Nature は、AI が学生の学習成績や思考力にプラスの影響を与えると主張したメタ分析論文を撤回しました。この論文は 5 月に発表され、ChatGPT の教育的利点を示す根拠として引用されていましたが、調査の結果問題が発覚し取り下げられました。

TLDR AI★32026年5月4日 09:00

OpenAI、Codex にアニメーションペットと設定ファイル自動インポート機能を追加

OpenAI は開発ツール「Codex」を更新し、画面にオーバーレイ表示されるアニメーションペット機能や、他コードエージェントからの設定ファイル自動インポート、音声入力精度向上のための辞書機能を追加した。これによりデスクトップアプリとしての利便性と魅力が強化された。

ニュース一覧に戻る元記事を読む