LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない
大規模言語モデルはコードや数学では優れた能力を発揮する一方、日常的な質問ではつまずくことがあり、これは矛盾ではなく現在の言語モデルの根本的な限界を示している可能性がある。
キーポイント
LLMの能力の非対称性
大規模言語モデルは複雑なコードの再構築や数学的問題解決では高い能力を示すが、単純な日常会話や常識的な質問では誤答や不適切な応答をすることがある。
矛盾ではない現象
専門的なタスクで優れている一方で日常的な質問に弱いという現象は矛盾ではなく、現在の言語モデルのアーキテクチャや学習方法に起因する特徴である。
根本的な限界の示唆
この非対称的な能力パターンは、現在の言語モデルが持つ根本的な限界を明らかにしており、より汎用的なAI開発への課題を示している。
実用化への影響
LLMの実用化においては、特定の専門領域での優れた能力と日常的な対話での限界の両方を理解し、適切なユースケースを選択することが重要である。
影響分析・編集コメントを表示
影響分析
この記事はLLMの能力評価において重要な視点を提供しており、AI開発者や実務者がモデルの限界を理解し、適切な応用領域を選択する上で役立つ。また、より汎用的なAIの開発に向けた研究課題を明確にしている。
編集コメント
LLMの評価において、専門タスクと日常対話の能力差を明確に指摘した点が興味深い。実務での適切な活用には、この非対称性を理解することが不可欠だ。

AIモデルは、コードベース全体の再構築をわずか数時間で行える一方で、単純な日常的な質問につまずくことがあります。これは矛盾ではなく、現在の言語モデルが持つ根本的な限界を明らかにしている可能性があります。
この記事「LLMsはコーディングと数学では圧倒的な力を発揮するが、日常的な質問ではつまずく――それは矛盾ではない」は、The Decoderに最初に掲載されました。
原文を表示
Skip to content
Apr 10, 2026
Nano Banana Pro prompted by THE DECODER
Why verifiability drives AI progress
AI models can solve complex programming tasks in hours but fall apart when faced with basic everyday questions. Andrej Karpathy explains why that's not actually a contradiction.
There are two different ways people think about AI progress right now, according to Karpathy. The first group has tried the free version of ChatGPT or its voice mode and walked away with an opinion shaped by silly mistakes and hallucinations. Those outdated models don't reflect where things actually stand today, Karpathy says.
The second group uses the latest models—like OpenAI's GPT-5.4 Thinking or Claude Opus 4.6—inside capable harnesses like Codex or Claude Code for professional work in programming, math, and research. Progress in these areas has been massive this year, Karpathy says, with models now capable of autonomously restructuring entire codebases or hunting down security vulnerabilities on their own. Karpathy says these two groups are basically talking past each other.
It really is simultaneously the case that OpenAI's free and I think slightly orphaned (?) "Advanced Voice Mode" will fumble the dumbest questions in your Instagram's reels and *at the same time*, OpenAI's highest-tier and paid Codex model will go off for 1 hour to coherently restructure an entire code base, or find and exploit vulnerabilities in computer systems.
Karpathy via XKarpathy's take points to something bigger: areas like code or math, where you can clearly check whether an answer is right or wrong and specifically reinforce it through reinforcement learning with verifiable rewards, are seeing more and especially measurable gains from AI progress than fuzzy domains like writing or consulting, where there's no clean metric to optimize against.
Why verifiability drives AI progress
This raises a core question in AI research right now: can general intelligence actually emerge from language models, or can these models only be tuned to perform well within specific domains?
Karpathy laid out this structural problem in an earlier essay: in the "Software 2.0" paradigm, what matters isn't whether you can specify a task, but whether you can verify the result. A system can only be trained efficiently through reinforcement learning when it gets automated feedback - pass/fail checks or clear reward signals. "The more a task/job is verifiable, the more amenable it is to automation in the new programming paradigm," Karpathy says.
Last summer, rumors circulated about a universal verifier from OpenAI that would make reinforcement learning work across all domains. So far, nothing concrete has shipped. Meanwhile, Jerry Tworek, one of the key figures behind OpenAI's reinforcement learning strategy, recently left the company and said that "deep learning research is done."
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
Subscribe now
More than 16% discount.
Read without distractions – no Google ads.
Access to comments and community discussions.
Weekly AI newsletter.
6 times a year: “AI Radar” – deep dives on key AI topics.
Up to 25 % off on KI Pro online events.
Access to our full ten-year archive.
Get the latest AI news from The Decoder.
Subscribe to The Decoder
関連記事
LLM 研究論文:2026 年 1 月から 5 月のリスト
Sebastian Raschka が、2026 年上半期(1 月〜5 月)に注目すべき大規模言語モデル関連の研究論文を選定し、一覧として公開した。
[AINews] 今日特に大きな出来事はありませんでした
Latent Space が運営するニュースレター「AINews」が、6月4日から5日にかけてのAI業界動向を12件のRedditスレッドや544件のTwitter投稿から選別して紹介しました。記事ではRL環境ガイドの推奨や、DeepSeek v4 Pro向けの最適化に関するリモートポッドの更新について言及しています。
[AINews] 今日は何も大きな出来事はありませんでした
Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。