GPT-5以降の最先端LLMも、長い会話で最大33%の精度低下
The Decoderの記事は、GPT-5以降の最先端大規模言語モデルでさえ、会話が長くなるにつれて最大33%の精度低下が生じるという研究結果を報告している。
キーポイント
最先端モデルでも持続する課題
GPT-5.2やClaude 4.6のような最新モデルでも、長い会話が続くと回答の質が低下する問題が依然として存在する。
具体的な性能低下の規模
会話が長くなることで、モデルの精度が最大33%も低下する可能性があることが示されている。
業界全体への影響
この問題は特定のモデルに限らず、GPT-5以降のフロンティアLLM全般に共通する根本的な課題として捉えられている。
影響分析・編集コメントを表示
影響分析
この記事は、長文対話におけるLLMの性能限界を明らかにし、実用化に向けた重要な課題を提示している。特にカスタマーサービスや長期的な対話支援などの応用分野では、この問題がユーザー体験と信頼性に直接影響を与える可能性が高い。
編集コメント
最先端モデルでも未解決の根本的課題を浮き彫りにした点で価値があるが、研究手法やデータの詳細が不足しているため、更なる検証が必要な内容と言える。

GPT-5.2やClaude 4.6のような新しいモデルであっても、AIチャットボットは会話が長くなるほど回答の質が低下します。
この記事「GPT-5以降の最先端LLMでさえ、長くチャットすると最大33%の精度低下」は、The Decoderに最初に掲載されました。
原文を表示
The latest generation of large language models—from GPT-5 onward—still struggles when tasks are spread across multiple conversation turns. Researcher Philippe Laban and his team tested current models on six tasks covering code, databases, actions, data-to-text, math, and summarization. Performance drops significantly when information is split across several messages (sharded) instead of a single prompt (concat).
Newer models did slightly better—performance degradation shrank from 39 to 33 percent—but the issue is far from solved. The biggest gains showed up in Python tasks, where some models only lost 10 to 20 percent. Laban suspects real-world losses could be even worse, since the tests used simple user simulations. Users who change their mind mid-conversation would likely cause steeper drops.
Technical tweaks like lowering temperature values don't fix the problem, the original study found. The researchers recommend starting a fresh conversation when things go sideways, ideally by having the model summarize all requests first and using that summary as the starting point for a new chat.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み