#汎用ai のAIニュース
5件の記事
LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない
AIモデルはコードベース全体を数時間で再構築できるが、単純な日常質問でつまずく。これは矛盾ではなく、現在の言語モデルの根本的限界を示している可能性がある。
The Decoder·4月10日
Claude Mythos Previewのサイバーセキュリティ能力の評価
Anthropicが公開した汎用言語モデルClaude Mythos Previewは、コンピュータセキュリティタスクで顕著な能力を示し、研究者向けに過去1ヶ月のテスト方法と結果を詳細に説明している。同社はこれをセキュリティ分野の画期的な瞬間と位置付けている。
Anthropic Red Team·4月7日·★★★★
Metaのハイパーエージェントはタスクを改善し、改善方法自体も改善する
Metaと複数の大学の研究者が「ハイパーエージェント」を開発した。このAIシステムはタスクを解決するだけでなく、自身の改善メカニズムも最適化し、異なるタスク領域で機能する自己加速型AIへの道を開く可能性がある。
The Decoder·3月28日·★★★★
研究が明らかに:AIエージェントのベンチマークはコーディングに偏り、米国労働市場の92%を無視
大規模研究が、AIエージェント開発がプログラミングタスクにほぼ集中し、労働市場の大半を無視していることを示した。
The Decoder·3月8日
OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合
OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。
The Decoder·3月6日·★★★★