メインコンテンツへスキップ

#汎用ai のAIニュース

5件の記事

LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない

AIモデルはコードベース全体を数時間で再構築できるが、単純な日常質問でつまずく。これは矛盾ではなく、現在の言語モデルの根本的限界を示している可能性がある。

The Decoder·4月10日

Claude Mythos Previewのサイバーセキュリティ能力の評価

Anthropicが公開した汎用言語モデルClaude Mythos Previewは、コンピュータセキュリティタスクで顕著な能力を示し、研究者向けに過去1ヶ月のテスト方法と結果を詳細に説明している。同社はこれをセキュリティ分野の画期的な瞬間と位置付けている。

Anthropic Red Team·4月7日·★★★★

Metaのハイパーエージェントはタスクを改善し、改善方法自体も改善する

Metaと複数の大学の研究者が「ハイパーエージェント」を開発した。このAIシステムはタスクを解決するだけでなく、自身の改善メカニズムも最適化し、異なるタスク領域で機能する自己加速型AIへの道を開く可能性がある。

The Decoder·3月28日·★★★★

研究が明らかに:AIエージェントのベンチマークはコーディングに偏り、米国労働市場の92%を無視

大規模研究が、AIエージェント開発がプログラミングタスクにほぼ集中し、労働市場の大半を無視していることを示した。

The Decoder·3月8日

OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合

OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。

The Decoder·3月6日·★★★★