1件の記事
バスタマンテ氏は、Codex CLI や Claude Code などの CLI ツールを分析し、最先端研究所が学習済みモデルの重みに特定のツールの名前やスキーマ、プロンプト構造を組み込んでいると指摘。Terminal-Bench 2.0 のデータは、同じモデルでも使用するハネス(評価枠組み)を変えるだけでスコアが大きく変動することを示している。