#ベンチマーク評価のAIニュース

9件の記事

機械学習研究の芸術と禅（11 分読了）

TLDR AI は、AI 研究者になるための道は読み込みと構築にあり、成功には時間と努力、そして世界クラスとなるためには並外れた規律が必要であると述べている。

Latent Space が、AI 生成コードの質を測定する新ベンチマーク「FrontierCode」を発表し、低品質な出力（Slop）との戦いを開始した。

TLDR AI は、オープンソースモデルが最高峰のクローズドモデルより約 4〜6 ヶ月遅れており、DeepSeek R1 の発表時には差が最小だったが、その後再び拡大していると分析している。

著者が公開した自転車に乗るペリカンのベンチマークテストで、AlibabaのQwen3.6-35B-A3BがAnthropicのClaude Opus 4.7より優れた画像を生成したことを報告している。

研究者が3万4千の実世界スキルをテストした結果、AIエージェントのスキルは現実条件ではほとんど効果がなく、弱いモデルではスキルなしの方が性能が高いことが判明した。

記事は、自律走行車の未来に関する著者の賭け話やポッドキャストの紹介を挟みつつ、AIのパフォーマンス評価が複雑化している現状について言及している。

2025年4月時点で、OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proという主要AIモデルの性能評価と解釈が行われた。

Sakana AIが発表した「AI Scientist」は完全自動の科学発見システムとされるが、新規性の検証や人間による査読が行われておらず、既存研究の再述や品質保証に課題がある。