#ベンチマーク評価 のAIニュース

9件の記事

機械学習研究の芸術と禅(11 分読了)

TLDR AI は、AI 研究者になるための道は読み込みと構築にあり、成功には時間と努力、そして世界クラスとなるためには並外れた規律が必要であると述べている。

TLDR AI·6月16日

[AINews] FrontierCode:コードの質を評価するベンチマーク「Slop」への対抗

Latent Space が、AI 生成コードの質を測定する新ベンチマーク「FrontierCode」を発表し、低品質な出力(Slop)との戦いを開始した。

Latent Space·6月9日·★★★★

話題のベンチマーク: DeepSWEについて

Algomatic Tech Blog·6月2日

オープンモデルはどれほど遅れているのか?(17 分読了)

TLDR AI は、オープンソースモデルが最高峰のクローズドモデルより約 4〜6 ヶ月遅れており、DeepSeek R1 の発表時には差が最小だったが、その後再び拡大していると分析している。

TLDR AI·5月29日·★★★★

Qwen3.6-35B-A3BがClaude Opus 4.7より優れたペリカン画像を生成

著者が公開した自転車に乗るペリカンのベンチマークテストで、AlibabaのQwen3.6-35B-A3BがAnthropicのClaude Opus 4.7より優れた画像を生成したことを報告している。

Simon Willison Blog·4月17日·★★★★

研究者が発見:AIエージェントのスキルはベンチマークでは優秀だが、現実条件では機能不全に陥る

研究者が3万4千の実世界スキルをテストした結果、AIエージェントのスキルは現実条件ではほとんど効果がなく、弱いモデルではスキルなしの方が性能が高いことが判明した。

The Decoder·4月12日

AIパフォーマンスの測定が困難になる理由

記事は、自律走行車の未来に関する著者の賭け話やポッドキャストの紹介を挟みつつ、AIのパフォーマンス評価が複雑化している現状について言及している。

Understanding AI·4月2日·★★★★

OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proの評価と解釈[2025年4月版]

2025年4月時点で、OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proという主要AIモデルの性能評価と解釈が行われた。

Algomatic Tech Blog·4月28日·★★★★

AIは計算の再現性を自動化できるか?

Sakana AIが発表した「AI Scientist」は完全自動の科学発見システムとされるが、新規性の検証や人間による査読が行われておらず、既存研究の再述や品質保証に課題がある。

AI Snake Oil·9月18日·★★★★